Hello, I get nonsense when trying to translate the following german sentence to swedish using google/madlad400-3b-mt:
a. Natürliche Personen: BundID mit ELSTER-Zertifikat oder nPA/eID/eAT-Authentifizierung
b. Juristische Personen: Unternehmenskonto BUND mit ELSTER-Zertifik
→
. Personen mit Behinderung: BundesID mit ELSTER-Zertifikat oder nPA/eID/eAT-Authentifizierung c. Personen mit Behinderung: BundesID mit ELSTER-Zertifikat oder nPA db. Personen mit Behinderung: BundesID mit ELSTER-Zertifikat oder nPA/e
Code:
pipe = pipeline("translation", model="google/madlad400-3b-mt")
pipe('<2sv>'+input, max_length = n_words*5)
This is likely due to the abundance of abbreviations and special words.
Is there a per sentence metric I can use to measure bad tokenizations? A naive one would be to calulate the percentage of unknown tokens. In my case the problem seems to be that it falsely attends to abbreviations rather than unknown confusion.