39 sprog automatisk: hvordan vores AI-oversættelse håndterer fagterminologi

Maskinoversættelse er i dag så god, at man i mange tilfælde ikke længere kan skelne den fra menneskelig oversættelse. Oversættelsestjenesterne leverer flydende, idiomatiske oversættelser med sans for sprogregister. Så oversætter man et DPP-datasæt - og pludselig bliver »rear lock fiber closure« til »Hinterschloss-Faserverschluss«.

Problemet hedder fagterminologi. Her forklarer vi, hvorfor produktdata ikke skal behandles som romaner, og hvilke værktøjer Transpareo stiller til rådighed, så dine 39 sprogversioner forbliver forståelige.

Grundproblemet: ét ord, flere betydninger

»Seal« i DPP-dataene for en outdoor-jakke: tætning. »Seal« i et laboratorium: sæl eller tætning, afhængigt af konteksten. »Seal« i en vedligeholdelsesprotokol: under visse omstændigheder et segl.

En generel oversættelsesmodel vælger ud fra den statistiske kontekst. I en sammenhængende tekst fungerer det - romanen leverer rigelig kontekst. I et datafelt primary_closure: seal er der næsten ingen kontekst. Modellen gætter.

Det resulterer i subtile fejl. Ikke så dramatiske som »Hinterschloss-Faserverschluss«, men med store konsekvenser: En komponent, der på tysk kaldes »Dichtung«, hedder pludselig »sigillo« i stedet for »guarnizione« i et italiensk DPP. En indkøber kan ikke længere finde reservedelen.

Hvad Transpareo tilbyder i dag

Vores oversættelsessystem overfører automatisk alt nyt indhold til alle aktive sprog. Det er kendetegnet ved fire egenskaber:

Bevarelse af Markdown og variabler: Pladsholdere som <a href="/da/registrere">Pro-Mitgliedschaft</a> og Markdown-strukturer udtrækkes før oversættelsen, den rene tekst oversættes, og derefter indsættes strukturerne igen uændret. På den måde forbliver links, formularer og layout konsistente på tværs af alle sprog.
Centrale oversættelsesposter: Oversættelserne gemmes ikke i selve dataposten, men i et fælles lag. Flere dataposter med samme originaltekst deler én oversættelse. Det sparer oversættelsesomkostninger og standardiserer automatisk terminologien på tværs af datamodellen.
Automatisk genoversættelse ved ændringer: Hvis originalteksten ændres, genereres oversættelserne på alle sprog på ny. En rettelse på tysk - 38 andre sprogversioner følger automatisk.
Markeringer pr. datapost: Indhold kan undtages fra den automatiske oversættelsesrunde, eller eksisterende oversættelser kan låses fast - f.eks. for internationale produktnavne eller manuelle rettelser.

Hvor kunden supplerer behandlingen

Den automatiske oversættelse leverer for det meste korrekte resultater for beskrivende tekster, marketingtekster og vedligeholdelsesvejledninger. Ved kritisk fagterminologi - såsom »seal«/»guarnizione« - forbliver der en restmængde fejl, som kundens administrator skal rette.

Her har administratoren tre muligheder:

Manuel overskrivning pr. sprog og nøgle: Hver oversættelsespost kan åbnes i Applikationsmanageren og tilpasses for hvert sprog. Med markeringen »Fastlåst« bevares denne manuelle oversættelse ved den næste automatiske oversættelsesrunde.
Import af ordliste: Eksisterende terminologi fra oversættelsesværktøjer eller PDF-ordlister kan importeres som CSV-fil og genererer direkte indtastede oversættelsesposter.
Korrektioner pr. sprog under drift: En italiensk salgsafdeling opdager en fejl, retter den i Applikations-Manager - korrektionen træder straks i kraft, mens de øvrige oversættelser forbliver uændrede.

Virkeligheden med EU-sprogene

24 officielle EU-sprog lyder af meget. I praksis er der tale om tre lag:

Kernemarkeder: DE, EN, FR, IT, ES, NL - her forventer alle forbrugere perfektion
Vigtige markeder: PT, PL, SV, DA, FI - godt niveau, lejlighedsvis kan man mærke, at det er maskinoversættelse
Sjældne sprog: MT, GA, ET, LV, LT - nogle gange har man en DPP på maltesisk, uden at en eneste slutforbruger på Malta nogensinde scanner den. Alligevel er det obligatorisk.

Kravet er ikke valgfrit. ESPR kræver DPP-indhold på sproget i den medlemsstat, hvor produktet sælges. Den, der betjener 27 stater, har altså 24 sprog i spil (nogle deler sprog).

Hvorfor et centraliseret lokaliseringslag

De fleste platforme gemmer oversættelser som ekstra felter i datasættet: description_de, description_en, … 39 felter pr. oversætteligt attribut. Det lyder enkelt, men har tre ulemper:

Dobbelt opbevaret tekst. To produkter med samme materialeangivelse genererer 39 + 39 oversættelser i stedet for én gang 39
Svært at skalere. At tilføje et 40. sprog betyder: skemaoverførsel på tværs af alle oversættelige modeller
Rettelser er svære at anvende globalt. Hvis »guarnizione« rettes overalt, skal alle dataposter redigeres enkeltvis

Det opdelte oversættelseslag løser dette: én post, mange referencer. Én rettelse, alle dataposter drager fordel af den.

Hvad vi endnu ikke har

En kundespecifik terminologidatabase med automatisk genkendelse af forslag er i udviklingsplanen, men er endnu ikke leveret. Den, der starter i dag, kommer langt med de eksisterende værktøjer: manuelle overskrivninger, import af ordlister og markering af fastholdelse dækker de hyppigste anvendelsestilfælde.

Vi mener, at maskiner bør udføre hovedparten af arbejdet, og at mennesker kun skal gribe ind, hvor det virkelig er nødvendigt. Indtil den automatiske terminologigenkendelse er tilgængelig, er den manuelle indgriben gennemsigtig - og det er mere ærligt end et løfte, der ikke indfries.