39 språk automatisk: hvordan vår AI-oversettelse håndterer fagterminologi

Maskinoversettelse er i dag så god at man i mange tilfeller ikke lenger kan skille den fra menneskelig oversettelse. Oversettelsestjenestene leverer flytende, idiomatiske oversettelser med sans for språkregister. Så oversetter man et DPP-datasett - og plutselig blir «rear lock fiber closure» til «Hinterschloss-Faserverschluss».

Problemet heter fagterminologi. Her forklarer vi hvorfor produktdata ikke skal behandles som romaner, og hvilke verktøy Transpareo stiller til rådighet for at de 39 språkversjonene dine skal forbli forståelige.

Grunnproblemet: ett ord, flere betydninger

«Seal» i DPP-dataene til en friluftsjakke: tetning. «Seal» i et laboratorium: sel eller tetning, avhengig av konteksten. «Seal» i en vedlikeholdsrapport: under visse omstendigheter et segl.

En generell oversettelsesmodell velger ut fra den statistiske konteksten. I en flytende tekst fungerer dette - romanen gir rikelig med kontekst. I et datafelt primary_closure: seal er det knapt noen kontekst. Modellen må gjette.

Resultatet blir subtile feil. Ikke så dramatiske som «Hinterschloss-Faserverschluss», men med store konsekvenser: en komponent som på tysk kalles «Dichtung», heter plutselig «sigillo» i stedet for «guarnizione» i en italiensk DPP. En innkjøper finner ikke lenger reservedelen.

Hva Transpareo tilbyr i dag

Vårt oversettelsessystem overfører alt nytt innhold automatisk til alle aktive språk. Fire egenskaper kjennetegner det:

Bevaring av Markdown og variabler: Plassholdere som <a href="/nb/registrere-seg">Pro-Mitgliedschaft</a> og Markdown-strukturer blir ekstrahert før oversettelsen, selve teksten blir oversatt, og deretter settes strukturene inn igjen uten endringer. Slik forblir lenker, skjemaer og layout konsistente på tvers av alle språk.
Sentrale oversettelsesoppføringer: Oversettelsene lagres ikke i selve dataposten, men i et delt lag. Flere dataposter med samme originaltekst deler én oversettelse. Dette sparer oversettelseskostnader og standardiserer begrepene automatisk på tvers av datamodellen.
Automatisk ny oversettelse ved endring: Hvis originalteksten endres, genereres oversettelsene på nytt i alle språk. En rettelse på tysk - 38 andre språkversjoner følger automatisk.
Markeringer per datapost: Innhold kan unntas fra den automatiske prosessen, eller eksisterende oversettelser kan låses - for eksempel for internasjonale produktnavn eller manuelle rettelser.

Der kunden supplerer behandlingen

Den automatiske oversettelsen gir stort sett korrekte resultater for beskrivende tekster, markedsføringstekster og vedlikeholdsanvisninger. Når det gjelder kritisk fagterminologi - «seal»/«guarnizione» - gjenstår det en liten mengde feil som kundens administrator må korrigere.

Her har administratoren tre muligheter:

Manuell overskriving per språk og nøkkel: Hver oversettelsesoppføring kan åpnes i Applikasjonsbehandleren og tilpasses for hvert språk. Med «Lås»-merket beholdes denne manuelle oversettelsen ved neste automatiske oversettelsesrunde.
Import av ordliste: Eksisterende terminologi fra oversettelsesverktøy eller PDF-ordlister kan importeres som CSV-fil og genererer direkte skrevne oversettelsesoppføringer.
Korrigeringer per språk under drift: En italiensk salgsavdeling oppdager en feil, korrigerer den i Application Manager - korrigeringen trer i kraft umiddelbart, mens de øvrige oversettelsene forblir uendret.

Realiteten rundt EU-språkene

24 offisielle EU-språk høres ut som mye. I praksis er det tre nivåer:

Kjerneområder: DE, EN, FR, IT, ES, NL - her forventer alle forbrukere perfeksjon
Viktige markeder: PT, PL, SV, DA, FI - godt nivå, av og til merker man at det er maskinoversettelse
Sjeldne språk: MT, GA, ET, LV, LT - noen ganger har man en DPP på maltesisk uten at en eneste sluttbruker på Malta noensinne skanner den. Likevel er det obligatorisk.

Kravet er ikke valgfritt. ESPR krever DPP-innhold på språket i den medlemsstaten der produktet selges. Den som betjener 27 stater, har altså 24 språk å forholde seg til (noen deler språk).

Hvorfor et sentralisert lokaliseringslag

De fleste plattformer lagrer oversettelser som ekstra felt i datasettet: description_de, description_en, … 39 felt per oversettbart attributt. Høres enkelt ut, men har tre ulemper:

Tekst som lagres to ganger. To produkter med samme materialbeskrivelse genererer 39 + 39 oversettelser i stedet for én gang 39
Vanskelig å skalere. Å legge til et 40. språk innebærer: skjemamigrering på tvers av alle oversettbare modeller
Korrigeringer er vanskelige å anvende globalt. Hvis «guarnizione» korrigeres overalt, må alle dataposter redigeres hver for seg

Det delte oversettelseslaget løser dette: én oppføring, mange referanser. Én korreksjon, alle dataposter drar nytte av det.

Det vi ikke har ennå

En kundespesifikk terminologidatabase med automatisk gjenkjenning av forslag er under utvikling, men er foreløpig ikke tilgjengelig. De som starter i dag, kommer langt med de eksisterende verktøyene: manuelle overskrivninger, import av ordlister og «hold fast»-merking dekker de vanligste bruksområdene.

Vi mener at maskiner bør utføre størstedelen av arbeidet, og at mennesker bare bør gripe inn der det virkelig er nødvendig. Inntil den automatiske terminologigjenkjenningen er tilgjengelig, er den manuelle løsningen transparent - og det er ærligere enn et løfte som ikke innfris.