39 talen automatisch: hoe onze AI-vertaling omgaat met vakterminologie

Machinale vertaling is tegenwoordig zo goed dat je deze in veel gevallen niet meer van menselijke vertalingen kunt onderscheiden. Vertaaldiensten werken vloeiend, idiomatisch en met gevoel voor stijl. Dan vertaal je een DPP-gegevensset - en plotseling wordt ‘rear lock fiber closure’ ‘Hinterschloss-Faserverschluss’.

Het probleem heet vakterminologie. Hier leggen we uit waarom productgegevens niet als romans moeten worden behandeld en welke hulpmiddelen Transpareo ter beschikking stelt, zodat uw 39 taalversies begrijpelijk blijven.

Het kernprobleem: één woord, meerdere betekenissen

‘Seal’ in de DPP van een outdoorjas: afdichting. ‘Seal’ in een laboratorium: zeehond of afdichting, afhankelijk van de context. ‘Seal’ in een onderhoudsprotocol: in bepaalde gevallen een zegel.

Een algemeen vertaalmodel maakt een keuze op basis van de statistische context. Bij een vloeiende tekst werkt dat - de roman biedt voldoende context. Bij een gegevensveld primary_closure: seal is er nauwelijks context. Het model doet een gok.

Het gevolg zijn subtiele fouten. Niet zo dramatisch als ‘Hinterschloss-Faserverschluss’, maar wel ingrijpend: een onderdeel dat in het Duits ‘Dichtung’ wordt genoemd, heet in een Italiaans DPP plotseling ‘sigillo’ in plaats van ‘guarnizione’. Een inkoper kan het reserveonderdeel niet meer vinden.

Wat Transpareo vandaag de dag presteert

Ons vertaalsysteem zet elke nieuwe inhoud automatisch om naar alle actieve talen. Vier kenmerken typeren het:

Behoud van Markdown en variabelen: plaatshouders zoals <a href="/nl/registreren">Pro-lidmaatschap</a> en Markdown-structuren worden vóór de vertaling geëxtraheerd, de pure tekst wordt vertaald en vervolgens worden de structuren ongewijzigd weer ingevoegd. Zo blijven links, formulieren en lay-out consistent in alle talen.
Centrale vertaalrecords: vertalingen worden niet in het record zelf opgeslagen, maar in een gedeelde laag. Meerdere records met dezelfde originele tekst delen één vertaling. Dit bespaart vertaalkosten en zorgt automatisch voor uniformiteit van termen in het hele datamodel.
Automatische hervertaling bij wijzigingen: als de originele tekst wordt gewijzigd, worden de vertalingen in alle talen opnieuw gegenereerd. Een correctie in het Duits - 38 andere taalversies volgen automatisch.
Markeringen per record: Inhoud kan worden uitgesloten van de automatische verwerking of bestaande vertalingen kunnen worden vastgelegd - bijvoorbeeld voor internationale productnamen of handmatige correcties.

Waar de klant de verwerking aanvult

De automatische vertaling levert grotendeels correcte resultaten op voor beschrijvingsteksten, marketingteksten en onderhoudsinstructies. Bij kritische vakterminologie - zoals ‘seal’/‘guarnizione’ - blijft er een resthoeveelheid fouten over die de beheerder van de klant moet corrigeren.

Hier heeft de beheerder drie mogelijkheden:

Handmatig overschrijven per taal en sleutel: elk vertaalitem kan in de Applicatiebeheerder worden geopend en per taal worden aangepast. Met de markering ‘Vastleggen’ blijft deze handmatige vertaling behouden bij de volgende automatische vertaalronde.
Import van een woordenlijst: Bestaande terminologie uit vertaaltools of PDF-woordenlijsten kan als CSV-bestand worden geïmporteerd en genereert direct geschreven vertaalvermeldingen.
Correcties per taal tijdens het gebruik: een Italiaanse verkoopafdeling merkt een fout op, corrigeert deze in de Application Manager - de correctie is onmiddellijk van kracht, de overige vertalingen blijven ongewijzigd.

De realiteit van de EU-talen

24 officiële EU-talen klinkt als veel. In de praktijk zijn er drie niveaus:

Kernmarkten: DE, EN, FR, IT, ES, NL - hier verwacht elke consument perfectie
Belangrijke markten: PT, PL, SV, DA, FI - goed niveau, af en toe merk je dat de vertaling door een machine is gedaan
Zeldzame talen: MT, GA, ET, LV, LT - soms heb je een DPP in het Maltees, zonder dat er ooit een eindgebruiker in Malta de barcode scant. Toch is het verplicht.

Deze verplichting is niet optioneel. De ESPR vereist DPP-inhoud in de taal van de lidstaat waar het product wordt verkocht. Wie 27 landen bedient, heeft dus te maken met 24 talen (sommige delen talen).

Waarom een gecentraliseerde lokalisatielaag

De meeste platforms slaan vertalingen op als extra velden bij het gegevensrecord: description_de, description_en, … 39 velden per vertaalbaar kenmerk. Klinkt eenvoudig, maar heeft drie nadelen:

Dubbel opgeslagen tekst. Twee producten met dezelfde materiaalvermelding genereren 39 + 39 vertalingen in plaats van één keer 39
Moeilijk schaalbaar. Een 40e taal toevoegen betekent: schemamigratie voor alle vertaalbare modellen
Correcties zijn moeilijk globaal toe te passen. Als ‘guarnizione’ overal wordt gecorrigeerd, zouden alle gegevensrecords afzonderlijk moeten worden bewerkt

De gesplitste vertaallaag lost dit op: één vermelding, veel verwijzingen. Eén correctie, alle gegevensrecords profiteren ervan.

Wat we nog niet hebben

Een klantspecifieke terminologiedatabase met automatische herkenning van suggesties staat op de ontwikkelingsplanning, maar is op dit moment nog niet beschikbaar. Wie vandaag begint, komt met de bestaande tools al een heel eind: handmatig overschrijven, het importeren van woordenlijsten en de markering ‘vastleggen’ dekken de meest voorkomende gebruikssituaties.

Wij zijn van mening dat machines het grootste deel van het werk moeten doen en dat mensen alleen moeten ingrijpen waar dat echt nodig is. Totdat de automatische terminologieherkenning beschikbaar is, is de handmatige aanpak transparant - en dat is eerlijker dan een belofte die niet wordt nagekomen.