39 nyelv automatikusan: hogyan kezeli szaknyelvi kifejezéseket a mesterséges intelligencia alapú fordításunk

A gépi fordítás manapság már olyan jó, hogy sok esetben nem lehet megkülönböztetni az emberi fordítástól. A fordítási szolgáltatások folyékonyan, idiomatikus módon, a stílusra való érzékkel működnek. Aztán lefordítunk egy DPP-adatsort - és hirtelen a „rear lock fiber closure” „hátsó zár szálzárás” lesz.

A probléma a szaknyelv. Itt elmagyarázzuk, miért nem szabad a termékadatokat úgy kezelni, mint a regényeket, és milyen eszközöket biztosít a Transpareo ahhoz, hogy 39 nyelvi változatuk érthető maradjon.

Az alapvető probléma: egy szó, több jelentés

A „Seal” szó egy outdoor kabát DPP-jében: tömítés. „Seal” egy laboratóriumban: fók vagy tömítés, a kontextustól függően. „Seal” egy karbantartási jegyzőkönyvben: bizonyos körülmények között pecsét.

Egy általános fordítási modell a statisztikai kontextus alapján választ. Folyékony szöveg esetén ez működik - a regény bőséges kontextust nyújt. A primary_closure: seal adatmezőben alig van kontextus. A modell csak találgat.

Ennek következtében finom hibák keletkeznek. Nem olyan drámaiak, mint a „Hinterschloss-Faserverschluss”, de következményesek: egy alkatrész, amelyet németül „Dichtung”-nak neveznek, egy olasz DPP-ben hirtelen „sigillo”-nak hívják „guarnizione” helyett. Egy beszerző már nem találja meg a pótalkatrészt.

Mit nyújt ma a Transpareo

Fordítási rendszerünk minden új tartalmat automatikusan átvisz az összes aktív nyelvre. Négy tulajdonság jellemzi:

Markdown és változók megőrzése: a helyőrzőket, mint példáula<a href="/hu/regisztrálni">Pro-Mitgliedschaft</a>, és a Markdown-szerkezeteket a fordítás előtt kivonjuk, a tiszta szöveget lefordítjuk, majd a szerkezeteket változatlanul visszahelyezzük. Így a linkek, űrlapok és az elrendezés minden nyelven konzisztens marad.
Központi fordítási bejegyzések: A fordításokat nem magában az adatrekordban tároljuk, hanem egy megosztott rétegben. Több, azonos eredeti szöveggel rendelkező adatrekord osztozik egy fordításon. Ez csökkenti a fordítási költségeket, és automatikusan egységesíti a kifejezéseket az adatmodell egészében.
Automatikus újrafordítás módosítás esetén: Ha az eredeti szöveg megváltozik, a fordítások minden nyelven újra generálódnak. Egy javítás a német nyelven - 38 másik nyelvi változat automatikusan követi.
Adatrekordonkénti jelölések: A tartalmak kizárhatók az automatikus feldolgozásból, vagy a meglévő fordítások rögzíthetők - például nemzetközi terméknevek vagy kézi javítások esetén.

Ahol az ügyfél kiegészíti a feldolgozást

Az automatikus fordítás nagyrészt helyes eredményeket szolgáltat a leíró szövegek, marketing szövegek és karbantartási utasítások esetében. Kritikus szakszókincs - például a „seal”/„guarnizione” - esetén marad egy kis mennyiségű hiba, amelyet az ügyfél rendszergazdájának kell kijavítania.

Itt az adminisztrátornak három lehetősége van:

Kézi felülírás nyelvenként és kulcsszóként: Minden fordítási bejegyzés megnyitható az Alkalmazáskezelőben, és nyelvenként módosítható. A rögzítés jelöléssel ez a kézi fordítás megmarad a következő automatikus futtatáskor is.
Szótárimport: A fordítóeszközökből vagy PDF-szótárakból származó meglévő terminológiák CSV-fájlként importálhatók, és közvetlenül leírt fordítási bejegyzéseket hoznak létre.
Nyelvenkénti javítások működés közben: egy olasz értékesítési munkatárs észrevesz egy hibát, kijavítja azt az Alkalmazáskezelőben - a javítás azonnal hatályba lép, a többi fordítás változatlan marad.

Az EU-nyelvek valósága

24 EU-hivatalos nyelv - ez soknak tűnik. A gyakorlatban azonban három réteg különböztethető meg:

Fő piacok: DE, EN, FR, IT, ES, NL - itt minden fogyasztó tökéletességet vár
Jelentős piacok: PT, PL, SV, DA, FI - jó színvonal, néha észrevehető a gépi fordítás
Ritka nyelvek: MT, GA, ET, LV, LT - néha előfordul, hogy van egy máltai nyelvű DPP, anélkül, hogy valaha is egy végfelhasználó Máltán beolvasná. Ennek ellenére kötelező.

Ez a kötelezettség nem opcionális. Az ESPR előírja, hogy a DPP-tartalmaknak annak a tagállamnak a nyelvén kell szerepelniük, ahol a terméket értékesítik. Aki 27 országot szolgál ki, annak tehát 24 nyelvvel kell számolnia (néhány ország megosztja a nyelveket).

Miértvan szükség## egy központosított lokalizációs rétegre?

A legtöbb platform a fordításokat kiegészítő mezőkként tárolja az adatrekordban: description_de, description_en, … 39 mező fordítható attribútumonként. Egyszerűnek tűnik, de három hátránya van:

Duplikált szöveg. Két, azonos anyagmegjelöléssel rendelkező termék 39 + 39 fordítást eredményez, ahelyett, hogy egyszerre csak 39-et
Nehezen skálázható. Egy 40. nyelv hozzáadása azt jelenti: sémamigráció az összes fordítható modellre kiterjedően
A javítások nehezen alkalmazhatók globálisan. Ha a „guarnizione” szót mindenhol kijavítják, akkor az összes adatrekordot egyenként kellene szerkeszteni.

A megosztott fordítási réteg megoldja ezt: egy bejegyzés, sok hivatkozás. Egy javítás, és az összes adatrekord részesül belőle.

Ami még nincs meg

Egy ügyfélspecifikus terminológiai adatbázis automatikus javaslatfelismeréssel a fejlesztési tervekben szerepel, de jelenleg még nem áll rendelkezésre. Aki ma kezd bele, a meglévő eszközökkel is messzire jut: a kézi felülírások, a szótárimportok és a rögzítési jelölés lefedik a leggyakoribb felhasználási eseteket.

Úgy véljük, hogy a gépeknek kell elvégezniük a munka nagy részét, az emberek pedig csak ott avatkozzanak be, ahol valóban szükséges. Amíg az automatikus terminológiafelismerés elérhetővé nem válik, a kézi beavatkozás átlátható - és ez őszintébb, mint egy be nem tartott ígéret.