A gépi fordítás manapság már olyan jó, hogy sok esetben nem lehet megkülönböztetni az emberi fordítástól. A fordítási szolgáltatások folyékonyan, idiomatikus módon, a stílusra való érzékkel működnek. Aztán lefordítunk egy DPP-adatsort - és hirtelen a „rear lock fiber closure” „hátsó zár szálzárás” lesz.
A probléma a szaknyelv. Itt elmagyarázzuk, miért nem szabad a termékadatokat úgy kezelni, mint a regényeket, és milyen eszközöket biztosít a Transpareo ahhoz, hogy 39 nyelvi változatuk érthető maradjon.
Az alapvető probléma: egy szó, több jelentés
A „Seal” szó egy outdoor kabát DPP-jében: tömítés. „Seal” egy laboratóriumban: fók vagy tömítés, a kontextustól függően. „Seal” egy karbantartási jegyzőkönyvben: bizonyos körülmények között pecsét.
Egy általános fordítási modell a statisztikai kontextus alapján választ. Folyékony szöveg esetén ez működik - a regény bőséges kontextust nyújt. A primary_closure: seal adatmezőben alig van kontextus. A modell csak találgat.
Ennek következtében finom hibák keletkeznek. Nem olyan drámaiak, mint a „Hinterschloss-Faserverschluss”, de következményesek: egy alkatrész, amelyet németül „Dichtung”-nak neveznek, egy olasz DPP-ben hirtelen „sigillo”-nak hívják „guarnizione” helyett. Egy beszerző már nem találja meg a pótalkatrészt.
Mit nyújt ma a Transpareo
Fordítási rendszerünk minden új tartalmat automatikusan átvisz az összes aktív nyelvre. Négy tulajdonság jellemzi:
-
Markdown és változók megőrzése: a helyőrzőket, mint példáula
<a href="/hu/regisztrálni">Pro-Mitgliedschaft</a>, és a Markdown-szerkezeteket a fordítás előtt kivonjuk, a tiszta szöveget lefordítjuk, majd a szerkezeteket változatlanul visszahelyezzük. Így a linkek, űrlapok és az elrendezés minden nyelven konzisztens marad. - Központi fordítási bejegyzések: A fordításokat nem magában az adatrekordban tároljuk, hanem egy megosztott rétegben. Több, azonos eredeti szöveggel rendelkező adatrekord osztozik egy fordításon. Ez csökkenti a fordítási költségeket, és automatikusan egységesíti a kifejezéseket az adatmodell egészében.
- Automatikus újrafordítás módosítás esetén: Ha az eredeti szöveg megváltozik, a fordítások minden nyelven újra generálódnak. Egy javítás a német nyelven - 38 másik nyelvi változat automatikusan követi.
- Adatrekordonkénti jelölések: A tartalmak kizárhatók az automatikus feldolgozásból, vagy a meglévő fordítások rögzíthetők - például nemzetközi terméknevek vagy kézi javítások esetén.
Ahol az ügyfél kiegészíti a feldolgozást
Az automatikus fordítás nagyrészt helyes eredményeket szolgáltat a leíró szövegek, marketing szövegek és karbantartási utasítások esetében. Kritikus szakszókincs - például a „seal”/„guarnizione” - esetén marad egy kis mennyiségű hiba, amelyet az ügyfél rendszergazdájának kell kijavítania.
Itt az adminisztrátornak három lehetősége van:
- Kézi felülírás nyelvenként és kulcsszóként: Minden fordítási bejegyzés megnyitható az Alkalmazáskezelőben, és nyelvenként módosítható. A rögzítés jelöléssel ez a kézi fordítás megmarad a következő automatikus futtatáskor is.
- Szótárimport: A fordítóeszközökből vagy PDF-szótárakból származó meglévő terminológiák CSV-fájlként importálhatók, és közvetlenül leírt fordítási bejegyzéseket hoznak létre.
- Nyelvenkénti javítások működés közben: egy olasz értékesítési munkatárs észrevesz egy hibát, kijavítja azt az Alkalmazáskezelőben - a javítás azonnal hatályba lép, a többi fordítás változatlan marad.
Az EU-nyelvek valósága
24 EU-hivatalos nyelv - ez soknak tűnik. A gyakorlatban azonban három réteg különböztethető meg:
- Fő piacok: DE, EN, FR, IT, ES, NL - itt minden fogyasztó tökéletességet vár
- Jelentős piacok: PT, PL, SV, DA, FI - jó színvonal, néha észrevehető a gépi fordítás
- Ritka nyelvek: MT, GA, ET, LV, LT - néha előfordul, hogy van egy máltai nyelvű DPP, anélkül, hogy valaha is egy végfelhasználó Máltán beolvasná. Ennek ellenére kötelező.
Ez a kötelezettség nem opcionális. Az ESPR előírja, hogy a DPP-tartalmaknak annak a tagállamnak a nyelvén kell szerepelniük, ahol a terméket értékesítik. Aki 27 országot szolgál ki, annak tehát 24 nyelvvel kell számolnia (néhány ország megosztja a nyelveket).
Miértvan szükség## egy központosított lokalizációs rétegre?
A legtöbb platform a fordításokat kiegészítő mezőkként tárolja az adatrekordban: description_de, description_en, … 39 mező fordítható attribútumonként. Egyszerűnek tűnik, de három hátránya van:
- Duplikált szöveg. Két, azonos anyagmegjelöléssel rendelkező termék 39 + 39 fordítást eredményez, ahelyett, hogy egyszerre csak 39-et
- Nehezen skálázható. Egy 40. nyelv hozzáadása azt jelenti: sémamigráció az összes fordítható modellre kiterjedően
- A javítások nehezen alkalmazhatók globálisan. Ha a „guarnizione” szót mindenhol kijavítják, akkor az összes adatrekordot egyenként kellene szerkeszteni.
A megosztott fordítási réteg megoldja ezt: egy bejegyzés, sok hivatkozás. Egy javítás, és az összes adatrekord részesül belőle.
Ami még nincs meg
Egy ügyfélspecifikus terminológiai adatbázis automatikus javaslatfelismeréssel a fejlesztési tervekben szerepel, de jelenleg még nem áll rendelkezésre. Aki ma kezd bele, a meglévő eszközökkel is messzire jut: a kézi felülírások, a szótárimportok és a rögzítési jelölés lefedik a leggyakoribb felhasználási eseteket.
Úgy véljük, hogy a gépeknek kell elvégezniük a munka nagy részét, az emberek pedig csak ott avatkozzanak be, ahol valóban szükséges. Amíg az automatikus terminológiafelismerés elérhetővé nem válik, a kézi beavatkozás átlátható - és ez őszintébb, mint egy be nem tartott ígéret.
