39 keelt automaatselt: kuidas meie tehisintellekti tõlkimine käsitleb erialatermineid

39 keelt automaatselt: kuidas meie tehisintellekti tõlkimine käsitleb erialatermineid

Pilk meie automaatse tooteteabe tõlkimise kulisside taha - ja miks erialaterminoloogiat tuleb käsitleda teisiti kui romaaniteksti.

Masintõlge on tänapäeval nii hea, et paljudel juhtudel ei ole seda enam võimalik inimtõlkest eristada. Tõlketeenused pakuvad sujuvat, idiomaatilist tõlget, milles on arvestatud stiili. Siis tõlgitakse DPP-andmekogumit - ja äkki muutub „rear lock fiber closure” „tagaluku kiudkinnitus”.

Probleemiks on erialaterminoloogia. Siin selgitame, miks tooteandmeid ei tohi käsitleda nagu romaane ja milliseid tööriistu Transpareo pakub, et teie 39 keeleversiooni jääksid arusaadavaks.

Põhiprobleem: üks sõna, mitu tähendust

„Seal“ välisjakki käsitlevas DPP-andmekogus: tihendus. „Seal“ laboris: hüljes või tihend, sõltuvalt kontekstist. „Seal“ hooldusprotokollis: teatud tingimustel pitser.

Üldine tõlkemudel teeb valiku statistilise konteksti põhjal. Jooksvas tekstis see toimib - romaan pakub rohkesti konteksti. Andmeväljas primary_closure: seal on konteksti peaaegu olematu. Mudel teeb oletusi.

Selle tagajärjeks on peenvead. Mitte nii dramaatilised kui „Hinterschloss-Faserverschluss”, kuid tagajärgedega: komponent, mida saksa keeles nimetatakse „Dichtung”, kannab itaalia keele DPP-s äkki nime „sigillo” asemel „guarnizione”. Ostja ei leia seda varuosa enam üles.

Mida Transpareo täna pakub

Meie tõlkesüsteem edastab iga uue sisu automaatselt kõigisse aktiivsetesse keeltesse. Seda iseloomustavad neli omadust:

  • Markdowni ja muutujate säilitamine: asendusmärgid nagu <a href="/et/registreerida">Pro-liikmesus</a> ja Markdowni struktuurid eraldatakse enne tõlkimist, tõlgitakse puhas tekst ning seejärel lisatakse struktuurid muutmata kujul tagasi. Nii jäävad lingid, vormid ja kujundus kõigis keeltes ühtseks.
  • Keskne tõlkeandmebaas: tõlkeid ei salvestata andmekirjes endas, vaid jagatud kihis. Mitmed andmekirjed, millel on sama originaaltekst, jagavad ühte tõlget. See säästab tõlkekulusid ja ühtlustab mõisteid automaatselt kogu andmemudeli ulatuses.
  • Automaatne uuesti tõlkimine muudatuste korral: kui originaalteksti muudetakse, luuakse tõlked kõigis keeltes uuesti. Üks parandus saksa keeles - 38 muud keeleversiooni järgivad seda automaatselt.
  • Märgistused andmekirje kohta: sisu saab automaatsest töötlemisest välja jätta või olemasolevad tõlked lukustada - näiteks rahvusvaheliste tootenimede või käsitsi tehtud paranduste puhul.

Kus klient täiendab töötlemist

Automaatne tõlkimine annab enamasti õigeid tulemusi kirjeldustekstide, turundustekstide ja hooldusjuhiste puhul. Kriitilise erialaterminoloogia puhul - näiteks „seal“/„guarnizione“ - jääb alles teatav hulk vigu, mida kliendi administraator peab parandama.

Siin on administraatoril kolm võimalust:

  1. Käsitsi ülekirjutamine keele ja võtmesõna kaupa: iga tõlke sissekande saab avada rakenduse halduris ja kohandada keele kaupa. Kinnitusmärgiga säilitatakse see käsitsi tehtud tõlge järgmise automaatse tõlkimise käigus.
  2. Sõnastiku import: tõlketööriistadest või PDF-sõnastikest pärit olemasolevat terminoloogiat saab CSV-failina importida ja see loob otse kirjutatud tõlkeväljendid.
  3. Keelekohased parandused töökäigu ajal: Itaalia müügiosakond märkab viga, parandab selle rakenduse halduris - parandus jõustub kohe, ülejäänud tõlked jäävad muutmata.

ELi keelte tegelikkus

24 ELi ametlikku keelt kõlab palju. Praktikas on tegemist kolme kihiga:

  • Põhiturud: DE, EN, FR, IT, ES, NL - siin ootab iga tarbija täiuslikkust
  • Olulised turud: PT, PL, SV, DA, FI - hea tase, aeg-ajalt on masintõlge märgatav
  • Haruldased keeled: MT, GA, ET, LV, LT - mõnikord on tootel malta keeles DPP, kuigi ükski lõpptarbija Maltal seda kunagi ei loe. Siiski on see kohustuslik.

See kohustus ei ole vabatahtlik. ESPR nõuab DPP-sisu selles liikmesriigi keeles, kus toodet müüakse. Seega, kes teenindab 27 riiki, peab arvestama 24 keelega (mõned riigid jagavad keeli).

Miks on vaja tsentraliseeritud lokaliseerimiskihte

Enamik platvorme salvestab tõlked andmekirje lisaväljadena: description_de, description_en, … 39 välja iga tõlgitava atribuudi kohta. Kuulub lihtsana, kuid sellel on kolm puudust:

  • Teksti dubleerimine. Kaks toodet, millel on sama materjalimärge, tekitavad 39 + 39 tõlget, mitte ühekorraga 39
  • Raske skaleerida. 40. keele lisamine tähendab skeemi migratsiooni kõigi tõlgitavate mudelite puhul
  • Parandusi on raske globaalselt rakendada. Kui „guarnizione“ kõikjal parandatakse, tuleks kõiki andmekirjeid eraldi töödelda

Jagatud tõlke kiht lahendab selle: üks kirje, palju viiteid. Üks parandus, millest saavad kasu kõik andmekirjed.

Mida meil veel pole

Kliendispetsiifiline terminoloogiaandmebaas automaatse soovituste tuvastamisega on arenduskavas, kuid praegu veel kättesaadav ei ole. Kes täna alustab, saab olemasolevate tööriistadega kaugele: käsitsi ülekirjutamine, sõnastiku importimine ja märkimine katavad kõige sagedasemad kasutusjuhtumid.

Usume, et masinad peaksid tegema suurema osa tööst ja inimesed sekkuma vaid seal, kus see on tõesti vajalik. Kuni automaatne terminoloogia tuvastamine pole veel saadaval, on käsitsi sekkumine läbipaistev - ja see on ausam kui lubadus, mida ei täideta.

Uudised mitmekeelsuse ja DPP-praktika kohta

Uued keeled, andmete kvaliteet ja tootefunktsioonid - kord kuus valitud ja teie postkasti saadetud.