39 jezika automatski: kako naš AI prijevod obrađuje stručnu terminologiju

39 jezika automatski: kako naš AI prijevod obrađuje stručnu terminologiju

Pogled iza kulisa naše automatizirane prijevode podataka o proizvodima - i zašto se stručna terminologija mora tretirati drugačije nego roman.

Mašinski prijevod sada je toliko dobar da se u mnogim slučajevima ne može razlikovati od ljudskog prijevoda. Prevodilačke agencije proizvode tečne, idiomske prijevode s izvrsnim osjećajem za stil teksta. A onda prevedete skup podataka DPP-a - i odjednom ‘rear lock fibre closure’ postane ‘Hinterschloss-Faserverschluss’.

Problem je tehnička terminologija. Ovdje objašnjavamo zašto se podacima o proizvodima ne bi trebalo pristupati kao da su romani i koje alate Transpareo pruža kako bi se osiguralo da vaše 39 jezičnih verzija ostanu razumljive.

Osnovni problem: jedna riječ, više značenja

“Brtva” u DPP-u za vanjsku jaknu: vodootpornost. “Brtva” u laboratoriju: brtva (životinja) ili dihtung, ovisno o kontekstu. “Brtva” u zapisniku o održavanju: moguće pečat.

Opći model prevođenja donosi odluku na temelju statističkog konteksta. To funkcionira za kontinuirani tekst - roman pruža mnogo konteksta. No, kod polja s podacima kao što je primary_closure: seal gotovo da nema konteksta. Model donosi informiranu pretpostavku.

Rezultat su suptilne pogreške. Ne tako dramatične kao ‘Hinterschloss-Faserverschluss’, ali značajne: komponenta koja se na njemačkom naziva ‘Dichtung’ odjednom se u talijanskom DPP-u naziva ‘sigillo’ umjesto ‘guarnizione’. Kupac više ne može pronaći rezervni dio.

Što Transpareo danas postiže

Naš sustav za prevođenje automatski prevodi svaki novi sadržaj na sve aktivne jezike. Odlikuju ga četiri ključne značajke:

  • Očuvanje markdowna i varijabli: Mjesta držača kao što je <a href="/hr/Registriraj se">Pro-Membership</a> i markdown strukture izdvajaju se prije prijevoda; obični tekst se prevodi, a strukture se zatim vraćaju nepromijenjene. To osigurava dosljednost poveznica, obrazaca i izgleda na svim jezicima.
  • Centralizirani prijevodi: Prijevodi se ne pohranjuju unutar samog zapisa podataka, već u zajedničkom sloju. Više zapisa podataka s istim izvorom teksta dijeli jedan prijevod. To štedi na troškovima prijevoda i automatski standardizira terminologiju u cijelom modelu podataka.
  • Automatsko ponovno prevođenje pri promjenama: Ako se promijeni izvorni tekst, prijevodi u svim jezicima se regeneriraju. Ispravak na njemačkom jeziku automatski ažurira 38 ostalih jezičnih verzija.
  • Označavanje po zapisu podataka: Sadržaj se može isključiti iz automatskog procesa ili se postojeći prijevodi mogu zaključati - na primjer, za međunarodne nazive proizvoda ili ručne ispravke.

Gdje kupac nadopunjuje obradu

Automatski prijevod uvelike daje točne rezultate za opisne tekstove, marketinške sadržaje i upute za njegu. Međutim, kod ključne tehničke terminologije - kao što je ‘brtva’/’guarnizione’ - ostaje mali broj pogrešaka koje administrator klijenta mora ispraviti.

Ovdje administrator ima tri opcije:

  1. Ručno preusmjeravanje po jeziku i ključnoj riječi: Svaki unos prijevoda može se otvoriti u Upravitelju aplikacija i prilagoditi za svaki jezik. Odabirom opcije ‘zaključavanje’, ovaj ručni prijevod bit će zadržan u sljedećem automatskom pokretanju.
  2. Uvoz rječnika: Postojeća terminologija iz alata za prijevod ili PDF rječnika može se uvesti kao CSV datoteka i koristiti za izravno generiranje unosa prijevoda.
  3. Korekcije po jeziku dok sustav radi: Talijanski prodajni tim uoči pogrešku, ispravi je u Upravitelju aplikacije - ispravak stupi na snagu odmah, dok ostali prijevodi ostaju nepromijenjeni.

Stvarnost jezika EU

24 službena jezika EU zvuči kao mnogo. U praksi spadaju u tri kategorije:

  • Ključna tržišta: DE, EN, FR, IT, ES, NL - ovdje svaki potrošač očekuje savršenstvo
  • Značajna tržišta: PT, PL, SV, DA, FI - dobar standard, iako je strojni prijevod povremeno primjetan
  • Rijetki jezici: MT, GA, ET, LV, LT - ponekad imate DPP na maltesezkom bez da ga ikada skenira krajnji potrošač na Malti. Unatoč tome, obvezan je.

Ovaj zahtjev nije neobavezan. ESPR nalaže da se sadržaj DPP-a dostavi na jeziku države članice u kojoj se proizvod prodaje. Dakle, svatko tko posluje u 27 zemalja mora se nositi s 24 jezika (neke zemlje dijele jezike).

Zašto centralizirani sloj lokalizacije?

Većina platformi pohranjuje prijevode kao dodatna polja u zapisu podataka: description_de, description_en, … 39 polja po prevedivom atributu. Zvuči jednostavno, ali ima tri nedostatka:

  • Duplicirani tekst. Dva proizvoda s istom napomenom o materijalu generiraju 39 + 39 prijevoda umjesto samo 39
  • Teško je skalirati. Dodavanje 40. jezika znači migraciju sheme za sve prevodive modele
  • Teško je primijeniti ispravke globalno. Ako se ‘guarnizione’ ispravi na svim mjestima, sve zapise podataka moralo bi se urediti pojedinačno.

Raslojeni prijevodni sloj to rješava: jedan unos, mnogo referenci. Jedna ispravka, a koriste se svi zapisi podataka.

Što još nemamo

Prilagođena baza podataka terminologije s automatskim prepoznavanjem prijedloga je u razvoju, ali trenutno nije dostupna. Svi koji danas počinju mogu daleko dogurati s postojećim alatima: ručna preusmjeravanja, uvoz rječnika i oznaka ‘zadrži’ pokrivaju najčešće slučajeve upotrebe.

Vjerujemo da bi strojevi trebali obavljati većinu posla, a ljudi bi trebali intervenirati samo kada je to zaista potrebno. Dok automatsko prepoznavanje terminologije ne bude dostupno, ručni postupak je transparentan - a to je iskrenije od obećanja koje se ne ispuni.

Novosti o višejezičnosti i praksi DPP-a

Novi jezici, kvaliteta podataka i značajke proizvoda - odabrano i dostavljeno u vaš sandučić jednom mjesečno.