Strojno prevajanje je danes tako dobro, da ga v mnogih primerih ni več mogoče razlikovati od človeškega. Prevajalske storitve delujejo tekoče, idiomatično in z občutkom za stil. Potem pa prevajaš nabor podatkov DPP - in nenadoma se iz »rear lock fiber closure« »Hinterschloss-Faserverschluss«.
Problem je strokovna terminologija. Tukaj pojasnjujemo, zakaj podatkov o izdelkih ne smemo obravnavati kot romane in katera orodja ponuja Transpareo, da vaše 39 jezikovnih različic ostanejo razumljive.
Osnovni problem: ena beseda, več pomenov
»Seal« v DPP-ju za jakno za prosti čas: tesnilo. »Seal« v laboratoriju: tjulenj ali tesnilo, odvisno od konteksta. »Seal« v protokolu vzdrževanja: v nekaterih primerih pečat.
Splošni prevajalski model izbira na podlagi statističnega konteksta. Pri tekočem besedilu to deluje - roman ponuja obilo konteksta. Pri podatkovnem polju primary_closure: seal pa konteksta skoraj ni. Model le ugiba.
Posledica so subtilne napake. Niso tako dramatične kot »Hinterschloss-Faserverschluss«, vendar imajo pomembne posledice: komponenta, ki se v nemščini imenuje »Dichtung«, se v italijanskem DPP nenadoma imenuje »sigillo« namesto »guarnizione«. Nakupovalec nadomestnega dela ne more več najti.
Kaj danes ponuja Transpareo
Naš prevajalski sistem vsako novo vsebino samodejno prenese v vse aktivne jezike. Značilne so štiri lastnosti:
-
Ohranjanje Markdowna in spremenljivk: nadomestni znaki, kot je
<a href="/sl/registrirati se">Pro-članstvo</a>, in strukture Markdowna se pred prevajanjem izločijo, prevaja se samo besedilo, nato pa se strukture ponovno vstavijo nespremenjene. Tako ostanejo povezave, obrazci in postavitev dosledni v vseh jezikih. - Centralizirani prevajalski vnosi: prevodi se ne shranjujejo v samem zapisu, temveč v skupni plasti. Več zapisov z istim izvirnim besedilom si deli en prevod. To prihrani prevajalske stroške in samodejno poenoti izraze v celotnem podatkovnem modelu.
- Samodejno ponovno prevajanje ob spremembi: če se izvirno besedilo spremeni, se prevodi v vseh jezikih ponovno ustvarijo. Popravek v nemščini - 38 drugih jezikovnih različic sledi samodejno.
- Označbe na posamezni zapis: Vsebine je mogoče izključiti iz samodejnega prevajanja ali pa obstoječe prevode zakleniti - na primer za mednarodna imena izdelkov ali ročne popravke.
Kje stranka dopolni obdelavo
Avtomatski prevod v večini primerov zagotavlja pravilne rezultate za opisne besedila, marketinška besedila in navodila za vzdrževanje. Pri kritični strokovni terminologiji - kot je »seal«/»guarnizione« - ostane nekaj napak, ki jih mora popraviti strankin skrbnik.
Tu ima administrator na voljo tri možnosti:
- Ročno prepisovanje po jeziku in ključu: vsak prevajalski vnos je mogoče odpreti v upravitelju aplikacij in prilagoditi za vsak jezik posebej. Z označitvijo »zatrdi« se ta ročni prevod ohrani tudi pri naslednjem avtomatskem prevajanju.
- Uvoz glosarja: Obstoječe terminologije iz prevajalskih orodij ali PDF-glosarjev je mogoče uvoziti v obliki CSV in s tem neposredno ustvariti prevajalske vnose.
- Popravki po posameznih jezikih med delovanjem: italijanska prodajna služba opazi napako, jo popravi v upravitelju aplikacij - popravek začne veljati takoj, ostali prevodi pa ostanejo nespremenjeni.
Realnost jezikov EU
24 uradnih jezikov EU se sliši veliko. V praksi gre za tri ravni:
- Ključni trgi: DE, EN, FR, IT, ES, NL - tu vsak potrošnik pričakuje popolnost
- Pomembni trgi: PT, PL, SV, DA, FI - dobra raven, občasno se opazi, da gre za strojni prevod
- Redki jeziki: MT, GA, ET, LV, LT - včasih imamo DPP v malteškem jeziku, čeprav ga končni potrošnik na Malti nikoli ne bo prebral. Kljub temu je to obvezno.
Ta obveznost ni neobvezna. Uredba ESPR zahteva vsebino DPP v jeziku države članice, v kateri se izdelek prodaja. Kdor oskrbuje 27 držav, ima torej v igri 24 jezikov (nekatere si delijo jezike).
Zakaj centralizirana raven lokalizacije
Večina platform shranjuje prevode kot dodatna polja v podatkovnem nizu: description_de, description_en, … 39 polj na prevodljiv atribut. Zveni preprosto, vendar ima tri slabosti:
- Podvojen tekst. Dva izdelka z enakim opisom materiala ustvarita 39 + 39 prevodov namesto enega samega 39
- Težko prilagodljivo. Dodajanje 40. jezika pomeni: migracijo sheme za vse prevodljive modele
- Popravke je težko globalno uporabiti. Če se »guarnizione« popravi povsod, bi bilo treba vse zapise obdelati posamično
Razdeljena prevajalska plast to reši: en vnos, veliko sklicev. Ena popravek, vsi zapisi imajo korist.
Kaj še nimamo
Baza podatkov terminologije, prilagojena posameznemu stranki, z avtomatskim prepoznavanjem predlogov je v načrtu razvoja, vendar danes še ni na voljo. Kdor začne danes, bo z obstoječimi orodji prišel daleč: ročno prepisovanje, uvoz glosarjev in označevanje za ohranitev pokrivajo najpogostejše primere uporabe.
Verjamemo, da bi morali stroji opraviti večino dela, ljudje pa naj posredujejo le tam, kjer je to res potrebno. Dokler avtomatsko prepoznavanje terminologije ne bo na voljo, je ročno posredovanje pregledno - in to je bolj pošteno kot obljuba, ki ne bo izpolnjena.
