39 jazyků automaticky: jak náš překlad založený na umělé inteligenci zpracovává odbornou terminologii

39 jazyků automaticky: jak náš překlad založený na umělé inteligenci zpracovává odbornou terminologii

Pohled do zákulisí našeho automatického překladu produktových údajů - a proč je třeba s odbornou terminologií zacházet jinak než s textem románu.

Strojový překlad je dnes tak kvalitní, že v mnoha případech již nelze rozeznat od lidského překladu. Překladatelské služby pracují plynule, idiomaticky a s citem pro styl. Pak ale přeložíte datový záznam DPP - a najednou se z „rear lock fiber closure“ stane „uzávěr zadního zámku z vlákna“.

Problémem je odborná terminologie. Zde vysvětlíme, proč se s produktovými daty nesmí zacházet jako s romány a jaké nástroje Transpareo poskytuje, aby vašich 39 jazykových verzí zůstalo srozumitelných.

Základní problém: jedno slovo, několik významů

„Seal“ v DPP outdoorové bundy: těsnění. „Seal“ v laboratoři: tuleň nebo těsnění, podle kontextu. „Seal“ v protokolu údržby: za určitých okolností pečeť.

Obecný překladatelský model volí na základě statistického kontextu. U plynulého textu to funguje - román poskytuje dostatek kontextu. U datového pole primary_closure: seal však kontext téměř chybí. Model pouze odhaduje.

Důsledkem jsou nenápadné chyby. Ne tak dramatické jako „zadní zámek s vláknovým uzávěrem“, ale s dalekosáhlými důsledky: součástka, která se v němčině nazývá „Dichtung“, se v italském DPP najednou jmenuje „sigillo“ místo „guarnizione“. Nákupčí již tento náhradní díl nemůže najít.

Co dnes Transpareo nabízí

Náš překladatelský systém automaticky převádí každý nový obsah do všech aktivních jazyků. Vyznačuje se čtyřmi vlastnostmi:

  • Zachování Markdownu a proměnných: Zástupné symboly jako <a href="/cs/zaregistrovat se">Pro-Mitgliedschaft</a> a struktury Markdownu se před překladem extrahují, překládá se čistý text a poté se struktury znovu vloží beze změn. Díky tomu zůstávají odkazy, formuláře a rozvržení konzistentní ve všech jazycích.
  • Centrální překladové záznamy: Překlady se neukládají přímo v datovém záznamu, ale ve sdílené vrstvě. Více datových záznamů se stejným původním textem sdílí jeden překlad. To šetří náklady na překlad a automaticky sjednocuje terminologii napříč datovým modelem.
  • Automatický nový překlad při změně: Dojde-li ke změně původního textu, překlady ve všech jazycích se vygenerují znovu. Oprava v němčině - 38 dalších jazykových verzí se aktualizuje automaticky.
  • Označení u jednotlivých záznamů: Obsah lze z automatického zpracování vyloučit nebo lze stávající překlady zafixovat - například u mezinárodních názvů produktů nebo při ručních opravách.

Kde zákazník doplňuje zpracování

Automatický překlad poskytuje z velké části správné výsledky u popisných textů, marketingových textů a návodů k údržbě. U kritické odborné terminologie - jako je „seal“/„guarnizione“ - zůstává určité množství chyb, které musí opravit správce na straně zákazníka.

Zde má správce k dispozici tři možnosti:

  1. Ruční přepsání pro každý jazyk a klíč: Každý překladový záznam lze otevřít v Applikation Manageru a upravit pro každý jazyk. Pomocí označení „Zafixovat“ zůstane tento ruční překlad zachován i při příštím automatickém běhu.
  2. Import glosáře: Stávající terminologii z překladatelských nástrojů nebo PDF glosářů lze importovat ve formátu CSV a přímo tím vytvořit překladové záznamy.
  3. Opravy pro jednotlivé jazyky za běhu: Italské obchodní oddělení si všimne chyby, opraví ji v Application Manageru - oprava se projeví okamžitě, ostatní překlady zůstanou beze změny.

Realita jazyků EU

24 úředních jazyků EU zní jako hodně. V praxi se jedná o tři skupiny:

  • Klíčové trhy: DE, EN, FR, IT, ES, NL - zde každý spotřebitel očekává dokonalost
  • Významné trhy: PT, PL, SV, DA, FI - dobrá úroveň, občas je patrný strojový překlad
  • Vzácné jazyky: MT, GA, ET, LV, LT - někdy se vyskytne DPP v maltštině, aniž by jej kdy skenoval konečný spotřebitel na Maltě. Přesto je to povinnost.

Tato povinnost není volitelná. Nařízení ESPR vyžaduje obsah DPP v jazyce členského státu, ve kterém se produkt prodává. Kdo obsluhuje 27 států, má tedy v hře 24 jazyků (některé státy sdílejí jazyky).

Proč centralizovaná lokalizační vrstva

Většina platforem ukládá překlady jako dodatečná pole v datovém záznamu: description_de, description_en, … 39 polí na každý překladatelný atribut. Zní to jednoduše, má to však tři nevýhody:

  • Duplicitní text. Dva produkty se stejným popisem materiálu generují 39 + 39 překladů namísto jediné sady 39 překladů
  • Těžko škálovatelné. Přidání 40. jazyka znamená: migraci schématu napříč všemi překladatelnými modely
  • Opravy lze těžko aplikovat globálně. Pokud se „guarnizione“ opraví všude, musely by se všechny datové záznamy upravovat jednotlivě

Rozdělená překladová vrstva tento problém řeší: jeden záznam, mnoho odkazů. Jedna oprava, z níž mají prospěch všechny datové záznamy.

Co zatím nemáme

Databáze terminologie přizpůsobená zákazníkovi s automatickým rozpoznáváním návrhů je v plánu vývoje, ale v současné době ještě není k dispozici. Kdo začne dnes, dostane se s existujícími nástroji daleko: ruční přepisování, importy glosářů a označení pro zachování pokrývají nejčastější případy použití.

Věříme, že stroje by měly vykonávat většinu práce a lidé by měli zasahovat pouze tam, kde je to skutečně nutné. Dokud nebude k dispozici automatické rozpoznávání terminologie, je ruční zásah transparentní - a to je upřímnější než slib, který nebude splněn.

Aktuality týkající se vícejazyčnosti a praxe DPP

Nové jazyky, kvalita dat a funkce produktů - jednou za měsíc vám je zašleme přímo do vaší e-mailové schránky.