40 јазици автоматски: како нашиот AI превод се справува со специјалистичката терминологија

40 јазици автоматски: како нашиот AI превод се справува со специјалистичката терминологија

Поглед зад сцената на нашето автоматизирано преведување на податоци за производи - и зошто стручната терминологија треба да се третира поинаку отколку роман.

Машинскиот превод сега е толку добар што, во многу случаи, е невозможно да се разликува од човечки превод. Преводителите создаваат течни, идиоматски преводи со чувство за регистар. Потоа преведувате збир на податоци од ДПП - и одеднаш “затворање со фибер на заклучување на задниот дел” станува ‘Hinterschloss-Faserverschluss’.

Проблемот е техничката терминологија. Тука објаснуваме зошто податоците за производите не треба да се третираат како романи и кои алатки ги нуди Transpareo за да се осигура дека вашите 40 јазични верзии ќе останат разбирливи.

Основниот проблем: еден збор, повеќе значења

“Заптивка” во DPP за надворешна јакна: водоотпорност. “Заптивка” во лабораторија: фока (животно) или дихтунг, во зависност од контекстот. “Заптивка” во дневник за одржување: можеби печат.

Општиот преведувачки модел го прави својот избор врз основа на статистички контекст. Ова функционира за континуиран текст - еден роман обезбедува многу контекст. Но, за поле со податоци како primary_closure: seal, речиси и да нема контекст. Моделот прави информирана претпоставка.

Резултатот се суптилни грешки. Не толку драматични како “Hinterschloss-Faserverschluss”, но значајни: компонента наречена “Dichtung” на германски одеднаш се нарекува “sigillo” наместо “guarnizione” во италијански DPP. Купувачот повеќе не може да го најде резервниот дел.

Што постигнува Transpareo денес

Нашиот систем за превод автоматски ги преведува сите нови содржини на сите активни јазици. Се карактеризира со четири клучни карактеристики:

  • Зачувување на Markdown и променливи: Заменители на место како што се <a href="/mk/rieghistriraj">Pro-Membership</a> и Markdown структурите се извлекуваат пред преводот; обичниот текст се преведува, а потоа структурите се враќаат непроменети. Ова осигурува дека линковите, формуларите и распоредот остануваат доследни на сите јазици.
  • Централизирани преводи: Преводите не се зачувуваат во самата евиденција на податоците, туку во заеднички слој. Повеќе евиденции на податоци со ист изворен текст делат еден превод. Ова заштедува на трошоци за превод и автоматски ја стандардизира терминологијата низ целиот модел на податоци.
  • Автоматско повторно преведување при промени: Ако се измени оригиналниот текст, преводите на сите јазици се генерираат повторно. Корекцијата на германски автоматски ги ажурира и 38-те други јазични верзии.
  • Обележувања по запис на податоци: Содржината може да се исклучи од автоматската обработка или постоечките преводи може да се заклучат - на пример, за меѓународни имиња на производи или рачни корекции.

Каде што клиентот ја дополнува обработката

Автоматскиот превод во голема мера дава точни резултати за описни текстови, маркетинг материјали и упатства за нега. Сепак, кај критичната техничка терминологија - како што е “заптивка”/”guarnizione” - останува мал број грешки, кои администраторот на клиентот мора да ги исправи.

Тука, администраторот има три опции:

  1. Рачно препишување по јазик и клуч: Секој превод може да се отвори во Менаџерот на апликации и да се приспособи за секој јазик. Со избирање на опцијата “заклучување”, овој рачен превод ќе се задржи во следното автоматско извршување.
  2. Увоз на глосариум: Постоечката терминологија од алатки за превод или глосариуми во PDF-формат може да се увезе како CSV-датотека и да се користи за директно генерирање на записи за превод.
  3. Корекции по јазик додека системот работи: Италијански продажен тим забележува грешка, ја коригира во Менаџерот на апликации - корекцијата стапува на сила веднаш, додека другите преводи остануваат непроменети.

Реалноста на јазиците на ЕУ

24 официјални јазици на ЕУ звучи како многу. Во пракса, тие се делат на три категории:

  • Клучни пазари: DE, EN, FR, IT, ES, NL - тука, секој потрошувач очекува совршенство
  • Значителни пазари: PT, PL, SV, DA, FI - добар стандард, иако машинскиот превод понекогаш е забележлив
  • Ретки јазици: MT, GA, ET, LV, LT - понекогаш имате DPP на малтешки без да го прегледа кој било краен потрошувач во Малта. Сепак, тоа е задолжително.

Овој услов не е опционален. ESPR налага содржината на DPP да се обезбеди на јазикот на земјата-членка во која се продава производот. Значи, секој што опслужува 27 земји се соочува со 24 јазици (некои земји делат јазици).

Зошто централизиран слој за локализација?

Повеќето платформи ги складираат преводите како дополнителни полиња во записот со податоци: description_de, description_en, … 40 полиња по преводлив атрибут. Звучи едноставно, но има три недостатоци:

  • Дуплиран текст. Два производи со иста забелешка за материјалот генерираат 40 + 40 преводи наместо само 40
  • Тешко се скалира. Додавањето 41-ви јазик значи миграција на шемата низ сите модели што се преведуваат
  • Тешко е глобално да се применат корекциите. Ако “guarnizione” се коригира насекаде, сите записи со податоци ќе треба да се уредуваат поединечно

Сплит слојот за превод го решава ова: еден запис, многу референци. Една корекција, сите записи со податоци имаат корист.

Што сè уште немаме

Развивањето на приспособена база на податоци за терминологија со автоматско препознавање на предлози е во тек, но во моментов не е достапна. Секој што почнува денес може да постигне многу со постоечките алатки: рачни пренасочувања, увоз на глосари и ознаката “зачувај” ги покриваат најчестите случаи на употреба.

Веруваме дека машините треба да го вршат најголемиот дел од работата, а луѓето треба да интервенираат само кога е навистина неопходно. Сè додека не биде достапно автоматско препознавање на терминологијата, рачниот процес е транспарентен - а тоа е почесно од неисполнето ветување.

Ажурирања за повеќејазичноста и практиката на ДПП

Нови јазици, квалитет на податоците и карактеристики на производот - курирани и доставени во вашето сандаче еднаш месечно.