39 језика аутоматски: како наш AI превод обрађује стручну терминологију

39 језика аутоматски: како наш AI превод обрађује стручну терминологију

Поглед иза кулиса наше аутоматизоване преводбе података о производима - и зашто стручну терминологију треба третирати другачије него роман.

Машинско превођење је сада толико добро да се у многим случајевима не може разликовати од људског превода. Преводилачке службе производе течне, идиоматске преводе са осећајем за регистар. Онда преведете скуп података DPP - и одједном “реар лок фајбер клаужер” постаје ‘Hinterschloss-Faserverschluss’.

Проблем је техничка терминологија. Овде објашњавамо зашто податке о производу не треба третирати као романе и које алате Transpareo пружа да би ваше 39 језичких верзија остале разумљиве.

Основни проблем: једна реч, више значења

“Заптивка” у DPP-у за јакну за на отвореном: водоотпорност. “Заптивка” у лабораторији: фока (животиња) или заптивна плоча, у зависности од контекста. “Заптивка” у дневнику одржавања: можда печат (као штампарски печат).

Општи преводилачки модел доноси избор на основу статистичког контекста. То функционише за континуирани текст - роман пружа доста контекста. Али за поље са подацима као што је primary_closure: seal, контекста је готово да нема. Модел прави образовану претпоставку.

Резултат су суптилне грешке. Не тако драматичне као “Hinterschloss-Faserverschluss”, али значајне: компонента која се на немачком зове “Dichtung” изненада се назива “sigillo” уместо “guarnizione” у италијанском DPP-у. Купац више не може да пронађе резервни део.

Шта Transpareo постиже данас

Наш систем за превођење аутоматски преводи сав нови садржај на све активне језике. Карактеришу га четири кључне карактеристике:

  • Очување Маркдауна и променљивих: Замене за текст као што су <a href="/sr/регистровати">Pro-Membership</a> и Маркдаун структуре се издвајају пре превођења; обичан текст се преводи, а затим се структуре враћају непромењене. Ово обезбеђује да су везе, обрасци и распоред доследни на свим језицима.
  • Централизовани преводи: Преводи се не чувају у самом запису података, већ у заједничком слоју. Више записа података са истим изворним текстом дели један превод. Ово штеди на трошковима превођења и аутоматски стандардизује терминологију у целом моделу података.
  • Аутоматско поновно превођење при изменама: Ако се измени оригинални текст, преводи на све језике се поново генеришу. Исправка на немачком аутоматски ажурира 38 осталих језичких верзија.
  • Ознаке по запису података: Садржај се може искључити из аутоматског процеса или се постојећи преводи могу закључати - на пример, за међународне називе производа или ручне исправке.

Када купац допуњује обраду

Аутоматски превод углавном даје прецизне резултате за описне текстове, маркетиншке садржаје и упутства за негу. Међутим, код критичне техничке терминологије - као што су “заптивка”/”guarnizione” - остаје мали број грешака које администратор клијента мора да исправи.

Овде администратор има три опције:

  1. Ручно прекозивање по језику и кључу: Сваки унос за превод може се отворити у Менаџеру апликација и прилагодити за сваки језик. Избором опције “закључај”, овај ручни превод ће бити сачуван у следећем аутоматском покретању.
  2. Увоз речника: Постојећа терминологија из алата за превођење или PDF речника може бити увезена као CSV датотека и коришћена за директно генерисање уноса за превод.
  3. Корекције по језику док систем ради: Италијански продајни тим уочи грешку, исправи је у Менаџеру апликација - корекција ступа на снагу одмах, док остали преводи остају непромењени.

Реалност језика ЕУ

24 званична језика ЕУ звучи као много. У пракси, они се деле у три категорије:

  • Кључна тржишта: DE, EN, FR, IT, ES, NL - овде сваки потрошач очекује савршенство
  • значајна тржишта: PT, PL, SV, DA, FI - добар стандард, иако је машински превод понекад приметан
  • ретки језици: MT, GA, ET, LV, LT - понекад имате DPP на малтешком без да га иједан крајњи потрошач на Малти икада прегледа. Ипак, обавезно је.

Овај захтев није опционалан. ESPR налаже да се садржај DPP-а достави на језику државе чланице у којој се производ продаје. Стога свако ко послује у 27 земаља мора да се носи са 24 језика (неке земље деле језике).

Зашто централизовани слој локализације?

Већина платформи складишти преводе као додатна поља у запису података: description_de, description_en, … 39 поља по преводивом атрибуту. Звучи једноставно, али има три недостатка:

  • Дуплирани текст. Два производа са истом напоменом о материјалу генеришу 39 + 39 превода уместо само 39
  • Тешко је скалирати. Додавање 40. језика подразумева миграцију шеме за све преводиве моделе
  • Тешко је примењивати исправке глобално. Ако се реч ‘guarnizione’ коригује свуда, сви записи би морали да се уређују појединачно.

Раздвојени слој превода решава овај проблем: један унос, много референци. Једна исправка, а корист имају сви записи.

Шта још немамо

Развија се прилагођена база података терминологије са аутоматским препознавањем предлога, али тренутно није доступна. Сви који данас почињу могу далеко доћи са постојећим алатима: ручно прекозивање, увоз рјеčника и ознака “задржи” покривају најчешће случајеве употребе.

Верујемо да машине треба да обаве већину посла, а да људи треба да интервенишу само када је то заиста неопходно. Док аутоматско препознавање терминологије не буде доступно, ручни процес је транспарентан - а то је искреније од обећања које се не испуни.

Ажурирања о вишејезичности и пракси ДПП

Нови језици, квалитет података и карактеристике производа - одабрано и достављено у ваш инбокс једном месечно.