40 језика аутоматски: како наш AI превод обрађује стручну терминологију

40 језика аутоматски: како наш AI превод обрађује стручну терминологију

Поглед иза кулиса наше аутоматизоване преводбе података о производима - и зашто стручну терминологију треба третирати другачије него роман.

Машинско превођење је сада толико добро да је у многим случајевима немогуће разликовати га од људског превода. Преводилачке агенције производе течне, идиоматске преводе са ошtrim осећајем за регистар. Онда преведете скуп података DPP - и одједном “реар лок фајбер клиозер” постане ‘Hinterschloss-Faserverschluss’.

Проблем је техничка терминологија. Овде објашњавамо зашто податке о производу не треба третирати као романе и које алате Transpareo пружа да би ваше 40 језичких верзија остале разумљиве.

Основни проблем: једна реч, више значења

“Заптивка” у DPP-у за јакну за на отвореном: водоотпорност. “Заптивка” у лабораторији: фока (животиња) или заптивна плоча, у зависности од контекста. “Заптивка” у дневнику одржавања: можда заптивка (као печат).

Општи преводилачки модел доноси избор на основу статистичког контекста. То функционише за континуирани текст - роман пружа доста контекста. Али за поље са подацима као што је primary_closure: seal, контекста је готово да нема. Модел даје образовану претпоставку.

Резултат су суптилне грешке. Не тако драматичне као “Hinterschloss-Faserverschluss”, али значајне: компонента која се на немачком зове “Dichtung” изненада се назива “sigillo” уместо “guarnizione” у италијанском DPP-у. Купац више не може да пронађе резервни део.

Шта Transpareo постиже данас

Наш систем за превођење аутоматски преводи сав нови садржај на све активне језике. Карактеришу га четири кључне карактеристике:

  • Очување Маркдауна и променљивих: Замене за текст као што су <a href="/sr/rieghistrovati">Pro-Membership</a> и Маркдаун структуре се издвајају пре превођења; обичан текст се преводи, а структуре се затим враћају непромењене. Ово осигурава да су везе, обрасци и распоред доследни на свим језицима.
  • Централизовани преводи: Преводи се не чувају у самом запису података, већ у заједничком слоју. Више записа података са истим изворним текстом дели један превод. Ово штеди на трошковима превођења и аутоматски стандардизује терминологију у целом моделу података.
  • Аутоматско поновно превођење при изменама: Ако се промени оригинални текст, преводи на све језике се поново генеришу. Исправка на немачком аутоматски ажурира 38 осталих језичких верзија.
  • Ознаке по запису: Садржај се може искључити из аутоматске обраде или се постојећи преводи могу закључати - на пример, за међународне називе производа или ручне исправке.

Када купац допуњује обраду

Аутоматски превод углавном даје прецизне резултате за описне текстове, маркетиншке садржаје и упутства за негу. Међутим, код критичне техничке терминологије - као што су ‘seal’/’guarnizione’ - остаје мали број грешака које администратор клијента мора да исправи.

Овде администратор има три опције:

  1. Ручно прекосивање по језику и кључу: Сваки унос за превод може се отворити у Менаџеру апликација и прилагодити за сваки језик. Изабором опције “затварање” (lock), овај ручни превод ће бити сачуван у следећем аутоматском покретању.
  2. Увоз терминологије: Постојећа терминологија из алата за превођење или PDF глосара може бити увезена као CSV фајл и коришћена за директно генерисање уноса за превод.
  3. Корекције по језику док систем ради: Италијански продајни тим уочи грешку, исправи је у Менаџеру апликација - корекција ступа на снагу одмах, док остали преводи остају непромењени.

Реалност језика ЕУ

24 званична језика ЕУ звучи као много. У пракси, они се деле у три категорије:

  • Кључна тржишта: DE, EN, FR, IT, ES, NL - овде сваки потрошач очекује савршенство
  • значајна тржишта: PT, PL, SV, DA, FI - добар стандард, иако је машински превод понекад приметан
  • ретки језици: MT, GA, ET, LV, LT - понекад имате DPP на малтешком без да иједан крајњи потрошач на Малти икада то скенира. Ипак, обавезно је.

Овај захтев није опционалан. ESPR налаже да се садржај DPP-а обезбеди на језику државе чланице у којој се производ продаје. Стога свако ко послује у 27 земаља мора да се носи са 24 језика (неке земље деле језике).

Зашто централизовани слој локализације?

Већина платформи чува преводе као додатна поља у запису података: description_de, description_en, … 40 поља по преводивом атрибуту. Звучи једноставно, али има три недостатка:

  • Дуплирани текст. Два производа са истом напоменом о материјалу генеришу 40 + 40 превода уместо само 40
  • Тешко је скалирати. Додавање 41. језика подразумева миграцију шеме за све моделе који се преводе
  • Тешко је примењивати исправке глобално. Ако се “guarnizione” коригује свуда, сви записи података би морали да се уређују појединачно.

Подељени слој превођења то решава: један унос, много референци. Једна исправка, а корист имају сви записи података.

Шта још немамо

Развија се прилагођена база података терминологије са аутоматским препознавањем предлога, али тренутно није доступна. Сви који данас почињу могу далеко доћи са постојећим алатима: ручна прекорачења, увоз глосара и ознака “задржи” покривају најчешће случајеве употребе.

Верујемо да машине треба да обаве већину посла, а да људи треба да интервенишу само када је то заиста неопходно. Док аутоматско препознавање терминологије не буде доступно, ручни процес је транспарентан - а то је искреније од обећања које се не испуни.

Ажурирања о вишејезичности и пракси ДПП

Нови језици, квалитет података и карактеристике производа - одабрано и достављено у ваш инбокс једном месечно.