Днес машиният превод е толкова добър, че в много случаи вече не може да се различи от човешкия. Преводаческите услуги работят плавно, идиоматично и с чувство за стил. Но когато се превежда набор от данни DPP - изведнъж „rear lock fiber closure“ „задна ключалка с фиброво затваряне“.
Проблемът се нарича специализирана терминология. Тук обясняваме защо данните за продуктите не трябва да се третират като романи и какви инструменти предоставя Transpareo, за да останат разбираеми вашите 39 езикови версии.
Основният проблем: една дума, няколко значения
„Seal“ в DPP на яке за активен отдих: уплътнение. „Seal“ в лаборатория: тюлен или уплътнение, в зависимост от контекста. „Seal“ в протокол за поддръжка: при определени обстоятелства - печат.
Един общ преводачески модел избира въз основа на статистическия контекст. При плавен текст това работи - романът предоставя изобилие от контекст. При поле с данни primary_closure: seal контекстът е почти нулев. Моделът прави предположение.
Резултатът са фини грешки. Не толкова драматични като „затварящ се с фиброво затваряне“, но с сериозни последствия: компонент, който на немски се нарича „Dichtung“, в италиански DPP изведнъж се нарича „sigillo“ вместо „guarnizione“. Един купувач вече не може да намери резервната част.
Какво предлага Transpareo днес
Нашата система за превод автоматично превежда всяко ново съдържание на всички активни езици. Тя се отличава с четири характеристики:
-
Запазване на Markdown и променливи: заместващите символи като
<a href="/bg/регистрирам се">Pro-Mitgliedschaft</a>и Markdown структурите се извличат преди превода, превежда се само чистият текст, а след това структурите се вмъкват отново без промени. По този начин линковете, формулярите и оформлението остават последователни във всички езици. - Централизирани преводни записи: Преводите не се съхраняват в самия запис, а в споделен слой. Няколко записи с един и същ оригинален текст споделят един превод. Това спестява разходи за превод и автоматично унифицира терминологията в целия модел на данните.
- Автоматично преизчисляване при промяна: Ако оригиналният текст бъде променен, преводите във всички езици се генерират наново. Една корекция на немски - 38 други езикови версии следват автоматично.
- Маркировки за всеки запис: Съдържанието може да бъде изключено от автоматичния цикъл или съществуващите преводи да бъдат фиксирани - например за международни имена на продукти или ръчни корекции.
Където клиентът допълва обработката
Автоматичният превод предоставя до голяма степен правилни резултати за описателни текстове, маркетингови текстове и инструкции за поддръжка. При критична специализирана терминология - например „seal“/„guarnizione“ - остава известно количество грешки, които администраторът на клиента трябва да коригира.
Тук администраторът разполага с три възможности:
- Ръчно презаписване за всеки език и ключ: Всеки преводачески запис може да бъде отворен в Application Manager и адаптиран за всеки език. С отбелязването „Запази“ този ръчен превод се запазва при следващия автоматичен цикъл.
- Импортиране на речник: Съществуващата терминология от преводачески инструменти или PDF-речници може да се импортира като CSV файл и да генерира директно въведени преводни записи.
- Корекции по езици по време на работа: Италианският отдел по продажбите забелязва грешка, коригира я в „Application Manager“ - корекцията влиза в сила незабавно, а останалите преводи остават непроменени.
Реалността с езиците на ЕС
24 официални езика на ЕС звучи като много. На практика те се разделят на три групи:
- Основни пазари: DE, EN, FR, IT, ES, NL - тук всеки потребител очаква съвършенство
- Значими пазари: PT, PL, SV, DA, FI - добро ниво, понякога се забелязва, че преводът е машинен
- Редки езици: MT, GA, ET, LV, LT - понякога имате DPP на малтийски език, без нито един краен потребител в Малта да го сканира. Въпреки това това е задължително.
Това изискване не е по избор. ESPR изисква съдържанието на DPP да бъде на езика на държавата-членка, в която се продава продуктът. Който обслужва 27 държави, трябва да се съобразява с 24 езика (някои държави споделят езици).
Защое необходим## централизиран слой за локализация
Повечето платформи съхраняват преводите като допълнителни полета в записите: description_de, description_en, … 39 полета за всеки преводим атрибут. Звучи просто, но има три недостатъка:
- Двойно съхраняван текст. Два продукта с една и съща информация за материала генерират 39 + 39 превода, вместо само 39
- Трудно мащабируемо. Добавянето на 40-и език означава: миграция на схемата за всички модели, подлежащи на превод
- Трудно е да се приложат корекции глобално. Ако „guarnizione“ се коригира навсякъде, всички записи трябва да се редактират поотделно
Разделеният преводачески слой решава този проблем: един запис, много препратки. Една корекция, от която се възползват всички записи.
Какво все още ни липсва
Клиентска терминологична база данни с автоматично разпознаване на предложения е в плана за разработка, но към момента не е налична. Който започне днес, ще стигне далеч с наличните инструменти: ръчно презаписване, импортиране на речници и маркирането за запазване покриват най-често срещаните случаи на употреба.
Вярваме, че машините трябва да извършват по-голямата част от работата, а хората да се намесват само там, където е наистина необходимо. Докато автоматичното разпознаване на терминологията не е налично, ръчното управление е прозрачно - и това е по-честно от обещание, което не се изпълнява.
