39 мов автоматично: як наш штучний інтелект обробляє фахову термінологію

Сьогодні машинний переклад настільки досконалий, що в багатьох випадках його вже неможливо відрізнити від людського. Перекладацькі сервіси працюють плавно, використовують ідіоми та відчувають стилістичний регістр. Але варто перекласти набір даних DPP - і раптом «rear lock fiber closure» перетворюється на «задній замок з волоконним ущільненням».

Проблема полягає у фаховій термінології. Тут ми пояснюємо, чому дані про продукцію не слід трактувати як романи та які інструменти надає Transpareo, щоб ваші 39 мовних версій залишалися зрозумілими.

Основна проблема: одне слово - кілька значень

«Seal» у DPP-даних куртки для активного відпочинку: ущільнення. «Seal» у лабораторії: тюлень або ущільнювач, залежно від контексту. «Seal» у протоколі технічного обслуговування: за певних обставин - печатка.

Загальна модель перекладу робить вибір на основі статистичного контексту. У випадку з текстом, що читається плавно, це працює - роман надає достатньо контексту. У полі даних primary_closure: seal контексту майже немає. Модель лише припускає.

Наслідком цього є ледь помітні помилки. Не такі драматичні, як «застібка з волокнистою прокладкою», але з серйозними наслідками: компонент, який у німецькій мові називається «Dichtung», в італійському DPP раптом називається «sigillo» замість «guarnizione». Закупник більше не може знайти цю запасну частину.

Що сьогодні пропонує Transpareo

Наша система перекладу автоматично перекладає кожен новий контент на всі активні мови. Її характеризують чотири особливості:

Збереження Markdown та змінних: замісники, такі як <a href="/uk/zarieiestruvatisia">Pro-Mitgliedschaft</a>, та структури Markdown вилучаються перед перекладом, перекладається лише текст, а потім структури вставляються назад без змін. Таким чином посилання, форми та верстка залишаються узгодженими у всіх мовах.
Централізовані записи перекладів: переклади зберігаються не в самому записі даних, а в спільному шарі. Кілька записів даних з однаковим оригінальним текстом використовують один і той самий переклад. Це економить витрати на переклад та автоматично уніфікує термінологію в межах всієї моделі даних.
Автоматичне перекладання при зміні: якщо оригінальний текст змінюється, переклади на всіх мовах генеруються заново. Виправлення в німецькій версії - 38 інших мовних версій оновлюються автоматично.
Позначки для кожного запису: вміст можна виключити з автоматичного перекладу або зафіксувати існуючі переклади - наприклад, для міжнародних назв продуктів або ручних виправлень.

Де клієнт доповнює обробку

Автоматичний переклад здебільшого забезпечує правильні результати для описових текстів, маркетингових текстів та інструкцій з догляду. Щодо критичної фахової термінології - «seal»/«guarnizione» - залишається певна кількість помилок, які повинен виправити адміністратор клієнта.

Тут адміністратор має три можливості:

Ручне заміщення для кожної мови та ключового слова: кожен запис перекладу можна відкрити в Менеджері додатків і налаштувати для кожної мови. За допомогою позначки «Зберегти» цей ручний переклад збережеться під час наступного автоматичного циклу.
Імпорт глосарію: існуючі терміни з інструментів перекладачів або PDF-глосаріїв можна імпортувати у форматі CSV, що створює готові записи перекладу.
Виправлення для окремих мов під час роботи: італійський відділ продажів помічає помилку, виправляє її в Менеджері додатків - виправлення набуває чинності негайно, решта перекладів залишаються без змін.

Реальність мов ЄС

24 офіційні мови ЄС - ## цезвучить багато. На практиці вони поділяються на три групи:

Основні ринки: DE, EN, FR, IT, ES, NL - тут кожен споживач очікує досконалості
Важливі ринки: PT, PL, SV, DA, FI - хороший рівень, іноді помітно, що переклад зроблено машиною
Рідкісні мови: MT, GA, ET, LV, LT - іноді доводиться готувати DPP мальтійською мовою, хоча жоден кінцевий споживач на Мальті його ніколи не перегляне. Проте це обов’язково.

Ця вимога не є опціональною. ESPR вимагає, щоб вміст DPP був мовою держави-члена, в якій продається продукт. Отже, хто обслуговує 27 держав, має справу з 24 мовами (деякі країни мають спільні мови).

Навіщо потрібен централізований рівень локалізації

Більшість платформ зберігають переклади як додаткові поля у записі даних: description_de, description_en, … 39 полів на кожен атрибут, що підлягає перекладу. Звучить просто, але має три недоліки:

Дублювання тексту. Два продукти з однаковою інформацією про матеріал створюють 39 + 39 перекладів замість одного набору з 39
Складно масштабувати. Додавання 40-ї мови означає: міграцію схеми для всіх моделей, що підлягають перекладу
Складно застосувати виправлення глобально. Якщо слово «guarnizione» виправити скрізь, доведеться редагувати всі записи окремо

Розділений перекладацький шар вирішує цю проблему: один запис, багато посилань. Одне виправлення - і всі записи отримують користь.

Чого у нас ще немає

База даних термінології для конкретного клієнта з автоматичним розпізнаванням пропозицій знаходиться на стадії планування розробки, але на сьогодні ще не доступна. Той, хто починає сьогодні, далеко просунеться за допомогою наявних інструментів: ручне заміщення, імпорт глосаріїв та позначка «зафіксувати» покривають найпоширеніші випадки використання.

Ми вважаємо, що машини повинні виконувати більшу частину роботи, а люди втручатися лише там, де це дійсно необхідно. Доки автоматичне розпізнавання термінології не стане доступним, ручне втручання залишається прозорим - і це чесніше, ніж обіцянка, яка не буде виконана.