Сегодня машинный перевод настолько хорош, что во многих случаях его уже невозможно отличить от человеческого. Переводческие сервисы работают плавно, идиоматично и с чувством стиля. Но стоит перевести набор данных DPP - и вдруг «rear lock fiber closure» превращается в «задний замок с волоконной застежкой».
Проблема заключается в специальной терминологии. Здесь мы объясним, почему данные о продукте нельзя трактовать как романы, и какие инструменты предоставляет Transpareo, чтобы ваши 39 языковых версий оставались понятными.
Основная проблема: одно слово - несколько значений
«Seal» в DPP-файле для куртки для активного отдыха: герметизация. «Seal» в лаборатории: тюлень или уплотнение, в зависимости от контекста. «Seal» в протоколе технического обслуживания: в некоторых случаях - печать.
Общая модель перевода делает выбор на основе статистического контекста. В случае беглого текста это работает - роман предоставляет богатый контекст. В поле данных primary_closure: seal контекста практически нет. Модель выносит предположение.
Результатом становятся едва заметные ошибки. Не такие драматичные, как «замок с задней защелкой», но имеющие серьезные последствия: компонент, который в немецком языке называется «Dichtung», в итальянском DPP внезапно становится «sigillo» вместо «guarnizione». Заказчик больше не может найти эту запасную часть.
Что предлагает Transpareo сегодня
Наша система перевода автоматически переводит каждый новый контент на все активные языки. Её отличают четыре особенности:
-
Сохранение Markdown и переменных: заполнители, такие как
<a href="/ru/zarieghistrirovat-sia">Pro-Mitgliedschaft</a>, и структуры Markdown извлекаются перед переводом, переводится чистый текст, а затем структуры вставляются обратно без изменений. Таким образом, ссылки, формы и верстка остаются единообразными во всех языках. - Централизованные переводческие записи: переводы хранятся не в самой записи, а в общем слое. Несколько записей с одинаковым исходным текстом используют один и тот же перевод. Это позволяет сократить расходы на перевод и автоматически унифицировать терминологию во всей модели данных.
- Автоматический перевод при изменении: если исходный текст изменяется, переводы на всех языках генерируются заново. Исправление на немецком языке автоматически отражается в 38 других языковых версиях.
- Пометки для каждой записи: контент можно исключить из автоматического цикла или зафиксировать существующие переводы - например, для международных названий продуктов или ручных исправлений.
Где клиент дополняет обработку
Автоматический перевод в большинстве случаев даёт правильные результаты для описательных текстов, маркетинговых текстов и инструкций по уходу. В случае критической специальной терминологии - например, «seal»/«guarnizione» - остаётся небольшое количество ошибок, которые должен исправить администратор клиента.
Здесь у администратора есть три возможности:
- Ручная перезапись для каждого языка и ключа: каждую запись перевода можно открыть в диспетчере приложений и скорректировать для каждого языка. С помощью отметки «Зафиксировать» этот ручной перевод сохранится при следующем автоматическом прогоне.
- Импорт глоссария: существующие термины из инструментов переводчиков или PDF-глоссариев можно импортировать в формате CSV, что позволяет напрямую создавать записи перевода.
- Корректировки по каждому языку в режиме реального времени: итальянский отдел продаж обнаруживает ошибку, исправляет её в Менеджере приложений - исправление вступает в силу немедленно, остальные переводы остаются без изменений.
Реальность языков ЕС
24 официальных языка ЕС - ## этозвучит внушительно. На практике они делятся на три уровня:
- Основные рынки: DE, EN, FR, IT, ES, NL - здесь каждый потребитель ожидает совершенства
- Значимые рынки: PT, PL, SV, DA, FI - хороший уровень, иногда заметно, что перевод выполнен машиной
- Редкие языки: MT, GA, ET, LV, LT - иногда приходится предоставлять DPP на мальтийском языке, даже если ни один конечный потребитель на Мальте его не сканирует. Тем не менее это обязательное требование.
Это требование не является факультативным. ESPR требует, чтобы содержание DPP было на языке того государства-члена, в котором продаётся продукт. Таким образом, компания, обслуживающая 27 государств, имеет дело с 24 языками (некоторые страны используют общие языки).
Зачем нужен централизованный уровень локализации
Большинство платформ хранят переводы в виде дополнительных полей в наборе данных: description_de, description_en, … 39 полей на каждый переводимый атрибут. Звучит просто, но имеет три недостатка:
- Дублирование текста. Два продукта с одинаковым указанием материала генерируют 39 + 39 переводов вместо одного набора из 39
- Сложность масштабирования. Добавление 40-го языка означает: миграцию схемы по всем переводимым моделям
- Сложность глобального применения исправлений. Если слово «guarnizione» исправить везде, придётся редактировать все записи по отдельности
Разделённый переводной слой решает эту проблему: одна запись, много ссылок. Одно исправление - и все записи получают выгоду.
Чего у нас ещё нет
База данных терминологии для конкретного клиента с функцией автоматического распознавания предложений находится в стадии планирования разработки, но на данный момент ещё не доступна. Те, кто начинает работу сегодня, могут добиться значительных результатов с помощью имеющихся инструментов: ручная замена, импорт глоссариев и отметка «сохранить» покрывают наиболее распространённые сценарии использования.
Мы считаем, что машины должны выполнять большую часть работы, а люди должны вмешиваться только там, где это действительно необходимо. Пока автоматическое распознавание терминологии не будет доступно, ручное управление останется прозрачным - и это честнее, чем обещание, которое не будет выполнено.
