39言語を自動翻訳：当社のAI翻訳が専門用語をどのように扱うか

今日の機械翻訳は、多くの場合、人間による翻訳と見分けがつかないほど精度が高くなっています。翻訳サービスは、流暢で慣用表現を駆使し、文体のニュアンスも的確に捉えています。ところが、DPPデータセットを翻訳してみると、突然「rear lock fiber closure」が「Hinterschloss-Faserverschluss」

という訳になってしまうのです。

この問題は「 専門用語」に起因します。ここでは、製品データが小説のように扱われてはならない理由と、39言語の翻訳版が理解しやすいものとなるよう、Transpareoが提供するツールについて解説します。

根本的な問題：1つの単語、複数の意味

アウトドアジャケットのDPPにおける「Seal」：防水処理。実験室での「Seal」：文脈に応じてアザラシ、あるいはシール。メンテナンス記録における「Seal」：状況によっては封印。

一般的な翻訳モデルは、統計的な文脈に基づいて選択を行います。流暢な文章であれば、これは機能します。小説には豊富な文脈があるからです。しかし、データフィールドの primary_closure: seal の場合、文脈はほとんどありません。モデルは推測するしかありません。

その結果、微妙な誤訳が生じます。「Hinterschloss-Faserverschluss」ほど劇的ではありませんが、重大な影響を及ぼします。ドイツ語で「Dichtung」と呼ばれる部品が、イタリア語のDPPでは突然「guarnizione」ではなく「sigillo」と表記されてしまうのです。その結果、購買担当者はその交換部品を見つけられなくなってしまいます。

Transpareoが現在提供しているサービス

当社の翻訳システムは、新しいコンテンツを自動的にすべての有効な言語に翻訳します。このシステムには4つの特徴があります：

-マークダウンおよび変数の保持：<a href="/ja/登録する">Pro-Mitgliedschaft</a> のようなプレースホルダーやマークダウン構造は翻訳前に抽出され、純粋なテキストのみが翻訳された後、構造は変更されずに再挿入されます。これにより、リンク、フォーム、レイアウトがすべての言語で一貫性を保ちます。 -中央集約型の翻訳エントリ：翻訳はデータレコード自体には保存されず、共有レイヤーに保存されます。同じ原文を持つ複数のデータレコードが1つの翻訳を共有します。これにより、翻訳コストを削減し、データモデル全体で用語を自動的に統一します。 -変更時の自動再翻訳：原文が変更されると、すべての言語の翻訳が再生成されます。ドイツ語での修正1件に対し、他の38の言語バージョンが自動的に更新されます。 -レコードごとのマーク設定：コンテンツを自動処理の対象から除外したり、既存の翻訳を固定したりすることができます。これは、国際的な製品名や手動による修正などの場合に ## 役立ちます。

顧客による処理の補完

自動翻訳は、説明文、マーケティングテキスト、お手入れ方法などについては、大部分で正確な結果を提供します。しかし、「seal」や「guarnizione」といった重要な専門用語に関しては、一部の誤りが残るため、顧客側の管理者が修正する必要があります。

この場合、管理者は以下の3つの手段を利用できます：

言語およびキーごとの手動上書き：各翻訳エントリはアプリケーションマネージャーで開いて、言語ごとに調整できます。「固定」マークを付けると、この手動翻訳は次回の自動翻訳実行時にも保持されます。
用語集のインポート：翻訳ツールやPDF用語集にある既存の用語をCSV形式で取り込むことで、直接入力された翻訳エントリを生成できます。
運用中の言語ごとの修正：イタリアの営業担当者が誤りに気づき、アプリケーションマネージャーで修正すると、その修正は即座に反映され、その他の翻訳には影響しません。

EU言語の現実

EUの公用語は24言語と多く聞こえますが、実際には3つの層に分かれます：

-主要市場：DE、EN、FR、IT、ES、NL - ここでは、すべての消費者が完璧さを求めています -主要市場：PT、PL、SV、DA、FI ― 水準は高く、時折機械翻訳であることがわかる程度 -使用頻度の低い言語：MT、GA、ET、LV、LT ― マルタのエンドユーザーがスキャンすることなど一度もないにもかかわらず、マルタ語のDPPが求められることがある。それでも義務である。

この義務は任意ではありません。ESPRは、製品が販売される加盟国の言語でのDPPコンテンツを義務付けています。したがって、27カ国に対応する場合、24の言語が関係してきます（言語を共有している国もあります）。

なぜ一元化されたローカライズ層が必要なのか

ほとんどのプラットフォームでは、翻訳をデータレコードの追加フィールドとして保存しています：description_de、description_en、……翻訳可能な属性1つにつき39個のフィールドです。簡単そうに聞こえますが、これには3つの欠点があります：

テキストが二重に保持される。同じ素材表記を持つ2つの製品があると、翻訳は1回で39件ではなく、39＋39件生成される
スケーラビリティが低い。40番目の言語を追加するには、翻訳可能なすべてのモデルにわたるスキーマの移行が必要となる
修正をグローバルに適用するのが困難。「guarnizione」をどこでも修正する場合、すべてのデータレコードを個別に編集する必要があります。

分割された翻訳レイヤーはこの問題を解決します。1つのエントリに対して多数の参照があり、1回の修正ですべてのデータレコードが恩恵を受けます。

まだ実現できていないこと

自動候補検出機能を備えた顧客固有の用語データベースは開発計画に含まれていますが、現時点では提供されていません。今すぐ導入を始める場合でも、既存のツールで十分に対応可能です。手動での上書き、用語集のインポート、および「保留」マークの設定により、最も一般的なユースケースをカバーできます。

私たちは、作業の大部分は機械が行い、人間は本当に必要な場合にのみ介入すべきだと考えています。自動用語認識機能が利用可能になるまでは、手動による操作が透明に行われます。これは、果たされない約束をするよりも誠実な対応だと考えています。