39种语言自动翻译：我们的AI翻译如何处理专业术语

如今机器翻译的水平已如此之高，以至于在许多情况下已难以与人工翻译区分开来。翻译服务既流畅又符合习语，还能准确把握语体。但当你翻译一个DPP数据集时 - - 突然间，“rear lock fiber closure” 变成了“后锁纤维闭合”。

问题在于专业术语。本文将解释为何产品数据不能像小说那样处理，以及Transpareo提供了哪些工具，以确保您的39种语言版本保持清晰易懂。

根本问题：一个词，多种含义

户外夹克 DPP 中的“Seal”：密封。“Seal”在实验室中：根据上下文，可能是海豹或密封件。“Seal”在维护记录中：在某些情况下可能是印章。

通用翻译模型会根据统计语境进行选择。对于连贯的文本，这种方法可行 - - 小说提供了丰富的语境。但在数据字段primary_closure: seal中，几乎没有语境。模型只能进行推测。

这会导致一些细微的错误。虽然不像“Hinterschloss-Faserverschluss”那样严重，但后果不容小觑：一个在德语中被称为“Dichtung”（密封件）的部件，在意大利语DPP中突然被译为“sigillo”而非“guarnizione”。采购人员 ## 因此无法再找到该备件。

Transpareo 当前的服务

我们的翻译系统会自动将所有新内容转换为所有活跃语言。该系统具有四大特点：

-保留 Markdown 格式和变量：在翻译前会提取 <a href="/zh/zhu-ce">Pro-Mitgliedschaft</a> 等占位符和 Markdown 结构，仅对纯文本进行翻译，随后将结构原样恢复。这样，链接、表单和版式在所有语言中都能保持一致。 -集中式翻译条目：翻译内容不会存储在数据记录本身中，而是保存在一个共享层中。多个具有相同源文本的数据记录共享同一条翻译。这既节省了翻译成本，又能在整个数据模型中自动统一术语。 -修改后自动重新翻译：若源文本发生变更，所有语言的译文都会重新生成。德语版本的修正将自动同步到其他38种语言版本中。 -每条数据记录的标记：可以将内容从自动处理流程中排除，或锁定现有翻译 - - 例如针对国际产品名称或手动更正 ## 的情况。

客户补充处理的环节

对于描述性文本、营销文案和保养说明，自动翻译大多能提供正确的结果。但在关键专业术语方面 - - 例如“seal”/“guarnizione” - - 仍会存在少量错误，需要由客户的管理员进行更正。

在此情况下，管理员有三种处理方式：

按语言和关键词进行手动覆盖：可在“应用程序管理器”中打开每个翻译条目，并按语言进行调整。通过“锁定”标记，该手动翻译将在下次自动翻译运行时被保留。
术语表导入：可将翻译工具或PDF术语表中的现有术语以CSV格式导入，并直接生成相应的翻译条目。
运行中的按语言修正：意大利销售团队发现错误后，可在应用程序管理器中进行更正 - - 修正立即生效，其余翻译保持不变。

欧盟语言的现实情况

24种欧盟官方语言听起来很多。实际上，它们分为三个层次：

-核心市场：DE、EN、FR、IT、ES、NL - - 这里的每位消费者都期待完美 -重要市场：PT、PL、SV、DA、FI - - 翻译质量良好，偶尔能看出是机器翻译 -冷门语言：MT、GA、ET、LV、LT - - 有时会提供马耳他语的DPP，尽管马耳他的终端消费者根本不会扫描该内容。但这仍是强制要求。

这一要求并非可选。ESPR 要求 DPP 内容必须使用产品销售所在成员国的语言。因此，面向 27 个国家的供应商需要处理 24 种语言（部分国家共享语言）。

为何需要集中化的本地化层

大多数平台将翻译内容作为数据记录中的附加字段进行存储：description_de、description_en……每个可翻译属性对应 39 个字段。听起来很简单，但存在三个缺点：

文本重复存储。两款具有相同材质说明的产品会产生 39 + 39 条翻译，而不是仅 39 条
难以扩展。添加第 40 种语言意味着：必须对所有可翻译的模型进行模式迁移
更正难以全局应用。如果要修正“guarnizione”一词，就必须逐一编辑所有数据记录

分离的翻译层解决了这个问题：一个条目，多个引用。一次修正，所有数据记录都能受益。

我们目前还缺少什么

一个具备自动建议识别功能的客户专用术语数据库已列入开发计划，但目前尚未发布。现在开始使用的用户，借助现有工具就能走得很远：手动覆盖、术语表导入以及“保留”标记功能已能覆盖最常见的使用场景。

我们认为，机器应承担大部分工作，而人类只需在真正必要时介入。在自动术语识别功能上线之前，手动操作流程是透明的 - - 这比无法兑现的承诺更诚实。