如今机器翻译的水平已如此之高,以至于在许多情况下已难以与人工翻译区分开来。翻译服务既流畅又符合习语,还能准确把握语体。但当你翻译一个DPP数据集时 - - 突然间,“rear lock fiber closure” 变成了“后锁纤维闭合”。
问题在于专业术语。本文将解释为何产品数据不能像小说那样处理,以及Transpareo提供了哪些工具,以确保您的39种语言版本保持清晰易懂。
根本问题:一个词,多种含义
户外夹克 DPP 中的“Seal”:密封。“Seal”在实验室中:根据上下文,可能是海豹或密封件。“Seal”在维护记录中:在某些情况下可能是印章。
通用翻译模型会根据统计语境进行选择。对于连贯的文本,这种方法可行 - - 小说提供了丰富的语境。但在数据字段primary_closure: seal中,几乎没有语境。模型只能进行推测。
这会导致一些细微的错误。虽然不像“Hinterschloss-Faserverschluss”那样严重,但后果不容小觑:一个在德语中被称为“Dichtung”(密封件)的部件,在意大利语DPP中突然被译为“sigillo”而非“guarnizione”。 采购人员 ## 因此无法再找到该备件。
Transpareo 当前的服务
我们的翻译系统会自动将所有新内容转换为所有活跃语言。该系统具有四大特点:
-保留 Markdown 格式和变量:在翻译前会提取 <a href="/zh/zhu-ce">Pro-Mitgliedschaft</a> 等占位符和 Markdown 结构,仅对纯文本进行翻译,随后将结构原样恢复。这样,链接、表单和版式在所有语言中都能保持一致。
-集中式翻译条目:翻译内容不会存储在数据记录本身中,而是保存在一个共享层中。多个具有相同源文本的数据记录共享同一条翻译。这既节省了翻译成本,又能在整个数据模型中自动统一术语。
-修改后自动重新翻译: 若源文本发生变更,所有语言的译文都会重新生成。德语版本的修正将自动同步到其他38种语言版本中。
-每条数据记录的标记:可以将内容从自动处理流程中排除,或锁定现有翻译 - - 例如针对国际产品名称或手动更正 ## 的情况。
客户补充处理的环节
对于描述性文本、营销文案和保养说明,自动翻译大多能提供正确的结果。但在关键专业术语方面 - - 例如“seal”/“guarnizione” - - 仍会存在少量错误,需要由客户的管理员进行更正。
在此情况下,管理员有三种处理方式:
- 按语言和关键词进行手动覆盖:可在“应用程序管理器”中打开每个翻译条目,并按语言进行调整。通过“锁定”标记,该手动翻译将在下次自动翻译运行时被保留。
- 术语表导入:可将翻译工具或PDF术语表中的现有术语以CSV格式导入,并直接生成相应的翻译条目。
- 运行中的按语言修正:意大利销售团队发现错误后,可在应用程序管理器中进行更正 - - 修正立即生效,其余翻译保持不变。
欧盟语言的现实情况
24种欧盟官方语言听起来很多。实际上,它们分为三个层次:
-核心市场:DE、EN、FR、IT、ES、NL - - 这里的每位消费者都期待完美 -重要市场:PT、PL、SV、DA、FI - - 翻译质量良好,偶尔能看出是机器翻译 -冷门语言:MT、GA、ET、LV、LT - - 有时会提供马耳他语的DPP,尽管马耳他的终端消费者根本不会扫描该内容。但这仍是强制要求。
这一要求并非可选。ESPR 要求 DPP 内容必须使用产品销售所在成员国的语言。因此,面向 27 个国家的供应商需要处理 24 种语言(部分国家共享语言)。
为何需要集中化的本地化层
大多数平台将翻译内容作为数据记录中的附加字段进行存储:description_de、description_en……每个可翻译属性对应 39 个字段。听起来很简单,但存在三个缺点:
- 文本重复存储。 两款具有相同材质说明的产品会产生 39 + 39 条翻译,而不是仅 39 条
- 难以扩展。添加第 40 种语言意味着:必须对所有可翻译的模型进行模式迁移
- 更正难以全局应用。 如果要修正“guarnizione”一词,就必须逐一编辑所有数据记录
分离的翻译层解决了这个问题:一个条目,多个引用。一次修正,所有数据记录都能受益。
我们目前还缺少什么
一个具备自动建议识别功能的客户专用术语数据库已列入开发计划,但目前尚未发布。现在开始使用的用户,借助现有工具就能走得很远:手动覆盖、术语表导入以及“保留”标记功能已能覆盖最常见的使用场景。
我们认为,机器应承担大部分工作,而人类只需在真正必要时介入。在自动术语识别功能上线之前,手动操作流程是透明的 - - 这比无法兑现的承诺更诚实。
