39개 언어 자동 번역: 당사의 AI 번역이 전문 용어를 어떻게 처리하는지

39개 언어 자동 번역: 당사의 AI 번역이 전문 용어를 어떻게 처리하는지

당사의 자동 제품 데이터 번역 과정의 이면을 들여다보고, 전문 용어가 소설 텍스트와는 다르게 처리되어야 하는 이유를 알아봅니다.

오늘날 기계 번역은 수준이 워낙 높아져서 많은 경우 더 이상 사람이 번역한 것과 구별하기 어려울 정도입니다. 번역 서비스는 유창하고 관용구를 자연스럽게 사용하며, 문체의 뉘앙스까지 잘 살려줍니다. 그런데 DPP 데이터 세트를 번역하다 보면, 갑자기 “rear lock fiber closure”가 “Hinterschloss-Faserverschluss”로 변해버립니다.

문제는 바로 전문 용어입니다. 여기서는 제품 데이터를 소설처럼 다뤄서는 안 되는 이유와, Transpareo가 제공하는 도구를 통해 39개 언어 버전이 명확하게 전달될 수 있도록 하는 방법을 설명합니다.

근본적인 문제: 하나의 단어, 여러 가지 의미

아웃도어 재킷의 DPP에서 ‘Seal’은 방수 처리를 의미합니다. 실험실에서 ‘Seal’은 문맥에 따라 물개나 밀봉재를 뜻합니다. 유지보수 기록에서 ‘Seal’은 경우에 따라 인장을 의미하기도 합니다.

일반적인 번역 모델은 통계적 맥락을 바탕으로 선택합니다. 유창한 텍스트에서는 이 방법이 통합니다. 소설은 풍부한 맥락을 제공하기 때문입니다. 하지만 primary_closure: seal과 같은 데이터 필드에는 맥락이 거의 없습니다. 모델은 추측할 수밖에 없습니다.

그 결과 미묘한 오류가 발생합니다. “Hinterschloss-Faserverschluss”처럼 극적인 오류는 아니지만, 그 파장은 큽니다. 독일어에서 “Dichtung”이라고 불리는 부품이 이탈리아어 DPP에서는 갑자기 “guarnizione” 대신 “sigillo”로 표기되는 식입니다. 구매 담당자는 더 이상 해당 교체 부품을 찾을 수 없게 됩니다.

Transpareo가 현재 제공하는 서비스

당사의 번역 시스템은 모든 신규 콘텐츠를 자동으로 모든 활성화된 언어로 변환합니다. 이 시스템은 다음 네 가지 특징을 가지고 있습니다:

  • 마크다운 및 변수 보존: <a href="/ko/등록하기">Pro-Mitgliedschaft</a>와 같은 자리 표시자와 마크다운 구조는 번역 전에 추출되며, 순수한 텍스트만 번역된 후 구조는 변경 없이 다시 삽입됩니다. 이를 통해 링크, 양식 및 레이아웃이 모든 언어에서 일관성을 유지합니다.
  • 중앙 집중식 번역 항목: 번역 내용은 데이터 레코드 자체에 저장되지 않고 공유 레이어에 저장됩니다. 동일한 원문을 가진 여러 데이터 레코드가 하나의 번역을 공유합니다. 이를 통해 번역 비용을 절감하고 데이터 모델 전반에 걸쳐 용어를 자동으로 표준화합니다.
  • 변경 시 자동 재번역: 원문이 변경되면 모든 언어의 번역이 새로 생성됩니다. 독일어 원문을 수정하면 다른 38개 언어 버전도 자동으로 반영됩니다.
  • 레코드별 태그 지정: 국제 제품명이나 수동 수정 등의 경우, 콘텐츠를 자동 처리에서 제외하거나 기존 번역을 고정할 수 있습니다.

고객이 처리를 보완하는 부분

자동 번역은 설명문, 마케팅 문구 및 관리 지침에 대해 대부분 정확한 결과를 제공합니다. 그러나 ‘seal’/‘guarnizione’과 같은 중요한 전문 용어의 경우, 고객사의 관리자가 수정해야 할 오류가 일부 남아 있습니다.

이 경우 관리자는 다음 세 가지 방법을 활용할 수 있습니다:

  1. 언어 및 키별 수동 덮어쓰기: 각 번역 항목을 애플리케이션 관리자에서 열어 언어별로 조정할 수 있습니다. ‘고정’ 표시를 하면 다음 자동 번역 실행 시에도 이 수동 번역이 유지됩니다.
  2. 용어집 가져오기: 번역 도구 또는 PDF 용어집에 있는 기존 용어들을 CSV 파일로 가져와 직접 작성된 번역 항목을 생성할 수 있습니다.
  3. 운영 중 언어별 수정: 이탈리아 영업팀이 오류를 발견하고 애플리케이션 관리자에서 수정하면, 해당 수정은 즉시 적용되며 나머지 번역은 변경되지 않습니다.

EU 언어의 현실

24개의 EU 공식 언어는 많아 보입니다. 실제로는 세 가지 계층으로 나뉩니다:

  • 핵심 시장: DE, EN, FR, IT, ES, NL - 이곳의 모든 소비자는 완벽함을 기대합니다
  • 주요 시장: PT, PL, SV, DA, FI - 수준이 좋으며, 가끔 기계 번역의 흔적이 눈에 띈다
  • 드문 언어: MT, GA, ET, LV, LT - 때로는 몰타의 최종 소비자가 스캔할 일이 전혀 없음에도 몰타어로 된 DPP가 제공되기도 한다. 그럼에도 불구하고 의무 사항이다.

이 의무는 선택 사항이 아닙니다. ESPR은 제품이 판매되는 회원국의 언어로 된 DPP 콘텐츠를 요구합니다. 따라서 27개국을 대상으로 하는 경우 24개 언어가 관련됩니다(일부 언어는 여러 국가에서 공유됨).

중앙 집중식 현지화 계층이 필요한 이유

대부분의 플랫폼은 번역을 데이터 레코드의 추가 필드로 저장합니다: description_de, description_en, … 번역 가능한 속성 하나당 39개의 필드입니다. 간단해 보이지만 세 가지 단점이 있습니다:

  • 중복된 텍스트. 동일한 소재 정보를 가진 두 제품은 39개의 번역을 한 번만 생성하는 대신 39 + 39개의 번역을 생성합니다.
  • 확장성이 떨어집니다. 40번째 언어를 추가한다는 것은 모든 번역 가능한 모델에 걸쳐 스키마 마이그레이션을 수행해야 함을 의미합니다.
  • 수정 사항을 전체적으로 적용하기 어렵습니다. ‘guarnizione’이 모든 곳에서 수정된다면, 모든 데이터 레코드를 개별적으로 편집해야 합니다.

분리된 번역 계층이 이 문제를 해결합니다: 하나의 항목, 다수의 참조. 한 번의 수정으로 모든 데이터 레코드가 혜택을 받습니다.

아직 갖추지 못한 것

자동 제안 인식 기능이 포함된 고객 맞춤형 용어 데이터베이스는 개발 계획에 포함되어 있으나, 현재로서는 제공되지 않습니다. 지금 시작하시는 분들은 기존 도구만으로도 충분히 작업이 가능합니다. 수동 덮어쓰기, 용어집 가져오기, 고정 표시 기능만으로도 가장 흔한 사용 사례를 모두 처리할 수 있습니다.

저희는 기계가 업무의 대부분을 처리해야 하며, 사람은 정말로 필요한 경우에만 개입해야 한다고 믿습니다. 자동 용어 인식 기능이 제공될 때까지 수동 조작 방식은 투명하게 공개되어 있으며, 이는 지키지 못할 약속을 하는 것보다 훨씬 정직합니다.

다국어 지원 및 DPP 실무에 관한 최신 정보

새로운 언어, 데이터 품질 및 제품 기능 - 매달 한 번씩 엄선된 정보를 여러분의 이메일로 받아보세요.