39 idiomas automaticamente: como a nossa tradução com IA lida com a terminologia especializada

39 idiomas automaticamente: como a nossa tradução com IA lida com a terminologia especializada

Um olhar aos bastidores da nossa tradução automática de dados de produtos - e por que razão a terminologia especializada deve ser tratada de forma diferente de um texto de ficção.

Atualmente, a tradução automática é tão boa que, em muitos casos, já não se consegue distingui-la da tradução humana. Os serviços de tradução funcionam com fluidez, de forma idiomática e com sensibilidade para o registo linguístico. Depois, traduz-se um conjunto de dados DPP - e, de repente, «rear lock fiber closure» transforma-se em «fecho de fibra na parte traseira».

O problema chama-se terminologia especializada. Aqui explicamos por que razão os dados de produtos não devem ser tratados como romances e quais as ferramentas que a Transpareo disponibiliza para que as suas 39 versões linguísticas continuem a ser compreensíveis.

O problema fundamental: uma palavra, vários significados

«Seal» no DPP de um casaco de exterior: vedação. «Seal» num laboratório: foca ou vedante, dependendo do contexto. «Seal» num registo de manutenção: em determinadas circunstâncias, um selo.

Um modelo de tradução geral faz a escolha com base no contexto estatístico. Num texto contínuo, isto funciona - o romance fornece contexto em abundância. Num campo de dados primary_closure: seal, quase não há contexto. O modelo faz uma suposição.

O resultado são erros subtis. Não tão dramáticos como «fecho traseiro de fibra», mas com consequências: um componente que em alemão se chama «Dichtung» passa, de repente, a chamar-se «sigillo» em vez de «guarnizione» num DPP italiano. Um comprador já não consegue encontrar a peça de substituição.

O que a Transpareo oferece atualmente

O nosso sistema de tradução transfere automaticamente qualquer novo conteúdo para todas as línguas ativas. Caracteriza-se por quatro aspetos:

  • Preservação de Markdown e variáveis: os marcadores de lugar, como <a href="/pt/registar-se">Pro-Mitgliedschaft</a>, e as estruturas Markdown são extraídos antes da tradução; o texto puro é traduzido e, em seguida, as estruturas são reinseridas sem alterações. Desta forma, as ligações, os formulários e o layout mantêm-se consistentes em todas as línguas.
  • Entradas de tradução centralizadas: as traduções não são guardadas no próprio registo de dados, mas sim numa camada partilhada. Vários registos de dados com o mesmo texto original partilham uma única tradução. Isto poupa custos de tradução e uniformiza automaticamente os termos em todo o modelo de dados.
  • Nova tradução automática em caso de alteração: se o texto original for alterado, as traduções são geradas de novo em todas as línguas. Uma correção em alemão é automaticamente refletida nas outras 38 versões linguísticas.
  • Marcações por registo: os conteúdos podem ser excluídos do processo automático ou as traduções existentes podem ser fixadas - por exemplo, no caso de nomes de produtos internacionais ou correções manuais.

Onde o cliente complementa o processamento

A tradução automática fornece, na sua maioria, resultados corretos para textos descritivos, textos de marketing e instruções de manutenção. No caso de terminologia técnica crítica - como «seal»/«guarnizione» - , permanece uma quantidade residual de erros que o administrador do cliente tem de corrigir.

Neste caso, o administrador dispõe de três opções:

  1. Substituição manual por idioma e palavra-chave: cada entrada de tradução pode ser aberta no Gestor de Aplicações e ajustada por idioma. Com a marcação de fixação, esta tradução manual é mantida na próxima execução automática.
  2. Importação de glossário: a terminologia existente proveniente de ferramentas de tradução ou glossários em PDF pode ser importada como ficheiro CSV e gera entradas de tradução diretamente redigidas.
  3. Correções por idioma em tempo real: um departamento de vendas italiano deteta um erro, corrige-o no Gestor de Aplicações - a correção entra em vigor imediatamente, mantendo as restantes traduções inalteradas.

A realidade das línguas da UE

24 línguas oficiais da UE parece muito. Na prática, existem três níveis:

  • Mercados principais: DE, EN, FR, IT, ES, NL - aqui, todos os consumidores esperam perfeição
  • Mercados importantes: PT, PL, SV, DA, FI - bom nível, ocasionalmente nota-se a tradução automática
  • Línguas raras: MT, GA, ET, LV, LT - por vezes, tem-se um DPP em maltês, sem que um consumidor final em Malta o venha a consultar. Ainda assim, é obrigatório.

Esta obrigação não é opcional. O ESPR exige que os conteúdos do DPP estejam na língua do Estado-Membro onde o produto é vendido. Quem atende 27 Estados tem, portanto, 24 línguas em jogo (alguns partilham línguas).

Porquê uma camada de localização centralizada

A maioria das plataformas armazena as traduções como campos adicionais no registo de dados: description_de, description_en, … 39 campos por cada atributo traduzível. Parece simples, mas tem três desvantagens:

  • Texto duplicado. Dois produtos com a mesma descrição de material geram 39 + 39 traduções em vez de apenas 39
  • Dificuldade de escalabilidade. Adicionar um 40.º idioma implica uma migração do esquema em todos os modelos traduzíveis
  • Dificuldade em aplicar correções globalmente. Se «guarnizione» for corrigido em todo o lado, todos os registos teriam de ser editados individualmente

A camada de tradução dividida resolve isso: uma entrada, muitas referências. Uma correção, todos os registos beneficiam.

O que ainda não temos

Uma base de dados de terminologia específica para cada cliente, com reconhecimento automático de sugestões, está em fase de planeamento de desenvolvimento, mas ainda não está disponível. Quem começar hoje consegue avançar bastante com as ferramentas existentes: substituições manuais, importações de glossários e a marcação de «manter» cobrem os casos de utilização mais comuns.

Acreditamos que as máquinas devem realizar a maior parte do trabalho e que as pessoas só devem intervir quando for realmente necessário. Até que o reconhecimento automático de terminologia esteja disponível, a intervenção manual é transparente - e isso é mais honesto do que uma promessa que não é cumprida.

Atualizações sobre o multilinguismo e a prática do DPP

Novos idiomas, qualidade dos dados e funcionalidades do produto - selecionados mensalmente e enviados diretamente para a sua caixa de entrada.