39 langues en automatique : comment notre traduction par IA gère la terminologie spécialisée

39 langues en automatique : comment notre traduction par IA gère la terminologie spécialisée

Un aperçu des coulisses de notre système de traduction automatique des données produit - et pourquoi la terminologie spécialisée doit être traitée différemment d'un texte de roman.

La traduction automatique est aujourd’hui si performante qu’il est souvent impossible de la distinguer d’une traduction humaine. Les services de traduction produisent des textes fluides, idiomatiques, avec un sens aigu du registre. Puis, on traduit un ensemble de données DPP - et soudain, « rear lock fiber closure » devient «fermeture à fibre arrière».

Le problème, c’est la terminologie technique. Nous expliquons ici pourquoi les données produit ne doivent pas être traitées comme des romans et quels outils Transpareo met à votre disposition pour que vos 39 versions linguistiques restent compréhensibles.

Le problème fondamental : un mot, plusieurs significations

« Seal » dans le DPP d’une veste de plein air : étanchéité. « Seal » dans un laboratoire : phoque ou joint, selon le contexte. « Seal » dans un protocole de maintenance : éventuellement un sceau.

Un modèle de traduction général fait son choix en fonction du contexte statistique. Cela fonctionne pour un texte fluide : le roman fournit un contexte abondant. Mais pour un champ de données primary_closure: seal, le contexte est quasi inexistant. Le modèle fait alors une supposition.

Il en résulte des erreurs subtiles. Pas aussi dramatiques que « Hinterschloss-Faserverschluss », mais lourdes de conséquences : un composant appelé « Dichtung » en allemand s’appelle soudain « sigillo » au lieu de « guarnizione » dans une fiche technique (DPP) en italien. Un acheteur ne parvient plus à trouver la pièce de rechange.

Ce que Transpareo propose aujourd’hui

Notre système de traduction transpose automatiquement chaque nouveau contenu dans toutes les langues actives. Il se caractérise par quatre atouts :

  • Conservation du Markdown et des variables: les espaces réservés tels que <a href="/fr/s'inscrire">Pro-Mitgliedschaft</a> et les structures Markdown sont extraits avant la traduction ; le texte brut est traduit, puis les structures sont réintégrées telles quelles. Ainsi, les liens, les formulaires et la mise en page restent cohérents dans toutes les langues.
  • Entrées de traduction centralisées: les traductions ne sont pas enregistrées dans l’enregistrement lui-même, mais dans une couche partagée. Plusieurs enregistrements comportant le même texte d’origine partagent une même traduction. Cela permet de réduire les coûts de traduction et d’harmoniser automatiquement la terminologie à travers le modèle de données.
  • Retraduction automatique en cas de modification: si le texte d’origine est modifié, les traductions sont régénérées dans toutes les langues. Une correction en allemand entraîne automatiquement la mise à jour des 38 autres versions linguistiques.
  • Marquages par enregistrement: les contenus peuvent être exclus du traitement automatique ou les traductions existantes peuvent être verrouillées - par exemple pour les noms de produits internationaux ou les corrections manuelles.

Quand le client complète le traitement

La traduction automatique fournit des résultats en grande partie corrects pour les textes descriptifs, les textes marketing et les instructions d’entretien. En ce qui concerne la terminologie technique critique - comme « seal »/« guarnizione » -, il subsiste un nombre résiduel d’erreurs que l’administrateur du client doit corriger.

L’administrateur dispose ici de trois leviers :

  1. Remplacement manuel par langue et par clé: chaque entrée de traduction peut être ouverte dans le gestionnaire d’applications et adaptée par langue. Grâce à la balise de verrouillage, cette traduction manuelle est conservée lors du prochain cycle automatique.
  2. Importation de glossaires: les terminologies existantes issues d’outils de traduction ou de glossaires au format PDF peuvent être importées sous forme de fichier CSV et génèrent directement des entrées de traduction.
  3. Corrections par langue en cours d’exploitation: un commercial italien remarque une erreur, la corrige dans le gestionnaire d’applications ; la correction prend effet immédiatement, les autres traductions restent inchangées.

La réalité linguistique de l’UE

24 langues officielles de l’UE, ## celasemble beaucoup. Dans la pratique, on distingue trois niveaux :

  • Marchés clés: DE, EN, FR, IT, ES, NL - ici, chaque consommateur s’attend à la perfection
  • Marchés importants: PT, PL, SV, DA, FI - bon niveau, on remarque parfois la traduction automatique
  • Langues rares: MT, GA, ET, LV, LT - il arrive parfois d’avoir une fiche de données de sécurité (FDS) en maltais sans qu’aucun consommateur final à Malte ne la consulte. C’est néanmoins obligatoire.

Cette obligation n’est pas facultative. Le règlement ESPR exige que le contenu des fiches produit (DPP) soit rédigé dans la langue de l’État membre où le produit est vendu. Quiconque dessert 27 États doit donc gérer 24 langues (certains États partagent des langues).

Pourquoi un niveau de localisation centralisé?

La plupart des plateformes stockent les traductions sous forme de champs supplémentaires dans l’enregistrement : description_de, description_en, … 39 champs par attribut traduisible. Cela semble simple, mais présente trois inconvénients :

  • Du texte dupliqué. Deux produits présentant la même mention relative au matériau génèrent 39 + 39 traductions au lieu d’une seule fois 39
  • Difficile à faire évoluer. Ajouter une 40e langue implique une migration du schéma sur l’ensemble des modèles traduisibles
  • Difficulté à appliquer les corrections de manière globale. Si «guarnizione» est corrigé partout, tous les enregistrements devraient être modifiés individuellement

La couche de traduction partagée résout ce problème : une seule entrée, de nombreuses références. Une seule correction, tous les enregistrements en bénéficient.

Ce dont nous ne disposons pas encore

Une base de données terminologique spécifique au client avec reconnaissance automatique des suggestions est en cours de développement, mais n’est pas encore disponible. Ceux qui se lancent aujourd’hui peuvent aller loin avec les outils existants : les remplacements manuels, les importations de glossaires et le marquage « à conserver » couvrent les cas d’utilisation les plus courants.

Nous pensons que les machines devraient effectuer la majeure partie du travail et que les humains ne devraient intervenir que lorsque cela est vraiment nécessaire. Jusqu’à ce que la reconnaissance terminologique automatique soit disponible, le recours au manuel est transparent - et c’est plus honnête qu’une promesse qui ne sera pas tenue.

Actualités sur le multilinguisme et la pratique du DPP

Nouvelles langues, qualité des données et fonctionnalités des produits : une sélection mensuelle directement dans votre boîte de réception.