39 de limbi în mod automat: cum gestionează traducerea noastră bazată pe IA terminologia de specialitate

Traducerea automată este astăzi atât de bună, încât în multe cazuri nu mai poate fi deosebită de cea realizată de om. Serviciile de traducere funcționează fluent, idiomatic, cu simț al registrului. Apoi traduci un set de date DPP - și, brusc, „rear lock fiber closure” devine „închidere cu fibră la spate”.

Problema se numește terminologie de specialitate. Aici explicăm de ce datele despre produse nu trebuie tratate ca niște romane și ce instrumente pune la dispoziție Transpareo pentru ca cele 39 de versiuni lingvistice ale dvs. să rămână ușor de înțeles.

Problema fundamentală: un cuvânt, mai multe semnificații

„Seal” în DPP-ul unei jachete de exterior: etanșare. „Seal” într-un laborator: focă sau garnitură, în funcție de context. „Seal” într-un protocol de întreținere: în anumite circumstanțe, un sigiliu.

Un model general de traducere alege pe baza contextului statistic. În cazul unui text fluid, acest lucru funcționează - romanul oferă un context bogat. În cazul unui câmp de date primary_closure: seal, contextul este aproape inexistent. Modelul face o presupunere.

Rezultatul sunt erori subtile. Nu la fel de dramatice ca „închidere cu fibru în spate”, dar cu consecințe: o componentă care în limba germană se numește „Dichtung” se numește brusc în DPP-ul italian „sigillo” în loc de „guarnizione”. Un cumpărător nu mai găsește piesa de schimb.

Ce realizează Transpareo astăzi

Sistemul nostru de traducere transferă automat fiecare conținut nou în toate limbile active. Acesta se caracterizează prin patru trăsături:

Păstrarea Markdown-ului și a variabilelor: substituenții precum <a href="/ro/a se înregistra">Pro-Mitgliedschaft</a> și structurile Markdown sunt extrase înainte de traducere, textul brut este tradus, iar apoi structurile sunt reinserate nemodificate. Astfel, linkurile, formularele și aspectul rămân consecvente în toate limbile.
Intrări centrale de traducere: traducerile nu sunt stocate în însăși înregistrarea de date, ci într-un strat partajat. Mai multe înregistrări de date cu același text original împart o singură traducere. Acest lucru reduce costurile de traducere și uniformizează automat termenii la nivelul întregului model de date.
Retraducere automată în cazul modificărilor: dacă textul original este modificat, traducerile sunt regenerate în toate limbile. O corectură în limba germană - celelalte 38 de versiuni lingvistice se actualizează automat.
Marcaje pentru fiecare înregistrare: conținuturile pot fi excluse din procesul automat sau traducerile existente pot fi blocate - de exemplu, pentru denumirile internaționale ale produselor sau pentru corecții manuale.

Unde clientul completează procesarea

Traducerea automată oferă, în mare parte, rezultate corecte pentru textele descriptive, textele de marketing și instrucțiunile de întreținere. În cazul terminologiei tehnice critice - „seal”/„guarnizione” - rămâne o cantitate reziduală de erori pe care administratorul clientului trebuie să le corecteze.

În acest caz, administratorul are la dispoziție trei opțiuni:

Suprascriere manuală pentru fiecare limbă și cuvânt-cheie: fiecare intrare de traducere poate fi deschisă în Managerul de aplicații și adaptată pentru fiecare limbă. Prin marcarea opțiunii de fixare, această traducere manuală va fi păstrată la următoarea rulare automată.
Importul glosarului: terminologiile existente din instrumentele de traducere sau din glosarele PDF pot fi importate în format CSV și generează direct intrări de traducere.
Corecții pe limbă în timpul funcționării: un reprezentant de vânzări italian observă o eroare, o corectează în Managerul de aplicații - corecția intră în vigoare imediat, iar restul traducerilor rămân neschimbate.

Realitatea limbilor UE

24 de limbi oficiale ale UE pare mult. În practică, acestea se împart în trei categorii:

Piețe principale: DE, EN, FR, IT, ES, NL - aici fiecare consumator se așteaptă la perfecțiune
Piețe importante: PT, PL, SV, DA, FI - nivel bun, ocazional se observă că traducerea este automată
Limbi rare: MT, GA, ET, LV, LT - uneori se are un DPP în limba malteză, fără ca vreun consumator final din Malta să-l scaneze vreodată. Cu toate acestea, este obligatoriu.

Această obligație nu este opțională. ESPR impune ca conținutul DPP să fie în limba statului membru în care se vinde produsul. Cine deservește 27 de state are, așadar, 24 de limbi în joc (unele state împărtășesc aceeași limbă).

De ce un nivel centralizat de localizare

Majoritatea platformelor stochează traducerile ca câmpuri suplimentare în setul de date: description_de, description_en, … 39 de câmpuri pentru fiecare atribut traducibil. Sună simplu, dar prezintă trei dezavantaje:

Text duplicat. Două produse cu aceeași mențiune privind materialul generează 39 + 39 de traduceri în loc de o singură dată 39
Greu de scalabil. Adăugarea unei a 40-a limbi înseamnă: migrarea schemei pentru toate modelele traducibile
Corecțiile sunt greu de aplicat la nivel global. Dacă „guarnizione” este corectat peste tot, toate înregistrările ar trebui editate individual

Stratul de traducere divizat rezolvă această problemă: o singură intrare, multe referințe. O singură corectură, toate înregistrările beneficiază de aceasta.

Ce nu avem încă

O bază de date terminologică specifică clientului, cu recunoaștere automată a sugestiilor, se află în planul de dezvoltare, dar nu este disponibilă în prezent. Cine începe astăzi poate ajunge departe cu instrumentele existente: suprascrierile manuale, importurile de glosare și marcajul de reținere acoperă cele mai frecvente cazuri de utilizare.

Credem că mașinile ar trebui să se ocupe de cea mai mare parte a muncii, iar oamenii să intervină doar acolo unde este cu adevărat necesar. Până când recunoașterea automată a terminologiei va fi disponibilă, opțiunea manuală este transparentă - și acest lucru este mai onest decât o promisiune care nu se îndeplinește.