39 valodas automātiski: kā mūsu AI tulkošanas sistēma rīkojas ar speciālo terminoloģiju

39 valodas automātiski: kā mūsu AI tulkošanas sistēma rīkojas ar speciālo terminoloģiju

Ieskats mūsu automātiskās produktu datu tulkošanas aizkulisēs - un kāpēc speciālā terminoloģija jāapstrādā citādi nekā romāna teksts.

Mūsdienās mašīntulkojums ir tik labs, ka daudzos gadījumos to vairs nevar atšķirt no cilvēka veikta tulkojuma. Tulkošanas pakalpojumi nodrošina plūstošu, idiomātisku tulkojumu, ņemot vērā stilistisko reģistru. Tad tiek tulkots DPP datu kopums - un pēkšņi „rear lock fiber closure“ kļūst par «aizmugurējā slēdzenes šķiedru aizdare».

Problēma ir saistīta ar speciālo terminoloģiju. Šeit mēs izskaidrosim, kāpēc produktu datus nedrīkst uztvert kā romānus un kādus rīkus Transpareo piedāvā, lai jūsu 39 valodu versijas paliktu saprotamas.

Galvenā problēma: viens vārds, vairākas nozīmes

„Seal” āra jakas DPP datu kopā: blīvējums. „Seal” laboratorijā: roņš vai blīvējums, atkarībā no konteksta. „Seal” apkopes protokolā: atsevišķos gadījumos zīmogs.

Vispārējs tulkošanas modelis izdara izvēli, balstoties uz statistisko kontekstu. Plūstošā tekstā tas darbojas - romāns sniedz bagātīgu kontekstu. Datu laukā primary_closure: seal konteksta gandrīz nav. Modelis izdara pieņēmumu.

Rezultātā rodas smalkas kļūdas. Tās nav tik dramatiskas kā «aizmugurējā slēgme - šķiedru aizdare», bet tām ir nopietnas sekas: komponents, ko vācu valodā sauc par «Dichtung», itāļu DPP pēkšņi tiek saukts par «sigillo» nevis «guarnizione». Iepirkuma speciālists vairs nevar atrast šo rezerves daļu.

Ko Transpareo piedāvā šodien

Mūsu tulkošanas sistēma automātiski pārnes katru jauno saturu visās aktīvajās valodās. To raksturo četras īpašības:

  • Markdown un mainīgo saglabāšana: pirms tulkošanas tiek izdalīti aizstājējzīmes, piemēram, <a href="/lv/reģistrēties">Pro-Mitgliedschaft</a>, un Markdown struktūras; tiek tulkots tikai teksts, pēc tam struktūras tiek atkal ievietotas nemainītas. Tādējādi saites, veidlapas un izkārtojums paliek vienots visās valodās.
  • Centralizēti tulkojumu ieraksti: tulkojumi netiek saglabāti pašā datu ierakstā, bet gan kopīgā slānī. Vairāki datu ieraksti ar vienādu oriģināltekstu izmanto vienu un to pašu tulkojumu. Tas ietaupa tulkošanas izmaksas un automātiski vienādo terminus visā datu modelī.
  • Automātiska atkārtota tulkošana izmaiņu gadījumā: ja oriģinālteksts tiek mainīts, tulkojumi visās valodās tiek ģenerēti no jauna. Korrekcija vācu valodā - 38 citas valodu versijas seko automātiski.
  • Atzīmes katram datu ierakstam: saturu var izslēgt no automātiskās apstrādes vai fiksēt esošos tulkojumus - piemēram, starptautiskiem produktu nosaukumiem vai manuālām korekcijām.

Kur klients papildina apstrādi

Automātiskā tulkošana lielākoties nodrošina pareizus rezultātus apraksta tekstiem, mārketinga tekstiem un kopšanas instrukcijām. Attiecībā uz kritisko speciālo terminoloģiju - piemēram, «seal»/«guarnizione» - paliek neliels kļūdu skaits, kuras klientam jāizlabo.

Šajā gadījumā administratoram ir trīs rīki:

  1. Manuāla pārrakstīšana katrai valodai un atslēgvārdam: katru tulkojuma ierakstu var atvērt lietojumprogrammu pārvaldniekā un pielāgot katrai valodai. Izmantojot fiksēšanas atzīmi, šis manuālais tulkojums tiek saglabāts nākamajā automātiskajā tulkošanas ciklā.
  2. Glosāra importēšana: esošo terminoloģiju no tulkotāju rīkiem vai PDF glosāriem var importēt CSV formātā, un tā tieši ģenerē tulkojuma ierakstus.
  3. Korekcijas katrai valodai darbības laikā: itāļu pārdošanas nodaļa pamanīja kļūdu, to izlaboja lietojumprogrammu pārvaldniekā - labojums stājas spēkā nekavējoties, pārējie tulkojumi paliek nemainīgi.

ES valodu realitāte

24 ES oficiālās valodas - ## tasizklausās daudz. Praksē tās var iedalīt trīs grupās:

  • Galvenie tirgi: DE, EN, FR, IT, ES, NL - šeit katrs patērētājs sagaida perfekciju
  • Nozīmīgi tirgi: PT, PL, SV, DA, FI - labs līmenis, reizēm pamanāma mašīntulkojuma klātbūtne
  • Retas valodas: MT, GA, ET, LV, LT - dažkārt ir jāizveido DPP maltiešu valodā, lai gan neviens gala patērētājs Maltā to nekad neizlasīs. Tomēr tas ir obligāti.

Šī prasība nav fakultatīva. ESPR prasa, lai DPP saturs būtu tās dalībvalsts valodā, kurā produkts tiek pārdots. Tātad, ja apkalpo 27 valstis, ir jāņem vērā 24 valodas (dažas valstis dala vienu valodu).

Kāpēc ir nepieciešams centralizēts lokalizācijas slānis

Lielākā daļa platformu glabā tulkojumus kā papildu laukus datu ierakstā: description_de, description_en, … 39 lauki uz katru tulkojamo atribūtu. Izskatās vienkārši, taču tam ir trīs trūkumi:

  • Dublējies teksts. Divi produkti ar vienādu materiāla aprakstu rada 39 + 39 tulkojumus, nevis vienu reizi 39
  • Grūti mērogojams. 40. valodas pievienošana nozīmē: shēmas migrāciju visos tulkojamajos modeļos
  • Korekcijas grūti piemērojamas globāli. Ja vārds «guarnizione» tiek labots visur, visi datu ieraksti būtu jāapstrādā atsevišķi

Dalītais tulkošanas slānis atrisina šo problēmu: viens ieraksts, daudzas atsauces. Viena labojuma rezultātā ieguvēji ir visi datu ieraksti.

Kas mums vēl nav

Klienta specifiska terminoloģijas datu bāze ar automātisku ieteikumu atpazīšanu ir iekļauta attīstības plānā, taču šobrīd vēl nav pieejama. Tie, kas sāk strādāt jau šodien, ar esošajiem rīkiem var sasniegt daudz: manuāla pārrakstīšana, glosāriju importēšana un atzīmēšana aptver visbiežāk sastopamos lietošanas gadījumus.

Mēs uzskatām, ka mašīnām vajadzētu veikt lielāko daļu darba, un cilvēkiem jāiejaucas tikai tur, kur tas patiešām ir nepieciešams. Kamēr automātiskā terminoloģijas atpazīšana nav pieejama, manuālā rīcība ir pārredzama - un tas ir godīgāk nekā solījums, kas netiek izpildīts.

Jaunākā informācija par daudzvalodību un DPP praksi

Jaunas valodas, datu kvalitāte un produktu funkcijas - reizi mēnesī atlasītas un nosūtītas uz jūsu e-pasta pastkastīti.