39 kieltä automaattisesti: miten tekoälykäännöksemme käsittelee alan terminologiaa

39 kieltä automaattisesti: miten tekoälykäännöksemme käsittelee alan terminologiaa

Kurkistus automaattisen tuotetietojen käännöksen kulisseihin - ja miksi erikoisalan terminologiaa on käsiteltävä eri tavalla kuin romaanitekstiä.

Koneellinen käännös on nykyään niin hyvää, että monissa tapauksissa sitä ei enää voi erottaa ihmisen tekemästä käännöksestä. Käännöspalvelut tuottavat sujuvaa, idiomaattista tekstiä, jossa on otettu huomioon tyyli. Sitten käännetään DPP-tietue - ja yhtäkkiä ”rear lock fiber closure” muuttuu ”takalukon kuitukiristys”.

Ongelmana on ammattiterminologia. Tässä selitämme, miksi tuotetietoja ei pidä käsitellä kuin romaaneja ja mitä työkaluja Transpareo tarjoaa, jotta 39 kieliversiot pysyvät ymmärrettävinä.

Perusongelma: yksi sana, useita merkityksiä

”Seal” ulkoilutakin DPP-tietueessa: tiiviste. ”Seal” laboratoriossa: hylje tai tiiviste, kontekstista riippuen. ”Seal” huoltopöytäkirjassa: tietyissä olosuhteissa sinetti.

Yleinen käännösmalli valitsee merkityksen tilastollisen kontekstin perusteella. Juoksevassa tekstissä tämä toimii - romaani tarjoaa runsaasti kontekstia. Tietokentässä primary_closure: seal kontekstia on tuskin lainkaan. Malli arvaa.

Seurauksena on hienovaraisia virheitä. Ei niin dramaattisia kuin ”Hinterschloss-Faserverschluss”, mutta merkittävillä seurauksilla: komponentti, jota saksaksi kutsutaan ”Dichtungiksi”, nimetään italialaisessa DPP:ssä yhtäkkiä ”sigilloksi” eikä ”guarnizioneksi”. Ostaja ei enää löydä kyseistä varaosaa.

Mitä Transpareo tarjoaa tänään

Käännösjärjestelmämme siirtää jokaisen uuden sisällön automaattisesti kaikkiin aktiivisiin kieliin. Sitä leimaavat neljä ominaisuutta:

  • Markdown- ja muuttujien säilyttäminen: Paikkamerkit, kuten <a href="/fi/rekisteröityä">Pro-Mitgliedschaft</a>, ja Markdown-rakenteet erotetaan ennen käännöstä, pelkkä teksti käännetään, minkä jälkeen rakenteet palautetaan muuttumattomina. Näin linkit, lomakkeet ja ulkoasu pysyvät yhdenmukaisina kaikilla kielillä.
  • Keskitetyt käännöstiedot: Käännöksiä ei tallenneta itse tietueeseen, vaan jaettuun kerrokseen. Useat tietueet, joilla on sama alkuperäisteksti, jakavat saman käännöksen. Tämä säästää käännöskustannuksia ja yhtenäistää termistön automaattisesti koko tietomallin laajuisesti.
  • Automaattinen uudelleenkäännös muutosten yhteydessä: Jos alkuperäistä tekstiä muutetaan, käännökset luodaan uudelleen kaikilla kielillä. Yksi korjaus saksaksi - 38 muuta kieliversiota päivittyvät automaattisesti.
  • Merkinnät tietuekohtaisesti: Sisältö voidaan sulkea pois automaattisesta käsittelystä tai olemassa olevat käännökset voidaan lukita - esimerkiksi kansainvälisten tuotenimien tai manuaalisten korjausten osalta.

Missä asiakas täydentää käsittelyä

Automaattinen käännös tuottaa pääosin oikeita tuloksia tuotekuvauksille, markkinointiteksteille ja hoito-ohjeille. Kriittisen ammattiterminologian - kuten ”seal”/”guarnizione” - kohdalla jää jäljelle pieni määrä virheitä, jotka asiakkaan järjestelmänvalvojan on korjattava.

Tässä järjestelmänvalvojalla on kolme keinoa:

  1. Manuaalinen korvaaminen kieltä ja avainsanaa kohden: Jokainen käännösmerkintä voidaan avata sovellushallinnassa ja mukauttaa kieltä kohden. Lukitusmerkinnän avulla tämä manuaalinen käännös säilyy seuraavalla automaattisella kierroksella.
  2. Sanaston tuonti: Käännöstyökaluista tai PDF-sanastoista peräisin olevat olemassa olevat termit voidaan tuoda CSV-tiedostona, jolloin ne luovat suoraan kirjoitettuja käännösmerkintöjä.
  3. Kielikohtaiset korjaukset käytön aikana: Italialainen myyntiosasto huomaa virheen, korjaa sen sovellushallinnassa - korjaus astuu voimaan välittömästi, muut käännökset pysyvät ennallaan.

EU-kielten todellisuus

24 EU:n virallista kieltä kuulostaa paljolta. Käytännössä ne jakautuvat kolmeen ryhmään:

  • Ydinmarkkinat: DE, EN, FR, IT, ES, NL - täällä jokainen kuluttaja odottaa täydellisyyttä
  • Merkittävät markkinat: PT, PL, SV, DA, FI - hyvä taso, toisinaan koneellinen käännös on havaittavissa
  • Harvinaiset kielet: MT, GA, ET, LV, LT - joskus on olemassa maltankielinen DPP, vaikka yksikään loppukuluttaja Maltalla ei koskaan skannaa sitä. Silti se on pakollista.

Vaatimus ei ole valinnainen. ESPR edellyttää DPP-sisältöä sen jäsenvaltion kielellä, jossa tuotetta myydään. Jos palvelee 27 valtiota, kyseessä on siis 24 kieltä (jotkut maat jakavat kieliä).

Miksi keskitetty lokalisointitaso?

Useimmat alustat tallentavat käännökset tietueen lisäkenttinä: description_de, description_en, … 39 kenttää kutakin käännettävää attribuuttia kohti. Kuulostaa yksinkertaiselta, mutta siinä on kolme haittapuolta:

  • Tekstiä säilytetään kahdesti. Kaksi tuotetta, joilla on sama materiaalimerkintä, tuottavat 39 + 39 käännöstä sen sijaan, että käännöksiä olisi vain 39
  • Vaikeasti skaalattava. 40. kielen lisääminen tarkoittaa: skeeman siirtoa kaikkien käännettävien mallien osalta
  • Korjauksia on vaikea soveltaa globaalisti. Jos sana ”guarnizione” korjataan kaikkialla, kaikkia tietueita joudutaan muokkaamaan yksitellen

Jaettu käännöskerros ratkaisee tämän: yksi merkintä, useita viittauksia. Yksi korjaus, kaikki tietueet hyötyvät.

Mitä meillä ei vielä ole

Asiakaskohtainen terminologiatietokanta, jossa on automaattinen ehdotusten tunnistus, on kehityssuunnitelmissa, mutta sitä ei ole vielä toimitettu. Nykyisin aloittava pääsee pitkälle olemassa olevilla työkaluilla: manuaaliset korvaukset, sanastojen tuonti ja merkintä ”säilytä” kattavat yleisimmät käyttötapaukset.

Uskomme, että koneiden tulisi hoitaa suurin osa työstä ja ihmisten puuttua asiaan vain silloin, kun se on todella tarpeen. Kunnes automaattinen terminologian tunnistus on käytettävissä, manuaalinen toiminto on läpinäkyvä - ja se on rehellisempää kuin lupaus, jota ei pidetä.

Uutisia monikielisyydestä ja DPP-käytännöistä

Uudet kielet, tietojen laatu ja tuotteen toiminnot - kerran kuukaudessa valikoituna suoraan sähköpostilaatikkoosi.