39 tungumál sjálfkrafa: hvernig gervigreindarþýðing okkar tekst á við sérfræðiorðaforða

39 tungumál sjálfkrafa: hvernig gervigreindarþýðing okkar tekst á við sérfræðiorðaforða

Kynntu þér bak við tjöldin í sjálfvirkri þýðingu vörugagna okkar - og hvers vegna sérfræðihugtök þarf að meðhöndla öðruvísi en skáldsögu.

Vélþýðing er nú svo góð að í mörgum tilvikum er hún ólýsanleg frá mannlegri þýðingu. Þýðingarþjónustur framleiða flæðandi, málfarslega réttar þýðingar með skarpri skyn fyrir málfari. Þá þýðirðu DPP gagnasafn - og allt í einu verður ‘rear lock fibre closure’ að ‘Hinterschloss-Faserverschluss’.

Vandamálið er tækniröð. Hér útskýrum við hvers vegna ekki ætti að meðhöndla vörugögn eins og skáldsögur og hvaða verkfæri Transpareo býður upp á til að tryggja að 39 tungumálútgáfur þínar haldist skiljanlegar.

Kjarnvandamálið: eitt orð, margar merkingar

“Seal” í DPP fyrir útivistarjakka: vatnsheldni. “Seal” í rannsóknarstofu: þéttir (dýrið) eða þétting, eftir samhengi. “Seal” í viðhaldsdagbók: mögulega stimpill.

Almenn þýðingarlíkan gerir val sitt út frá tölfræðilegu samhengi. Þetta virkar fyrir samfelldan texta - skáldsaga veitir mikið samhengi. En fyrir gagnareit eins og primary_closure: seal er varla neitt samhengi. Líkanið gerir upplýsta ályktun.

Niðurstaðan eru smávægilegir villur. Ekki eins dramatískar og ‘Hinterschloss-Faserverschluss’, en samt verulegar: í ítalsku DPP er skyndilega vísað til íhlutar sem kallast ‘Dichtung’ á þýsku sem ‘sigillo’ í stað ‘guarnizione’. Kaupandi finnur varahlutinn ekki lengur.

Hvað Transpareo nær fram í dag

Þýðingarkerfi okkar þýðir sjálfkrafa allt nýtt efni á öll virk tungumál. Það einkennist af fjórum lykilatriðum:

  • Markdown og varðveisla breyta: Staðfylltur (placeholders) eins og <a href="/is/skrá sig">Pro-Membership</a> og Markdown-uppbyggingar eru dregnar út fyrir þýðingu; hreinn texti er þýddur og uppbyggingarnar síðan settar aftur inn óbreyttar. Þetta tryggir að tenglar, eyðublöð og uppsetning haldist samræmd á öllum tungumálum.
  • Miðlæg þýðingaskráning: Þýðingar eru ekki vistaðar í gagnaskránni sjálfri, heldur í sameiginlegu lagi. Margar gagnaskrár með sama upprunalega texta deila einni þýðingu. Þetta sparar þýðingarkostnað og staðlar hugtök sjálfkrafa í gagnalíkaninu.
  • Sjálfvirk endurþýðing við breytingar: Ef upprunalegur texti er breyttur, eru þýðingarnar í öllum tungumálum endurgerðar. Leiðrétting í þýsku uppfærir sjálfkrafa hin 38 tungumálútgáfurnar.
  • Merkingar á hvern gagnareikning: Innihald er hægt að útiloka úr sjálfvirkri vinnslu eða núverandi þýðingar er hægt að læsa - til dæmis fyrir alþjóðlegar vörunöfn eða handvirkar leiðréttingar.

Þar sem viðskiptavinur bætir við vinnsluna

Sjálfvirk þýðing skilar að mestu leyti nákvæmum niðurstöðum fyrir lýsandi texta, markaðstexta og umönnunarleiðbeiningar. Hins vegar, með mikilvægri tæknilegri heitihettu - eins og ‘seal’/’guarnizione’ - eru nokkur villur sem stjórnandi viðskiptavinarins þarf að leiðrétta.

Hér hefur stjórnandinn þrjá valkosti:

  1. Handvirk yfirritun fyrir hvert tungumál og lykilorð: Hver þýðingarfærsla má opna í Forritastjóranum og stilla fyrir hvert tungumál. Með því að velja ‘lás’-valkostinn verður þessi handvirka þýðing varðveitt í næstu sjálfvirku keyrslu.
  2. Innflutningur hugtakaorðasafns: Núverandi hugtök úr þýðingartólum eða PDF-hugtakaorðasöfnum er hægt að flytja inn sem CSV-skrá og nota til að búa beint til þýðingarfærslur.
  3. Tungumálsbundnar leiðréttingar á meðan kerfið er í gangi: Ítalskt söluteymi tekur eftir villu, leiðréttir hana í Forritastjóranum - leiðréttingin tekur gildi samstundis, á meðan hin þýðingarnar haldast óbreyttar.

Raunveruleiki ESB-mála

24 opinber tungumál ESB hljóma eins og mikið. Í reynd falla þau í þrjá flokka:

  • Kjaramarkaðir: DE, EN, FR, IT, ES, NL - hér gerir hver neytandi kröfu um fullkomnun
  • Mikilvægir markaðir: PT, PL, SV, DA, FI - góður staðall, þó vélþýðingin sjaldan sjást.
  • Sjaldgæf tungumál: MT, GA, ET, LV, LT - stundum er DPP á maltnesku án þess að neinn endanlegur neytandi á Möltu lesi hann nokkurn tíma. Engu að síður er það skylda.

Þessi krafa er ekki valkvæð. ESPR kveður á um að DPP-efni skuli vera veitt á tungumáli aðildarríkisins þar sem varan er seld. Þannig að hver sem þjónar 27 löndum þarf að takast á við 24 tungumál (sum lönd deila tungumálum).

Af hverju miðlæg staðfærslulag?

Flestir vettvangar geyma þýðingar sem viðbótarreiti í gagnaskránni: description_de, description_en, … 39 reitir fyrir hvern þýðanlegan eiginleika. Þetta hljómar einfalt, en það hefur þrjá ókosti:

  • Endurtekinn texti. Tvö vörunótur með sama efninu búa til 39 + 39 þýðingar í stað 39.
  • Erfitt að stækka kerfið. Að bæta við 40. tungumáli krefst skema-flutnings (schema migration) yfir öll þýðanleg módel.
  • Erfitt er að beita leiðréttingum almennt. Ef ‘guarnizione’ er leiðrétt alls staðar þyrfti að breyta öllum gagnaskrám einstaklingsbundið.

Skipt þýðingarlag leysir þetta: ein færsla, margar tilvísanir. Ein leiðrétting, allar gagnaskrár hagnast.

Það sem við eigum enn ekki

Sérsniðin hugtaka- og orðasafnsgrunnur með sjálfvirkri viðurkenningu á tillögum er í þróun en ekki tiltækur um þessar mundir. Sá sem byrjar í dag getur komist langt með núverandi verkfæri: handvirkar yfirtökur, innflutningur orðasafna og ‘halda’-fáninn ná yfir algengustu notkunartilvik.

Við teljum að vélar eigi að sinna meirihluta vinnunnar og að menn eigi aðeins að grípa inn í þar sem það er virkilega nauðsynlegt. Þangað til sjálfvirkur hugtakaákenning verður fáanleg er handvirk ferlið gagnsætt - og það er heiðarlegra en loforð sem ekki er staðið við.

Uppfærslur um fjölmálastefnu og framkvæmd DPP

Ný tungumál, gæðar gagna og eiginleikar vöru - valið og sent í pósthólfið þitt einu sinni í mánuði.