39 भाषाएँ स्वचालित रूप से: हमारी एआई अनुवाद विशेषज्ञ शब्दावली को कैसे संभालती है

मशीन अनुवाद अब इतना अच्छा हो गया है कि, कई मामलों में, इसे मानव अनुवाद से अलग नहीं किया जा सकता। अनुवाद सेवाएँ प्रसंग के अनुरूप स्वाभाविक, मुहावरेदार अनुवाद तैयार करती हैं। फिर आप एक डीपीपी डेटा सेट का अनुवाद करते हैं - और अचानक ‘rear lock fibre closure’ बन जाता है ‘Hinterschloss-Faserverschluss’।

समस्या तकनीकी शब्दावली है। यहाँ, हम समझाते हैं कि उत्पाद डेटा को उपन्यासों की तरह क्यों नहीं माना जाना चाहिए, और Transpareo कौन से उपकरण प्रदान करता है ताकि आपकी 39 भाषा संस्करण समझने योग्य बने रहें।

मूल समस्या: एक शब्द, कई अर्थ

एक आउटडोर जैकेट के लिए DPP में ‘सील’: जलरोधकता। एक प्रयोगशाला में ‘सील’: संदर्भ के आधार पर एक सील (जानवर) या एक गैस्केट। रखरखाव लॉग में ‘सील’: संभवतः एक मुहर।

एक सामान्य अनुवाद मॉडल सांख्यिकीय संदर्भ के आधार पर अपनी पसंद करता है। यह निरंतर पाठ के लिए काम करता है - एक उपन्यास बहुत सारा संदर्भ प्रदान करता है। लेकिन primary_closure: seal जैसे डेटा फ़ील्ड के लिए, संदर्भ लगभग नहीं होता है। मॉडल एक अनुमान लगाता है।

परिणाम सूक्ष्म त्रुटियाँ होती हैं। ‘Hinterschloss-Faserverschluss’ जितनी नाटकीय नहीं, लेकिन महत्वपूर्ण: जर्मन में ‘Dichtung’ नामक एक घटक को अचानक एक इतालवी डीपीपी (DPP) में ‘guarnizione’ के बजाय ‘sigillo’ कहा जाता है। एक खरीदार अब स्पेयर पार्ट नहीं ढूंढ पाता है।

ट्रांसपेरियो आज जो हासिल करता है

हमारी अनुवाद प्रणाली स्वचालित रूप से हर नई सामग्री को सभी सक्रिय भाषाओं में अनुवादित करती है। इसकी चार प्रमुख विशेषताएं हैं:

मार्कडाउन और चर संरक्षण: <a href="/hi/पंजीकृत करें">Pro-Membership</a> जैसे प्लेसहोल्डर और मार्कडाउन संरचनाओं को अनुवाद से पहले निकाल लिया जाता है; साधारण टेक्स्ट का अनुवाद किया जाता है, और फिर संरचनाओं को बिना बदले वापस डाल दिया जाता है। यह सुनिश्चित करता है कि सभी भाषाओं में लिंक, फॉर्म और लेआउट सुसंगत रहें।
केंद्रीकृत अनुवाद प्रविष्टियाँ: अनुवाद स्वयं डेटा रिकॉर्ड के भीतर संग्रहीत नहीं किए जाते हैं, बल्कि एक साझा परत में संग्रहीत किए जाते हैं। समान स्रोत पाठ वाले कई डेटा रिकॉर्ड एक ही अनुवाद को साझा करते हैं। यह अनुवाद लागत में बचत करता है और डेटा मॉडल में शब्दावली को स्वचालित रूप से मानकीकृत करता है।
परिवर्तनों पर स्वचालित पुनः-अनुवाद: यदि मूल पाठ बदलता है, तो सभी भाषाओं में अनुवाद फिर से उत्पन्न होते हैं। जर्मन में एक सुधार स्वचालित रूप से 38 अन्य भाषा संस्करणों को अपडेट कर देता है।
प्रति डेटा रिकॉर्ड मार्किंग: सामग्री को स्वचालित प्रक्रिया से बाहर रखा जा सकता है, या मौजूदा अनुवादों को लॉक किया जा सकता है - उदाहरण के लिए, अंतर्राष्ट्रीय उत्पाद नामों या मैन्युअल सुधारों के लिए।

जहाँ ग्राहक प्रसंस्करण को पूरक करता है

स्वचालित अनुवाद वर्णनात्मक पाठ, मार्केटिंग कॉपी और देखभाल संबंधी निर्देशों के लिए काफी हद तक सटीक परिणाम देता है। हालाँकि, महत्वपूर्ण तकनीकी शब्दावली - जैसे कि ‘seal’/’guarnizione’ - के साथ, कुछ त्रुटियाँ बनी रहती हैं, जिन्हें ग्राहक के प्रशासक को ठीक करना होगा।

यहाँ, एडमिन के पास तीन विकल्प हैं:

भाषा और कुंजी के अनुसार मैन्युअल ओवरराइड: प्रत्येक अनुवाद प्रविष्टि को एप्लिकेशन मैनेजर में खोला जा सकता है और प्रत्येक भाषा के लिए समायोजित किया जा सकता है। ‘लॉक’ विकल्प को चुनकर, यह मैन्युअल अनुवाद अगले स्वचालित रन में बरकरार रहेगा।
शब्दावली आयात: अनुवाद उपकरणों या पीडीएफ शब्दावलियों से मौजूदा शब्दावली को सीएसवी फ़ाइल के रूप में आयात किया जा सकता है और इसका उपयोग सीधे अनुवाद प्रविष्टियाँ बनाने के लिए किया जा सकता है।
सिस्टम के चलने के दौरान प्रति-भाषा सुधार: एक इतालवी बिक्री टीम को कोई त्रुटि दिखाई देती है, वह उसे एप्लिकेशन मैनेजर में सुधारती है - सुधार तुरंत प्रभावी हो जाता है, जबकि अन्य अनुवाद अपरिवर्तित रहते हैं।

ईयू भाषाओं की वास्तविकता

24 आधिकारिक ईयू भाषाएँ सुनने में बहुत लगती हैं। व्यवहार में, वे तीन श्रेणियों में आते हैं:

मुख्य बाज़ार: DE, EN, FR, IT, ES, NL - यहाँ, हर उपभोक्ता पूर्णता की उम्मीद करता है
महत्वपूर्ण बाज़ार: PT, PL, SV, DA, FI - एक अच्छा मानक है, हालांकि मशीन अनुवाद कभी-कभी ध्यान देने योग्य होता है
दुर्लभ भाषाएँ: MT, GA, ET, LV, LT - कभी-कभी आपके पास माल्टा में किसी भी अंतिम उपभोक्ता द्वारा इसे स्कैन किए बिना माल्टीज़ में एक DPP होता है। फिर भी, यह अनिवार्य है।

यह आवश्यकता वैकल्पिक नहीं है। ईएसपीआर (ESPR) यह अनिवार्य करता है कि डीपीपी (DPP) सामग्री उस सदस्य राज्य की भाषा में प्रदान की जाए जिसमें उत्पाद बेचा जाता है। इसलिए, 27 देशों में सेवा देने वाले किसी भी व्यक्ति को 24 भाषाओं से निपटना पड़ता है (कुछ देश भाषाएँ साझा करते हैं)।

एक केंद्रीकृत स्थानीयकरण परत क्यों?

अधिकांश प्लेटफ़ॉर्म अनुवादों को डेटा रिकॉर्ड में अतिरिक्त फ़ील्ड के रूप में संग्रहीत करते हैं: description_de, description_en, … प्रत्येक अनुवाद योग्य एट्रिब्यूट के लिए 39 फ़ील्ड। यह सरल लगता है, लेकिन इसके तीन नुकसान हैं:

डुप्लिकेट टेक्स्ट। एक ही सामग्री नोट वाले दो उत्पाद केवल 39 के बजाय 39 + 39 अनुवाद उत्पन्न करते हैं
स्केल करना मुश्किल। 40वीं भाषा जोड़ने का मतलब सभी अनुवाद योग्य मॉडलों में एक स्कीमा माइग्रेशन है
सुधारों को वैश्विक रूप से लागू करना मुश्किल है। यदि ‘guarnizione’ को हर जगह ठीक किया जाता है, तो सभी डेटा रिकॉर्ड को व्यक्तिगत रूप से संपादित करना होगा।

विभाजित अनुवाद परत इसका समाधान करती है: एक प्रविष्टि, कई संदर्भ। एक सुधार, सभी डेटा रिकॉर्ड को लाभ।

जो हमारे पास अभी तक नहीं है

स्वचालित सुझाव मान्यता के साथ एक कस्टम शब्दावली डेटाबेस विकास के अधीन है, लेकिन वर्तमान में उपलब्ध नहीं है। आज शुरुआत करने वाला कोई भी व्यक्ति मौजूदा उपकरणों से बहुत आगे तक जा सकता है: मैन्युअल ओवरराइड, शब्दावली आयात और ‘कीप’ फ़्लैग सबसे आम उपयोग के मामलों को कवर करते हैं।

हमारा मानना है कि मशीनों को काम का अधिकांश हिस्सा करना चाहिए और लोगों को केवल तभी हस्तक्षेप करना चाहिए जब यह वास्तव में आवश्यक हो। जब तक स्वचालित शब्दावली मान्यता उपलब्ध नहीं हो जाती, तब तक मैन्युअल प्रक्रिया पारदर्शी है - और यह एक ऐसे वादे से अधिक ईमानदार है जिसे पूरा नहीं किया जाता।