39 bahasa secara otomatis: bagaimana terjemahan berbasis AI kami menangani terminologi khusus

39 bahasa secara otomatis: bagaimana terjemahan berbasis AI kami menangani terminologi khusus

Sebuah pandangan di balik layar proses penerjemahan data produk otomatis kami - dan mengapa terminologi khusus harus ditangani secara berbeda dibandingkan teks novel.

Terjemahan mesin saat ini sudah begitu baik sehingga dalam banyak kasus tidak lagi dapat dibedakan dari terjemahan manusia. Layanan terjemahan ini menghasilkan teks yang lancar, menggunakan ungkapan-ungkapan idiomatik, serta peka terhadap gaya bahasa. Namun, ketika menerjemahkan satu set data DPP - tiba-tiba frasa “rear lock fiber closure” menjadi “penutup serat bagian belakang”.

Masalahnya terletak pada terminologi teknis. Di sini kami menjelaskan mengapa data produk tidak boleh diperlakukan seperti novel, serta alat apa saja yang disediakan Transpareo agar 39 versi bahasa Anda tetap mudah dipahami.

Masalah dasarnya: satu kata, banyak arti

“Seal” dalam DPP jaket outdoor: penyegelan. “Seal” di laboratorium: anjing laut atau segel, tergantung konteksnya. “Seal” dalam protokol pemeliharaan: dalam kondisi tertentu, bisa berarti stempel.

Model terjemahan umum memilih berdasarkan konteks statistik. Hal ini berfungsi pada teks yang mengalir - novel menyediakan konteks yang melimpah. Namun, pada bidang data primary_closure: seal, konteksnya sangat minim. Model tersebut hanya memberikan saran.

Akibatnya adalah kesalahan-kesalahan halus. Tidak sedramatis “Hinterschloss-Faserverschluss”, tetapi berdampak besar: sebuah komponen yang dalam bahasa Jerman disebut “Dichtung”, tiba-tiba dalam DPP bahasa Italia disebut “sigillo” alih-alih “guarnizione”. Seorang pembeli tidak dapat lagi menemukan suku cadang tersebut.

Apa yang Dilakukan Transpareo Saat Ini

Sistem terjemahan kami secara otomatis menerjemahkan setiap konten baru ke dalam semua bahasa yang aktif. Sistem ini memiliki empat ciri khas:

  • Pelestarian Markdown dan variabel: Tanda tempat seperti <a href="/id/mendaftar">Pro-Mitgliedschaft</a> dan struktur Markdown diekstraksi sebelum penerjemahan, teks murni diterjemahkan, kemudian struktur tersebut dimasukkan kembali tanpa perubahan. Dengan demikian, tautan, formulir, dan tata letak tetap konsisten di seluruh bahasa.
  • Entri terjemahan terpusat: Terjemahan tidak disimpan dalam entri data itu sendiri, melainkan di lapisan bersama. Beberapa entri data dengan teks asli yang sama berbagi satu terjemahan. Hal ini menghemat biaya terjemahan dan secara otomatis menyatukan istilah-istilah di seluruh model data.
  • Penerjemahan ulang otomatis saat terjadi perubahan: Jika teks asli diubah, terjemahan dalam semua bahasa akan dibuat ulang. Satu koreksi dalam bahasa Jerman akan secara otomatis diterapkan pada 38 versi bahasa lainnya.
  • Penandaan per entri data: Konten dapat dikecualikan dari proses otomatis atau terjemahan yang ada dapat dikunci - misalnya untuk nama produk internasional atau koreksi manual.

Di mana pelanggan melengkapi pemrosesan

Terjemahan otomatis sebagian besar memberikan hasil yang akurat untuk teks deskripsi, teks pemasaran, dan petunjuk perawatan. Namun, untuk terminologi teknis yang kritis - seperti “seal”/“guarnizione” - masih terdapat sejumlah kesalahan yang harus dikoreksi oleh admin pelanggan.

Di sini, admin memiliki tiga opsi:

  1. Penggantian manual per bahasa dan kata kunci: Setiap entri terjemahan dapat dibuka di Pengelola Aplikasi dan disesuaikan per bahasa. Dengan menandai “Lokalisasi”, terjemahan manual ini akan tetap dipertahankan pada proses otomatis berikutnya.
  2. Impor glosarium: Terminologi yang sudah ada dari alat penerjemahan atau glosarium PDF dapat diimpor sebagai file CSV dan langsung menghasilkan entri terjemahan.
  3. Koreksi per bahasa selama sistem beroperasi: Tim penjualan Italia menemukan kesalahan, lalu mengoreksinya di Application Manager - koreksi tersebut langsung berlaku, sedangkan terjemahan lainnya tetap tidak berubah.

Realitas Bahasa-Bahasa UE

24 bahasa resmi UE terdengar banyak. Dalam praktiknya, ada tiga tingkatan:

  • Pasar inti: DE, EN, FR, IT, ES, NL - di sini setiap konsumen mengharapkan kesempurnaan
  • Pasar penting: PT, PL, SV, DA, FI - kualitasnya baik, sesekali terlihat hasil terjemahan mesin
  • Bahasa yang jarang digunakan: MT, GA, ET, LV, LT - terkadang ada DPP dalam bahasa Malta, padahal tidak pernah ada konsumen akhir di Malta yang memindai produk tersebut. Namun, hal ini tetap wajib.

Kewajiban ini tidak bersifat opsional. ESPR mewajibkan konten DPP dalam bahasa negara anggota tempat produk tersebut dijual. Jadi, bagi yang melayani 27 negara, ada 24 bahasa yang terlibat (beberapa negara berbagi bahasa).

Mengapa diperlukan lapisan pelokalan terpusat

Sebagian besar platform menyimpan terjemahan sebagai kolom tambahan pada set data: description_de, description_en, … 39 kolom per atribut yang dapat diterjemahkan. Kedengarannya sederhana, tetapi memiliki tiga kelemahan:

  • Teks yang disimpan dua kali. Dua produk dengan keterangan bahan yang sama menghasilkan 39 + 39 terjemahan, bukan hanya 39 terjemahan
  • Sulit diskalakan. Menambahkan bahasa ke-40 berarti: migrasi skema di seluruh model yang dapat diterjemahkan
  • Koreksi sulit diterapkan secara global. Jika “guarnizione” dikoreksi di mana-mana, semua catatan data harus diedit satu per satu

Lapisan terjemahan terpisah memecahkan masalah ini: satu entri, banyak referensi. Satu koreksi, semua catatan data mendapat manfaatnya.

Apa yang belum kami miliki

Basis data terminologi khusus klien dengan fitur saran otomatis sedang dalam perencanaan pengembangan, namun belum tersedia saat ini. Bagi yang memulai hari ini, alat yang ada sudah cukup memadai: penggantian manual, impor glosarium, dan penandaan “pertahankan” sudah mencakup kasus penggunaan yang paling umum.

Kami percaya bahwa mesin seharusnya menangani sebagian besar pekerjaan, dan manusia hanya perlu turun tangan jika benar-benar diperlukan. Sampai fitur pengenalan terminologi otomatis tersedia, opsi manual ini tetap transparan - dan itu lebih jujur daripada janji yang tidak ditepati.

Pembaruan mengenai multibahasa dan penerapan DPP

Bahasa baru, kualitas data, dan fitur produk - dikurasi setiap bulan dan dikirimkan langsung ke kotak masuk Anda.