- Omnilingual Machine Translation (OMT) yang dikembangkan oleh Meta AI adalah sistem terjemahan mesin pertama yang mendukung lebih dari 1.600 bahasa, melampaui batas 200 bahasa dari proyek NLLB sebelumnya
- Dengan menggabungkan korpus terbuka, backtranslation, dan data mining, sistem ini membangun dataset multibahasa skala besar yang mencakup bahasa berdaya rendah dan bahasa minoritas
- Sistem ini mengintegrasikan berbagai alat evaluasi kualitas dan toksisitas seperti BLASER 3, OmniTOX, BOUQuET, dan Met-BOUQuET untuk mengukur performa terjemahan dengan andal
- Dengan menjalankan model decoder-only berbasis LLaMA3 dan OMT-NLLB berarsitektur encoder-decoder secara paralel, OMT menghadirkan terjemahan berkualitas tinggi bahkan di lingkungan komputasi terbatas
- OMT dinilai sebagai kemajuan penting dalam memperluas inklusivitas bahasa global, dengan pencapaian generasi kalimat yang konsisten dan peningkatan transfer lintas bahasa di 1.600 bahasa
Ikhtisar Omnilingual MT
- Omnilingual Machine Translation (OMT) adalah sistem terjemahan mesin pertama yang mendukung lebih dari 1.600 bahasa dan dikembangkan oleh Meta AI
- Sistem ini mencakup jauh lebih banyak bahasa dengan bertumpu pada pencapaian proyek No Language Left Behind (NLLB) yang sebelumnya diperluas hingga 200 bahasa
- Terjemahan berbasis large language model (LLM) sebelumnya memiliki kualitas tinggi, tetapi cakupan bahasanya terbatas, terutama karena kurangnya kemampuan generasi untuk bahasa berdaya rendah dan bahasa minoritas
- Untuk mengatasi keterbatasan ini, OMT memperluas secara menyeluruh strategi data, arsitektur model, dan kerangka evaluasi
Strategi data dan perluasan cakupan bahasa
- OMT memperluas cakupan bahasa secara besar-besaran dengan mengintegrasikan korpus multibahasa terbuka dan dataset baru yang dihasilkan
- Menggabungkan MeDLEY bitext (data paralel yang dikurasi manual), synthetic backtranslation, dan teknik data mining
- Melalui pendekatan ini, OMT mencakup bahasa minoritas (long-tail languages) serta beragam domain dan ragam bahasa (register)
- Strategi data ini menjadi landasan untuk menghadirkan kemampuan representasi bagi sebagian besar dari sekitar 7.000 bahasa yang tidak dapat ditangani sistem sebelumnya
Kerangka evaluasi dan pengukuran kualitas
- Untuk memastikan keandalan dan skalabilitas, OMT menggabungkan metrik standar dengan sejumlah alat evaluasi
-
BLASER 3: model evaluasi reference-free yang memperkirakan kualitas tanpa kalimat referensi
- OmniTOX: pengklasifikasi untuk mendeteksi toksisitas dalam hasil terjemahan
- BOUQuET: dataset evaluasi multibahasa skala besar yang mencakup berbagai rumpun bahasa dan dibangun secara manual
- Met-BOUQuET: dataset yang diperluas untuk estimasi kualitas multibahasa skala besar
- Dataset-dataset ini disediakan bersama leaderboard publik yang terus diperbarui, sehingga dapat dimanfaatkan bebas oleh para peneliti
Arsitektur model dan pendekatan pelatihan
- OMT mengkhususkan LLM untuk terjemahan dengan dua pendekatan
-
OMT-LLaMA
- Model decoder-only berbasis LLaMA3
- Memperkuat adaptabilitas saat inferensi melalui multilingual continual pretraining dan retrieval-augmented translation
-
OMT-NLLB
- Menggunakan arsitektur encoder-decoder, dibangun di atas ruang penyelarasan multibahasa bernama OmniSONAR
- Memperkenalkan metode pelatihan yang dapat memanfaatkan data non-paralel
- Data prapelatihan decoder-only juga dapat diintegrasikan ke pelatihan encoder-decoder
- Model 1B hingga 8B parameter mencapai performa terjemahan yang setara atau lebih baik daripada model dasar LLM 70B, membuktikan bahwa terjemahan berkualitas tinggi dimungkinkan bahkan di lingkungan komputasi rendah
Performa dan kemampuan generasi bahasa
- Dalam evaluasi terjemahan bahasa Inggris ke 1.600 bahasa, model sebelumnya sering kali dapat memahami bahasa berdaya rendah tetapi gagal menghasilkan kalimat yang bermakna
- Model OMT-LLaMA secara signifikan memperluas generasi yang koheren untuk bahasa-bahasa tersebut
- Performa transfer lintas bahasa juga meningkat, sehingga hampir sepenuhnya menyelesaikan masalah pada aspek pemahaman untuk 1.600 bahasa
- Melalui fine-tuning dan RAG, kualitas tambahan dapat ditingkatkan untuk bahasa atau domain tertentu
Sumber daya publik dan perluasan riset
- Dataset BOUQuET dan Met-BOUQuET tersedia gratis untuk publik dan terus diperluas menuju Omnilinguality
- Tim peneliti menargetkan peningkatan aksesibilitas bahasa berdaya rendah serta pembangunan fondasi riset AI multibahasa
- OMT dinilai sebagai sistem terjemahan praktis pertama yang mencakup keragaman bahasa dalam skala besar, sekaligus menjadi kemajuan penting bagi inklusivitas bahasa global
1 komentar
Komentar Hacker News
Saya merasa kualitas terjemahan Meta jauh lebih buruk dibanding layanan lain
Terutama lebih parah untuk bahasa yang kurang dikenal
Google Translate lumayan sebagai pilihan default, tetapi terjemahan berbasis LLM jauh lebih unggul dalam memahami konteks dan menyampaikan nuansa budaya
Saya tinggal di Kamboja, jadi saya sering membandingkan kualitas terjemahan bahasa Khmer
Menurut pengalaman saya, terjemahan Facebook lebih alami untuk kalimat panjang dibanding Google
Bahasa Khmer sangat bergantung pada konteks dan cenderung bertele-tele, jadi LLM tampaknya akan sangat membantu
Sebaliknya, saat menerjemahkan dari bahasa Inggris ke Khmer, warga lokal mengatakan hasilnya menjadi terlalu formal dan terdengar seperti robot, menarik juga
Menurut saya, dukungan multibahasa adalah salah satu keunggulan paling keren dari LLM
Saya penasaran kenapa Google tidak memakai Gemini secara internal, mungkin karena masalah halusinasi
Saya ingin melihat uji kuantitatif yang membandingkan beberapa LLM dan API terjemahan
Katanya bisa menerjemahkan 1600 bahasa, tetapi di kalimat pertama abstrak bahasa Inggris saja mereka gagal mencocokkan subject-verb agreement
Mereka mengklaim telah mencapai terjemahan berkualitas tinggi yang diperluas ke 200 bahasa melalui proyek NLLB (No Language Left Behind)
Saya memulai perusahaan yang mengerjakan hal serupa — 6k.ai
Saat ini fokus pada pengumpulan data bahasa sumber daya rendah
Jika melihat dataset seperti Common Crawl, finepdfs, dan fineweb, (1) hampir tidak ada data berkualitas baik, dan (2) cara pemrosesannya terlalu kasar
Misalnya, finepdfs mengklasifikasikan setiap halaman PDF sebagai satu bahasa, padahal pada kenyataannya banyak data pasangan bahasa
Saya telah membuka materi di wikilangs.org, omneitylabs.com, dan blog terkait
Hambatan terbesar bukan pengumpulan teks, melainkan akurasi identifikasi bahasa
Pada dataset seperti Common Crawl atau Fineweb, pemisahan antarbahasa sering ambigu
Saya mengerjakan perbaikan untuk bahasa ibu saya di Fineweb 2, dan mungkin itu bisa memberi inspirasi
Karena masalah serupa terus berulang di banyak wilayah, saya ingin mencoba berkolaborasi nanti
Saya penasaran apakah Anda sudah meninjau dataset publik semacam itu, dan bahasa mana yang Anda prioritaskan
Saya butuh waktu lama untuk menemukan tautan unduhan bobot model
Kalau memang open-weight, saya heran kenapa tidak ada tautan yang bisa langsung diakses
Sebagai gantinya, leaderboard dan dataset evaluasi tersedia untuk umum
Di makalahnya hanya disebutkan, “model terjemahan kami dibangun di atas model yang tersedia secara bebas”
Ini sudah tahun 2026, tapi saya masih tidak mengerti kenapa belum ada fitur transkripsi otomatis pesan suara
Katanya bisa menerjemahkan 1600 bahasa, tetapi pemisahan paragraf yang dasar saja masih tidak beres
1600 bahasa memang banyak, tetapi masih jauh untuk disebut “Omni”
Jumlah bahasa biasanya diperkirakan 4.000~8.000, dan mencapai 1.000 bahasa pertama justru yang paling sulit
Penelitian lama (Lauscher 2020) menyebut ada kutukan multilingual di mana kualitas terjemahan menurun seiring bertambahnya jumlah bahasa
Namun Meta tampaknya berhasil mengatasinya
Dari abstrak makalah, mereka menyebut telah memperbaiki kualitas data pelatihan dan memperkenalkan alat evaluasi baru
Mereka juga mengklaim OMT-LLaMA memiliki kualitas generasi teks yang lebih baik daripada model sebelumnya
Hal menarik lainnya, ada benchmark BOUQuET yang diperkenalkan Meta
Ini adalah inisiatif terbuka untuk mengevaluasi kualitas terjemahan secara lintas bahasa
huggingface.co/spaces/facebook/bouquet
Sejak demam AI, terjemahan dokumentasi MS jadi berantakan
Misalnya,
try/catchditerjemahkan ke bahasa Jerman sebagai “versuchen/fangen”Terutama di lingkungan perusahaan, lebih merepotkan karena sulit mengubah pengaturan locale
Ada juga kesalahan dasar seperti menerjemahkan “shortly” menjadi “short”