Omnilingual MT Meta untuk 1.600 Bahasa

(ai.meta.com)

4 poin oleh GN⁺ 2026-03-22 | 1 komentar | Bagikan ke WhatsApp

Omnilingual Machine Translation (OMT) yang dikembangkan oleh Meta AI adalah sistem terjemahan mesin pertama yang mendukung lebih dari 1.600 bahasa, melampaui batas 200 bahasa dari proyek NLLB sebelumnya
Dengan menggabungkan korpus terbuka, backtranslation, dan data mining, sistem ini membangun dataset multibahasa skala besar yang mencakup bahasa berdaya rendah dan bahasa minoritas
Sistem ini mengintegrasikan berbagai alat evaluasi kualitas dan toksisitas seperti BLASER 3, OmniTOX, BOUQuET, dan Met-BOUQuET untuk mengukur performa terjemahan dengan andal
Dengan menjalankan model decoder-only berbasis LLaMA3 dan OMT-NLLB berarsitektur encoder-decoder secara paralel, OMT menghadirkan terjemahan berkualitas tinggi bahkan di lingkungan komputasi terbatas
OMT dinilai sebagai kemajuan penting dalam memperluas inklusivitas bahasa global, dengan pencapaian generasi kalimat yang konsisten dan peningkatan transfer lintas bahasa di 1.600 bahasa

Ikhtisar Omnilingual MT

Omnilingual Machine Translation (OMT) adalah sistem terjemahan mesin pertama yang mendukung lebih dari 1.600 bahasa dan dikembangkan oleh Meta AI
Sistem ini mencakup jauh lebih banyak bahasa dengan bertumpu pada pencapaian proyek No Language Left Behind (NLLB) yang sebelumnya diperluas hingga 200 bahasa
Terjemahan berbasis large language model (LLM) sebelumnya memiliki kualitas tinggi, tetapi cakupan bahasanya terbatas, terutama karena kurangnya kemampuan generasi untuk bahasa berdaya rendah dan bahasa minoritas
Untuk mengatasi keterbatasan ini, OMT memperluas secara menyeluruh strategi data, arsitektur model, dan kerangka evaluasi

Strategi data dan perluasan cakupan bahasa

OMT memperluas cakupan bahasa secara besar-besaran dengan mengintegrasikan korpus multibahasa terbuka dan dataset baru yang dihasilkan
- Menggabungkan MeDLEY bitext (data paralel yang dikurasi manual), synthetic backtranslation, dan teknik data mining
- Melalui pendekatan ini, OMT mencakup bahasa minoritas (long-tail languages) serta beragam domain dan ragam bahasa (register)
Strategi data ini menjadi landasan untuk menghadirkan kemampuan representasi bagi sebagian besar dari sekitar 7.000 bahasa yang tidak dapat ditangani sistem sebelumnya

Kerangka evaluasi dan pengukuran kualitas

Untuk memastikan keandalan dan skalabilitas, OMT menggabungkan metrik standar dengan sejumlah alat evaluasi
- BLASER 3: model evaluasi reference-free yang memperkirakan kualitas tanpa kalimat referensi
  - OmniTOX: pengklasifikasi untuk mendeteksi toksisitas dalam hasil terjemahan
  - BOUQuET: dataset evaluasi multibahasa skala besar yang mencakup berbagai rumpun bahasa dan dibangun secara manual
  - Met-BOUQuET: dataset yang diperluas untuk estimasi kualitas multibahasa skala besar
  - Dataset-dataset ini disediakan bersama leaderboard publik yang terus diperbarui, sehingga dapat dimanfaatkan bebas oleh para peneliti

Arsitektur model dan pendekatan pelatihan

OMT mengkhususkan LLM untuk terjemahan dengan dua pendekatan
- OMT-LLaMA
  - Model decoder-only berbasis LLaMA3
  - Memperkuat adaptabilitas saat inferensi melalui multilingual continual pretraining dan retrieval-augmented translation
- OMT-NLLB
  - Menggunakan arsitektur encoder-decoder, dibangun di atas ruang penyelarasan multibahasa bernama OmniSONAR
  - Memperkenalkan metode pelatihan yang dapat memanfaatkan data non-paralel
  - Data prapelatihan decoder-only juga dapat diintegrasikan ke pelatihan encoder-decoder
  - Model 1B hingga 8B parameter mencapai performa terjemahan yang setara atau lebih baik daripada model dasar LLM 70B, membuktikan bahwa terjemahan berkualitas tinggi dimungkinkan bahkan di lingkungan komputasi rendah

Performa dan kemampuan generasi bahasa

Dalam evaluasi terjemahan bahasa Inggris ke 1.600 bahasa, model sebelumnya sering kali dapat memahami bahasa berdaya rendah tetapi gagal menghasilkan kalimat yang bermakna
Model OMT-LLaMA secara signifikan memperluas generasi yang koheren untuk bahasa-bahasa tersebut
Performa transfer lintas bahasa juga meningkat, sehingga hampir sepenuhnya menyelesaikan masalah pada aspek pemahaman untuk 1.600 bahasa
Melalui fine-tuning dan RAG, kualitas tambahan dapat ditingkatkan untuk bahasa atau domain tertentu

Sumber daya publik dan perluasan riset

Dataset BOUQuET dan Met-BOUQuET tersedia gratis untuk publik dan terus diperluas menuju Omnilinguality
Tim peneliti menargetkan peningkatan aksesibilitas bahasa berdaya rendah serta pembangunan fondasi riset AI multibahasa
OMT dinilai sebagai sistem terjemahan praktis pertama yang mencakup keragaman bahasa dalam skala besar, sekaligus menjadi kemajuan penting bagi inklusivitas bahasa global

1 komentar

GN⁺ 2026-03-22

Komentar Hacker News

Saya merasa kualitas terjemahan Meta jauh lebih buruk dibanding layanan lain
Terutama lebih parah untuk bahasa yang kurang dikenal
Google Translate lumayan sebagai pilihan default, tetapi terjemahan berbasis LLM jauh lebih unggul dalam memahami konteks dan menyampaikan nuansa budaya
Saya tinggal di Kamboja, jadi saya sering membandingkan kualitas terjemahan bahasa Khmer
- Salam dari Siem Reap! Senang bertemu sesama penggemar teknologi di Kamboja
  Menurut pengalaman saya, terjemahan Facebook lebih alami untuk kalimat panjang dibanding Google
  Bahasa Khmer sangat bergantung pada konteks dan cenderung bertele-tele, jadi LLM tampaknya akan sangat membantu
  Sebaliknya, saat menerjemahkan dari bahasa Inggris ke Khmer, warga lokal mengatakan hasilnya menjadi terlalu formal dan terdengar seperti robot, menarik juga
- Kagi Translate benar-benar luar biasa
  Menurut saya, dukungan multibahasa adalah salah satu keunggulan paling keren dari LLM
- Menarik bahwa LLM lebih baik daripada Google untuk terjemahan Khmer
  Saya penasaran kenapa Google tidak memakai Gemini secara internal, mungkin karena masalah halusinasi
  Saya ingin melihat uji kuantitatif yang membandingkan beberapa LLM dan API terjemahan
- Terjemahan bahasa Mandarin juga kurang bagus
- Koreksi typo (they're)
Katanya bisa menerjemahkan 1600 bahasa, tetapi di kalimat pertama abstrak bahasa Inggris saja mereka gagal mencocokkan subject-verb agreement
Mereka mengklaim telah mencapai terjemahan berkualitas tinggi yang diperluas ke 200 bahasa melalui proyek NLLB (No Language Left Behind)
Saya memulai perusahaan yang mengerjakan hal serupa — 6k.ai
Saat ini fokus pada pengumpulan data bahasa sumber daya rendah
Jika melihat dataset seperti Common Crawl, finepdfs, dan fineweb, (1) hampir tidak ada data berkualitas baik, dan (2) cara pemrosesannya terlalu kasar
Misalnya, finepdfs mengklasifikasikan setiap halaman PDF sebagai satu bahasa, padahal pada kenyataannya banyak data pasangan bahasa
- Saya juga meneliti bahasa sumber daya rendah, terutama bahasa-bahasa rumpun Maya
  Saya telah membuka materi di wikilangs.org, omneitylabs.com, dan blog terkait
  Hambatan terbesar bukan pengumpulan teks, melainkan akurasi identifikasi bahasa
  Pada dataset seperti Common Crawl atau Fineweb, pemisahan antarbahasa sering ambigu
  Saya mengerjakan perbaikan untuk bahasa ibu saya di Fineweb 2, dan mungkin itu bisa memberi inspirasi
  Karena masalah serupa terus berulang di banyak wilayah, saya ingin mencoba berkolaborasi nanti
- Common Crawl juga sudah menjalankan proyek bahasa sumber daya rendah selama satu setengah tahun, ini memang masalah yang sangat sulit
- Berbagai lembaga pemerintah juga meneliti masalah ini
  Saya penasaran apakah Anda sudah meninjau dataset publik semacam itu, dan bahasa mana yang Anda prioritaskan
Saya butuh waktu lama untuk menemukan tautan unduhan bobot model
Kalau memang open-weight, saya heran kenapa tidak ada tautan yang bisa langsung diakses
- Tidak ada penyebutan bahwa model kali ini open-weight (NLLB sebelumnya dirilis terbuka)
  Sebagai gantinya, leaderboard dan dataset evaluasi tersedia untuk umum
  Di makalahnya hanya disebutkan, “model terjemahan kami dibangun di atas model yang tersedia secara bebas”
Ini sudah tahun 2026, tapi saya masih tidak mengerti kenapa belum ada fitur transkripsi otomatis pesan suara
Katanya bisa menerjemahkan 1600 bahasa, tetapi pemisahan paragraf yang dasar saja masih tidak beres
- Abstrak makalah memang secara aturan ditulis sebagai satu paragraf
1600 bahasa memang banyak, tetapi masih jauh untuk disebut “Omni”
Jumlah bahasa biasanya diperkirakan 4.000~8.000, dan mencapai 1.000 bahasa pertama justru yang paling sulit
- Dalam marketing, harus pakai kata seperti “frontier” atau “edge” agar terasa lebih profesional
Penelitian lama (Lauscher 2020) menyebut ada kutukan multilingual di mana kualitas terjemahan menurun seiring bertambahnya jumlah bahasa
Namun Meta tampaknya berhasil mengatasinya
Dari abstrak makalah, mereka menyebut telah memperbaiki kualitas data pelatihan dan memperkenalkan alat evaluasi baru
Mereka juga mengklaim OMT-LLaMA memiliki kualitas generasi teks yang lebih baik daripada model sebelumnya
Hal menarik lainnya, ada benchmark BOUQuET yang diperkenalkan Meta
Ini adalah inisiatif terbuka untuk mengevaluasi kualitas terjemahan secara lintas bahasa
huggingface.co/spaces/facebook/bouquet
Sejak demam AI, terjemahan dokumentasi MS jadi berantakan
Misalnya, try/catch diterjemahkan ke bahasa Jerman sebagai “versuchen/fangen”
- Terjemahan seperti ini justru bernilai negatif
  Terutama di lingkungan perusahaan, lebih merepotkan karena sulit mengubah pengaturan locale
  Ada juga kesalahan dasar seperti menerjemahkan “shortly” menjadi “short”

Omnilingual MT Meta untuk 1.600 Bahasa

Ikhtisar Omnilingual MT

Strategi data dan perluasan cakupan bahasa

Kerangka evaluasi dan pengukuran kualitas

BLASER 3: model evaluasi reference-free yang memperkirakan kualitas tanpa kalimat referensi

Arsitektur model dan pendekatan pelatihan

OMT-LLaMA

OMT-NLLB

Performa dan kemampuan generasi bahasa

Sumber daya publik dan perluasan riset

Bacaan terkait

1 komentar

Komentar Hacker News