4 poin oleh GN⁺ 2026-03-22 | 1 komentar | Bagikan ke WhatsApp
  • Omnilingual Machine Translation (OMT) yang dikembangkan oleh Meta AI adalah sistem terjemahan mesin pertama yang mendukung lebih dari 1.600 bahasa, melampaui batas 200 bahasa dari proyek NLLB sebelumnya
  • Dengan menggabungkan korpus terbuka, backtranslation, dan data mining, sistem ini membangun dataset multibahasa skala besar yang mencakup bahasa berdaya rendah dan bahasa minoritas
  • Sistem ini mengintegrasikan berbagai alat evaluasi kualitas dan toksisitas seperti BLASER 3, OmniTOX, BOUQuET, dan Met-BOUQuET untuk mengukur performa terjemahan dengan andal
  • Dengan menjalankan model decoder-only berbasis LLaMA3 dan OMT-NLLB berarsitektur encoder-decoder secara paralel, OMT menghadirkan terjemahan berkualitas tinggi bahkan di lingkungan komputasi terbatas
  • OMT dinilai sebagai kemajuan penting dalam memperluas inklusivitas bahasa global, dengan pencapaian generasi kalimat yang konsisten dan peningkatan transfer lintas bahasa di 1.600 bahasa

Ikhtisar Omnilingual MT

  • Omnilingual Machine Translation (OMT) adalah sistem terjemahan mesin pertama yang mendukung lebih dari 1.600 bahasa dan dikembangkan oleh Meta AI
  • Sistem ini mencakup jauh lebih banyak bahasa dengan bertumpu pada pencapaian proyek No Language Left Behind (NLLB) yang sebelumnya diperluas hingga 200 bahasa
  • Terjemahan berbasis large language model (LLM) sebelumnya memiliki kualitas tinggi, tetapi cakupan bahasanya terbatas, terutama karena kurangnya kemampuan generasi untuk bahasa berdaya rendah dan bahasa minoritas
  • Untuk mengatasi keterbatasan ini, OMT memperluas secara menyeluruh strategi data, arsitektur model, dan kerangka evaluasi

Strategi data dan perluasan cakupan bahasa

  • OMT memperluas cakupan bahasa secara besar-besaran dengan mengintegrasikan korpus multibahasa terbuka dan dataset baru yang dihasilkan
    • Menggabungkan MeDLEY bitext (data paralel yang dikurasi manual), synthetic backtranslation, dan teknik data mining
    • Melalui pendekatan ini, OMT mencakup bahasa minoritas (long-tail languages) serta beragam domain dan ragam bahasa (register)
  • Strategi data ini menjadi landasan untuk menghadirkan kemampuan representasi bagi sebagian besar dari sekitar 7.000 bahasa yang tidak dapat ditangani sistem sebelumnya

Kerangka evaluasi dan pengukuran kualitas

  • Untuk memastikan keandalan dan skalabilitas, OMT menggabungkan metrik standar dengan sejumlah alat evaluasi
    • BLASER 3: model evaluasi reference-free yang memperkirakan kualitas tanpa kalimat referensi

      • OmniTOX: pengklasifikasi untuk mendeteksi toksisitas dalam hasil terjemahan
      • BOUQuET: dataset evaluasi multibahasa skala besar yang mencakup berbagai rumpun bahasa dan dibangun secara manual
      • Met-BOUQuET: dataset yang diperluas untuk estimasi kualitas multibahasa skala besar
      • Dataset-dataset ini disediakan bersama leaderboard publik yang terus diperbarui, sehingga dapat dimanfaatkan bebas oleh para peneliti

Arsitektur model dan pendekatan pelatihan

  • OMT mengkhususkan LLM untuk terjemahan dengan dua pendekatan
    • OMT-LLaMA

      • Model decoder-only berbasis LLaMA3
      • Memperkuat adaptabilitas saat inferensi melalui multilingual continual pretraining dan retrieval-augmented translation
    • OMT-NLLB

      • Menggunakan arsitektur encoder-decoder, dibangun di atas ruang penyelarasan multibahasa bernama OmniSONAR
      • Memperkenalkan metode pelatihan yang dapat memanfaatkan data non-paralel
      • Data prapelatihan decoder-only juga dapat diintegrasikan ke pelatihan encoder-decoder
      • Model 1B hingga 8B parameter mencapai performa terjemahan yang setara atau lebih baik daripada model dasar LLM 70B, membuktikan bahwa terjemahan berkualitas tinggi dimungkinkan bahkan di lingkungan komputasi rendah

Performa dan kemampuan generasi bahasa

  • Dalam evaluasi terjemahan bahasa Inggris ke 1.600 bahasa, model sebelumnya sering kali dapat memahami bahasa berdaya rendah tetapi gagal menghasilkan kalimat yang bermakna
  • Model OMT-LLaMA secara signifikan memperluas generasi yang koheren untuk bahasa-bahasa tersebut
  • Performa transfer lintas bahasa juga meningkat, sehingga hampir sepenuhnya menyelesaikan masalah pada aspek pemahaman untuk 1.600 bahasa
  • Melalui fine-tuning dan RAG, kualitas tambahan dapat ditingkatkan untuk bahasa atau domain tertentu

Sumber daya publik dan perluasan riset

  • Dataset BOUQuET dan Met-BOUQuET tersedia gratis untuk publik dan terus diperluas menuju Omnilinguality
  • Tim peneliti menargetkan peningkatan aksesibilitas bahasa berdaya rendah serta pembangunan fondasi riset AI multibahasa
  • OMT dinilai sebagai sistem terjemahan praktis pertama yang mencakup keragaman bahasa dalam skala besar, sekaligus menjadi kemajuan penting bagi inklusivitas bahasa global

1 komentar

 
GN⁺ 2026-03-22
Komentar Hacker News
  • Saya merasa kualitas terjemahan Meta jauh lebih buruk dibanding layanan lain
    Terutama lebih parah untuk bahasa yang kurang dikenal
    Google Translate lumayan sebagai pilihan default, tetapi terjemahan berbasis LLM jauh lebih unggul dalam memahami konteks dan menyampaikan nuansa budaya
    Saya tinggal di Kamboja, jadi saya sering membandingkan kualitas terjemahan bahasa Khmer

    • Salam dari Siem Reap! Senang bertemu sesama penggemar teknologi di Kamboja
      Menurut pengalaman saya, terjemahan Facebook lebih alami untuk kalimat panjang dibanding Google
      Bahasa Khmer sangat bergantung pada konteks dan cenderung bertele-tele, jadi LLM tampaknya akan sangat membantu
      Sebaliknya, saat menerjemahkan dari bahasa Inggris ke Khmer, warga lokal mengatakan hasilnya menjadi terlalu formal dan terdengar seperti robot, menarik juga
    • Kagi Translate benar-benar luar biasa
      Menurut saya, dukungan multibahasa adalah salah satu keunggulan paling keren dari LLM
    • Menarik bahwa LLM lebih baik daripada Google untuk terjemahan Khmer
      Saya penasaran kenapa Google tidak memakai Gemini secara internal, mungkin karena masalah halusinasi
      Saya ingin melihat uji kuantitatif yang membandingkan beberapa LLM dan API terjemahan
    • Terjemahan bahasa Mandarin juga kurang bagus
    • Koreksi typo (they're)
  • Katanya bisa menerjemahkan 1600 bahasa, tetapi di kalimat pertama abstrak bahasa Inggris saja mereka gagal mencocokkan subject-verb agreement
    Mereka mengklaim telah mencapai terjemahan berkualitas tinggi yang diperluas ke 200 bahasa melalui proyek NLLB (No Language Left Behind)

  • Saya memulai perusahaan yang mengerjakan hal serupa — 6k.ai
    Saat ini fokus pada pengumpulan data bahasa sumber daya rendah
    Jika melihat dataset seperti Common Crawl, finepdfs, dan fineweb, (1) hampir tidak ada data berkualitas baik, dan (2) cara pemrosesannya terlalu kasar
    Misalnya, finepdfs mengklasifikasikan setiap halaman PDF sebagai satu bahasa, padahal pada kenyataannya banyak data pasangan bahasa

    • Saya juga meneliti bahasa sumber daya rendah, terutama bahasa-bahasa rumpun Maya
      Saya telah membuka materi di wikilangs.org, omneitylabs.com, dan blog terkait
      Hambatan terbesar bukan pengumpulan teks, melainkan akurasi identifikasi bahasa
      Pada dataset seperti Common Crawl atau Fineweb, pemisahan antarbahasa sering ambigu
      Saya mengerjakan perbaikan untuk bahasa ibu saya di Fineweb 2, dan mungkin itu bisa memberi inspirasi
      Karena masalah serupa terus berulang di banyak wilayah, saya ingin mencoba berkolaborasi nanti
    • Common Crawl juga sudah menjalankan proyek bahasa sumber daya rendah selama satu setengah tahun, ini memang masalah yang sangat sulit
    • Berbagai lembaga pemerintah juga meneliti masalah ini
      Saya penasaran apakah Anda sudah meninjau dataset publik semacam itu, dan bahasa mana yang Anda prioritaskan
  • Saya butuh waktu lama untuk menemukan tautan unduhan bobot model
    Kalau memang open-weight, saya heran kenapa tidak ada tautan yang bisa langsung diakses

    • Tidak ada penyebutan bahwa model kali ini open-weight (NLLB sebelumnya dirilis terbuka)
      Sebagai gantinya, leaderboard dan dataset evaluasi tersedia untuk umum
      Di makalahnya hanya disebutkan, “model terjemahan kami dibangun di atas model yang tersedia secara bebas”
  • Ini sudah tahun 2026, tapi saya masih tidak mengerti kenapa belum ada fitur transkripsi otomatis pesan suara

  • Katanya bisa menerjemahkan 1600 bahasa, tetapi pemisahan paragraf yang dasar saja masih tidak beres

    • Abstrak makalah memang secara aturan ditulis sebagai satu paragraf
  • 1600 bahasa memang banyak, tetapi masih jauh untuk disebut “Omni”
    Jumlah bahasa biasanya diperkirakan 4.000~8.000, dan mencapai 1.000 bahasa pertama justru yang paling sulit

    • Dalam marketing, harus pakai kata seperti “frontier” atau “edge” agar terasa lebih profesional
  • Penelitian lama (Lauscher 2020) menyebut ada kutukan multilingual di mana kualitas terjemahan menurun seiring bertambahnya jumlah bahasa
    Namun Meta tampaknya berhasil mengatasinya
    Dari abstrak makalah, mereka menyebut telah memperbaiki kualitas data pelatihan dan memperkenalkan alat evaluasi baru
    Mereka juga mengklaim OMT-LLaMA memiliki kualitas generasi teks yang lebih baik daripada model sebelumnya

  • Hal menarik lainnya, ada benchmark BOUQuET yang diperkenalkan Meta
    Ini adalah inisiatif terbuka untuk mengevaluasi kualitas terjemahan secara lintas bahasa
    huggingface.co/spaces/facebook/bouquet

  • Sejak demam AI, terjemahan dokumentasi MS jadi berantakan
    Misalnya, try/catch diterjemahkan ke bahasa Jerman sebagai “versuchen/fangen”

    • Terjemahan seperti ini justru bernilai negatif
      Terutama di lingkungan perusahaan, lebih merepotkan karena sulit mengubah pengaturan locale
      Ada juga kesalahan dasar seperti menerjemahkan “shortly” menjadi “short”