Facebook merilis model open source yang dapat menerjemahkan 100 bahasa tanpa bergantung pada bahasa Inggris
(about.fb.com)M2M-100 adalah model MMT (Multilingual Machine Translation),
yang untuk pertama kalinya memungkinkan penerjemahan timbal balik antar 100 pasangan bahasa tanpa bergantung pada data bahasa Inggris.
Sebagian besar penerjemahan biasanya melalui bahasa Inggris, yang memiliki data pelatihan paling banyak, tetapi model ini menerjemahkan secara langsung sehingga makna dapat dipertahankan dengan lebih baik.
Menunjukkan hasil yang lebih baik lebih dari 10% pada skor BLEU (Bilingual Evaluation Understudy).
Model ini dilatih pada total 2200 arah bahasa, 10 kali lebih banyak dibanding model multibahasa lama berpusat pada bahasa Inggris yang sebelumnya berada di tingkat terbaik.
Dengan M2M-100, kualitas terjemahan bagi orang-orang yang menggunakan bahasa dengan sumber daya terbatas dapat meningkat.
Tulisan ini membagikan detail tentang set data pelatihan MMT dan cara membangun model,
serta juga membagikan model, pelatihan, dan metode evaluasi agar peneliti lain dapat mereproduksi dan mengembangkan model multibahasa yang lebih baik.
File model yang dilatih dengan 12 miliar parameter dapat diunduh (136GB)
Belum ada komentar.