Meta mengumumkan keluarga model Seamless Communication

(ai.meta.com)

4 poin oleh GN⁺ 2023-12-02 | 1 komentar | Bagikan ke WhatsApp

Sekelompok model riset AI yang menghilangkan hambatan antarbahasa dan memungkinkan komunikasi multibahasa yang lebih alami
- SeamlessExpressive: mempertahankan ekspresi dan nuansa bahasa lintas bahasa
- SeamlessStreaming: menyediakan terjemahan suara dan teks dengan latensi sekitar 2 detik
- SeamlessM4T v2: model fondasi multibahasa dan multitugas yang mendukung komunikasi melalui suara dan teks
- Seamless: mengintegrasikan fungsi SeamlessExpressive, SeamlessStreaming, dan SeamlessM4T v2 dalam satu kesatuan

Mempertahankan nuansa ekspresi

SeamlessExpressive bertujuan menghasilkan terjemahan yang menangkap nuansa ekspresi manusia
Alat terjemahan yang ada mahir menangkap isi percakapan, tetapi umumnya menghasilkan suara yang datar dan terasa robotik
SeamlessExpressive berupaya mempertahankan bukan hanya gaya bicara dan warna emosional, tetapi juga nuansa bahasa seperti kecepatan berbicara dan jeda

Terjemahan hampir real-time

SeamlessStreaming adalah model multibahasa skala besar pertama yang menyediakan terjemahan dengan latensi sekitar 2 detik
Dibangun di atas SeamlessM4T v2, dan mendukung pengenalan suara otomatis serta terjemahan suara-ke-teks untuk hampir 100 bahasa input dan output
Selain itu, juga mendukung terjemahan suara-ke-suara untuk hampir 100 bahasa input dan 36 bahasa output

Model dasar untuk terjemahan universal

Pada Agustus 2023, Meta memperkenalkan versi pertama SeamlessM4T, yang menghadirkan hasil mutakhir dalam terjemahan dan transkripsi untuk suara maupun teks
Model yang ditingkatkan berdasarkan itu, SeamlessM4T v2, menjadi fondasi bagi model baru SeamlessExpressive dan SeamlessStreaming
Mengusung arsitektur baru dan decoder teks-ke-unit non-autoregresif untuk meningkatkan konsistensi antara keluaran teks dan suara

Pendekatan riset

Meta percaya pada kekuatan kolaborasi dan riset terbuka, dan merilis seluruh model Seamless Communication agar para peneliti dapat terus mengembangkannya
Untuk mendorong ekosistem AI yang aman dan bertanggung jawab, Meta secara signifikan mengurangi dampak toksisitas halusinasi dalam terjemahan, serta menerapkan pendekatan watermarking khusus pada keluaran audio model ekspresif

Opini GN⁺

Hal terpenting dalam artikel ini adalah pengenalan model AI Seamless Communication yang dikembangkan Meta untuk meruntuhkan hambatan bahasa. Model-model ini menawarkan terjemahan yang hampir real-time sambil tetap menjaga nuansa ekspresi, serta memiliki kemampuan kuat untuk mendukung beragam bahasa. Kemajuan teknologi ini membuka jalan agar orang-orang di seluruh dunia dapat berkomunikasi dengan cara yang lebih alami dan autentik, sehingga menjadi kabar yang menarik dan memikat bagi banyak orang.

1 komentar

GN⁺ 2023-12-02

Komentar Hacker News

Harapan terhadap teknologi masa depan yang menjanjikan

Menantikan hari ketika bisa memakai headphone di luar negeri dan mendengar percakapan sekitar dalam bahasa sendiri. Sejak kecil terpesona oleh 'penerjemah universal' yang dilihat di SF, dan setelah melihat ayahnya sibuk bekerja sebagai penerjemah simultan Prancis-Inggris, ia pernah mencoba membuat penerjemah sendiri. Ia berharap penerjemahan adalah pekerjaan penting dan dapat membantu banyak orang.
Harapan terhadap alat pembelajaran bahasa yang memanfaatkan teknologi

Menantikan pengembangan guru bahasa yang memanfaatkan teknologi ini. Setiap orang bisa memiliki guru privat selama beberapa jam setiap hari. Bekerja di China atau Meksiko sambil belajar bahasa melalui game VR terdengar sangat menarik.
Potensi teknologi streaming real-time

Untuk karyawan baru dengan gangguan pendengaran, perusahaan sempat mengusulkan solusi seperti Dragon yang tidak bekerja secara real-time, tetapi karyawan tersebut sendiri mengembangkan solusi konversi teks yang nyaris real-time menggunakan Whisper. Menarik untuk melihat apa yang akan ia lakukan dengan model baru ini.
Kekhawatiran tentang akurasi terjemahan

Yang lebih mengkhawatirkan daripada penerjemah yang kadang memakai kata yang kurang tepat adalah terjemahan yang menimbulkan salah paham. Misalnya, ketika "what the fuck" diterjemahkan ke bahasa Spanyol menjadi "qué diablos" yang maknanya lebih lunak, itu bisa menjadi masalah bagi pengguna yang ingin mengetahui maksud aslinya secara akurat.
Kesadaran akan perubahan industri oleh AI

Ketika istrinya hendak menjadi pengisi suara profesional yang melakukan dubbing dalam berbagai bahasa, ia sudah memperkirakan perubahan industri akibat AI dan mengubah jalurnya. Ia merasa hasil perkembangan AI sangat mengesankan.
Perkembangan teknologi text-to-speech dan harapan ke depan

Teknologi text-to-speech telah banyak berkembang dalam beberapa tahun terakhir, tetapi ia penasaran kapan teknologi ini akan diintegrasikan ke mesin TTS bawaan sistem operasi (misalnya untuk screen reader dan sebagainya).
Keluhan tentang kurangnya dukungan untuk bahasa tertentu

Kecewa karena bahasa besar seperti Hindi tidak disertakan dalam sampel. India adalah basis pengguna Facebook terbesar, tetapi Facebook belum memberi kontribusi yang cukup untuk India.
Sorotan atas kurangnya data bahasa

Hasil percobaan terjemahan Inggris-Swahili tidak bagus. Sudah mencoba Huggingface M4T V2, tetapi dalam sebagian besar kasus model itu tidak bekerja dengan benar dan hanya mengembalikan bahasa Inggris dengan suara berbeda. Diperlukan penjelasan yang jelas tentang data apa yang kurang sehingga bahasa tersebut tidak berfungsi dengan baik. Mungkin bisa membantu dengan menyediakan data.
Ungkapan tentang kesalahan penerjemah

Ungkapan "toxic word hallucinations" terasa sangat cyberpunk.
Kekaguman terhadap perkembangan teknologi terjemahan AI

Terharu melihat kemajuan yang dicapai selama 30 tahun terakhir. Pada pertengahan 1990-an saat masih mahasiswa, ia bekerja pada sistem Verbmobil di German Research Center for Artificial Intelligence, yang melakukan terjemahan suara-ke-suara antara bahasa Inggris, Jerman, dan Jepang dalam cakupan yang sangat terbatas. Saat itu digunakan pendekatan NLP yang "tradisional" seperti pemodelan domain, parsing kalimat, mesin semantik, serta speech-to-text yang dikustomisasi untuk tiga bahasa, tetapi ia menyadari bahwa pendekatan ini pada akhirnya adalah jalan buntu.