- Model terjemahan suara real-time streaming suara-ke-suara (Speech-to-Speech Translation) dengan high fidelity
- Berbeda dari terjemahan offline pada umumnya, model ini "menghasilkan suara terjemahan secara real-time" saat pengguna sedang berbicara
- Juga menyediakan terjemahan teks serta mencakup fitur konversi suara yang mempertahankan gaya suara asli
Arsitektur
- Model "decoder-only" yang dirancang untuk terjemahan suara simultan
- Memanfaatkan arsitektur multistream dari Moshi untuk memodelkan suara asli dan suara terjemahan secara bersamaan
- Menghasilkan stream output kontinu pada frame rate tetap 12.5Hz per detik, serta menyediakan terjemahan teks yang disertai timestamp
Metode pelatihan
- Membutuhkan data yang selaras antara suara dan teks asli maupun terjemahan, tetapi data seperti ini di dunia nyata tidak banyak tersedia
- Karena itu, pelatihan dilakukan dengan membuat data sintetis (synthetic data)
- Menggunakan sistem terjemahan mesin MADLAD untuk menyelaraskan teks asli dan terjemahan dengan pendekatan weakly supervised learning
- Aturan penyelarasan diterapkan agar kata hanya muncul pada saat terjemahan dapat diprediksi dari sumber aslinya
- Metode 1: silence insertion
- Metode 2: sintesis suara yang sadar penyelarasan (alignment-aware TTS)
Inferensi (Inference)
- Hibiki mengodekan suara asli secara real-time dan menghasilkan suara terjemahan
- Tanpa metode inferensi yang rumit, model ini menggunakan temperature sampling sehingga kompatibel dengan pemrosesan batch
- Tingkat kemiripan suara dapat diatur dengan menyesuaikan koefisien Classifier-Free Guidance
- Semakin tinggi koefisiennya, semakin mirip suara yang dihasilkan dengan sumber asli, tetapi jika terlalu tinggi kualitas terjemahan bisa menurun
- Saat ini Hibiki hanya mendukung terjemahan bahasa Prancis → Inggris
- Model ringan Hibiki-M juga dapat dijalankan di smartphone
Cara menjalankan model
- Dapat dijalankan di PyTorch, Rust, MLX(macOS), dan MLX-Swift(iOS)
- Kode Hibiki hampir identik dengan proyek Moshi, dan implementasi aktualnya dapat dilihat di repositori kyutai-labs/moshi
- Saat ini hanya tersedia dua model yang mendukung terjemahan bahasa Prancis → Inggris (FR → EN)
- Hibiki 2B: struktur Transformer yang lebih dalam, 16 RVQ per stream
- Hibiki 1B: versi ringan, 8 RVQ per stream, dapat dijalankan on-device
2 komentar
Untuk deployment Rust, mereka tampaknya memakai candle. (Cargo.toml)
Untuk bahasa-bahasa dengan urutan kata yang benar-benar berbeda, sepertinya penerjemahan real-time akan agak sulit, jadi saya rasa saya perlu melihat makalahnya dulu.