Hibiki - Model terjemahan suara-ke-suara simultan berkualitas tinggi

xguru · 2025-02-11T09:53:55+09:00

Model terjemahan suara real-time streaming suara-ke-suara (Speech-to-Speech Translation) dengan high fidelity Berbeda dari terjemahan offline pada umumnya, model ini "menghasilkan suara terjemahan secara real-time" saat pengguna sedang berbicara Juga menyediakan terjemahan teks serta mencakup fitur konversi suara yang mempertahankan gaya suara asli Arsitektur Model "decoder-only" yang dirancang untuk terjemahan suara simultan Memanfaatkan arsitektur multistream dari Moshi untuk memodelkan suara asli dan suara terjemahan secara bersamaan Menghasilkan stream output kontinu pada frame rate tetap 12.5Hz per detik, serta menyediakan terjemahan teks yang disertai timestamp Metode pelatihan Membutuhkan data yang selaras antara suara dan teks asli maupun terjemahan, tetapi data seperti ini di dunia nyata tidak banyak tersedia Karena itu, pelatihan dilakukan dengan membuat data sintetis (synthetic data) Menggunakan sistem terjemahan mesin MADLAD untuk menyelaraskan teks asli dan terjemahan dengan pendekatan weakly supervised learning Aturan penyelarasan diterapkan agar kata hanya muncul pada saat terjemahan dapat diprediksi dari sumber aslinya Metode 1: silence insertion Metode 2: sintesis suara yang sadar penyelarasan (alignment-aware TTS) Inferensi (Inference) Hibiki mengodekan suara asli secara real-time dan menghasilkan suara terjemahan Tanpa metode inferensi yang rumit, model ini menggunakan temperature sampling sehingga kompatibel dengan pemrosesan batch Tingkat kemiripan suara dapat diatur dengan menyesuaikan koefisien Classifier-Free Guidance Semakin tinggi koefisiennya, semakin mirip suara yang dihasilkan dengan sumber asli, tetapi jika terlalu tinggi kualitas terjemahan bisa menurun Saat ini Hibiki hanya mendukung terjemahan bahasa Prancis → Inggris Model ringan Hibiki-M juga dapat dijalankan di smartphone Cara menjalankan model Dapat dijalankan di PyTorch, Rust, MLX(macOS), dan MLX-Swift(iOS) Kode Hibiki hampir identik dengan proyek Moshi, dan implementasi aktualnya dapat dilihat di repositori kyutai-labs/moshi Saat ini hanya tersedia dua model yang mendukung terjemahan bahasa Prancis → Inggris (FR → EN) Hibiki 2B: struktur Transformer yang lebih dalam, 16 RVQ per stream Hibiki 1B: versi ringan, 8 RVQ per stream, dapat dijalankan on-device

Model terjemahan suara real-time streaming suara-ke-suara (Speech-to-Speech Translation) dengan high fidelity
Berbeda dari terjemahan offline pada umumnya, model ini "menghasilkan suara terjemahan secara real-time" saat pengguna sedang berbicara
Juga menyediakan terjemahan teks serta mencakup fitur konversi suara yang mempertahankan gaya suara asli

Arsitektur

Model "decoder-only" yang dirancang untuk terjemahan suara simultan
Memanfaatkan arsitektur multistream dari Moshi untuk memodelkan suara asli dan suara terjemahan secara bersamaan
Menghasilkan stream output kontinu pada frame rate tetap 12.5Hz per detik, serta menyediakan terjemahan teks yang disertai timestamp

Metode pelatihan

Membutuhkan data yang selaras antara suara dan teks asli maupun terjemahan, tetapi data seperti ini di dunia nyata tidak banyak tersedia
Karena itu, pelatihan dilakukan dengan membuat data sintetis (synthetic data)
Menggunakan sistem terjemahan mesin MADLAD untuk menyelaraskan teks asli dan terjemahan dengan pendekatan weakly supervised learning
Aturan penyelarasan diterapkan agar kata hanya muncul pada saat terjemahan dapat diprediksi dari sumber aslinya
- Metode 1: silence insertion
- Metode 2: sintesis suara yang sadar penyelarasan (alignment-aware TTS)

Inferensi (Inference)

Hibiki mengodekan suara asli secara real-time dan menghasilkan suara terjemahan
Tanpa metode inferensi yang rumit, model ini menggunakan temperature sampling sehingga kompatibel dengan pemrosesan batch
Tingkat kemiripan suara dapat diatur dengan menyesuaikan koefisien Classifier-Free Guidance
- Semakin tinggi koefisiennya, semakin mirip suara yang dihasilkan dengan sumber asli, tetapi jika terlalu tinggi kualitas terjemahan bisa menurun
Saat ini Hibiki hanya mendukung terjemahan bahasa Prancis → Inggris
Model ringan Hibiki-M juga dapat dijalankan di smartphone

Cara menjalankan model

Dapat dijalankan di PyTorch, Rust, MLX(macOS), dan MLX-Swift(iOS)
Kode Hibiki hampir identik dengan proyek Moshi, dan implementasi aktualnya dapat dilihat di repositori kyutai-labs/moshi
Saat ini hanya tersedia dua model yang mendukung terjemahan bahasa Prancis → Inggris (FR → EN)
- Hibiki 2B: struktur Transformer yang lebih dalam, 16 RVQ per stream
- Hibiki 1B: versi ringan, 8 RVQ per stream, dapat dijalankan on-device