13 poin oleh xguru 2025-02-11 | 2 komentar | Bagikan ke WhatsApp
  • Model terjemahan suara real-time streaming suara-ke-suara (Speech-to-Speech Translation) dengan high fidelity
  • Berbeda dari terjemahan offline pada umumnya, model ini "menghasilkan suara terjemahan secara real-time" saat pengguna sedang berbicara
  • Juga menyediakan terjemahan teks serta mencakup fitur konversi suara yang mempertahankan gaya suara asli

Arsitektur

  • Model "decoder-only" yang dirancang untuk terjemahan suara simultan
  • Memanfaatkan arsitektur multistream dari Moshi untuk memodelkan suara asli dan suara terjemahan secara bersamaan
  • Menghasilkan stream output kontinu pada frame rate tetap 12.5Hz per detik, serta menyediakan terjemahan teks yang disertai timestamp

Metode pelatihan

  • Membutuhkan data yang selaras antara suara dan teks asli maupun terjemahan, tetapi data seperti ini di dunia nyata tidak banyak tersedia
  • Karena itu, pelatihan dilakukan dengan membuat data sintetis (synthetic data)
  • Menggunakan sistem terjemahan mesin MADLAD untuk menyelaraskan teks asli dan terjemahan dengan pendekatan weakly supervised learning
  • Aturan penyelarasan diterapkan agar kata hanya muncul pada saat terjemahan dapat diprediksi dari sumber aslinya
    • Metode 1: silence insertion
    • Metode 2: sintesis suara yang sadar penyelarasan (alignment-aware TTS)

Inferensi (Inference)

  • Hibiki mengodekan suara asli secara real-time dan menghasilkan suara terjemahan
  • Tanpa metode inferensi yang rumit, model ini menggunakan temperature sampling sehingga kompatibel dengan pemrosesan batch
  • Tingkat kemiripan suara dapat diatur dengan menyesuaikan koefisien Classifier-Free Guidance
    • Semakin tinggi koefisiennya, semakin mirip suara yang dihasilkan dengan sumber asli, tetapi jika terlalu tinggi kualitas terjemahan bisa menurun
  • Saat ini Hibiki hanya mendukung terjemahan bahasa Prancis → Inggris
  • Model ringan Hibiki-M juga dapat dijalankan di smartphone

Cara menjalankan model

  • Dapat dijalankan di PyTorch, Rust, MLX(macOS), dan MLX-Swift(iOS)
  • Kode Hibiki hampir identik dengan proyek Moshi, dan implementasi aktualnya dapat dilihat di repositori kyutai-labs/moshi
  • Saat ini hanya tersedia dua model yang mendukung terjemahan bahasa Prancis → Inggris (FR → EN)
    • Hibiki 2B: struktur Transformer yang lebih dalam, 16 RVQ per stream
    • Hibiki 1B: versi ringan, 8 RVQ per stream, dapat dijalankan on-device

2 komentar

 
sftblw 2025-02-11

Untuk deployment Rust, mereka tampaknya memakai candle. (Cargo.toml)

 
dbs0829 2025-02-11

Untuk bahasa-bahasa dengan urutan kata yang benar-benar berbeda, sepertinya penerjemahan real-time akan agak sulit, jadi saya rasa saya perlu melihat makalahnya dulu.