- Model speech-to-text generasi berikutnya dengan fitur pengenalan ucapan real-time berlatensi ultra-rendah dan pemisahan pembicara berpresisi tinggi
- Terdiri dari dua model: Voxtral Mini Transcribe V2 untuk pemrosesan batch, dan Voxtral Realtime dengan arsitektur untuk aplikasi real-time
- Model Realtime memproses audio secara streaming dengan latensi di bawah 200 ms dan dirilis sebagai open weights Apache 2.0
- Mini Transcribe V2 mendukung 13 bahasa termasuk bahasa Korea, serta menyediakan fitur enterprise seperti timestamp per kata, context biasing, dan pemisahan pembicara
- Kedua model mendukung deployment yang patuh GDPR dan HIPAA, serta secara signifikan meningkatkan akurasi, kecepatan, dan efisiensi biaya aplikasi berbasis suara
Gambaran umum Voxtral Transcribe 2
- Voxtral Transcribe 2 terdiri dari dua model yang menonjol dalam kualitas pengenalan ucapan mutakhir, speaker diarization presisi, dan pemrosesan berlatensi ultra-rendah
- Voxtral Mini Transcribe V2: untuk transkripsi batch
- Voxtral Realtime: untuk aplikasi real-time
- Model Realtime dirilis di bawah lisensi Apache 2.0, sehingga dapat di-deploy bahkan di lingkungan edge
- Pengujian transkripsi dapat langsung dilakukan melalui audio playground di Mistral Studio
Ringkasan fitur utama
- Voxtral Mini Transcribe V2: mendukung 13 bahasa, pemisahan pembicara, context biasing, dan timestamp per kata
- Voxtral Realtime: memungkinkan transkripsi real-time dengan latensi di bawah 200 ms, cocok untuk agen suara dan aplikasi real-time
- Efisiensi: menghadirkan akurasi kelas atas dengan biaya terendah di industri
- Open weights: model Realtime dirilis di bawah Apache 2.0 untuk deployment yang berfokus pada privasi
Voxtral Realtime
- Model yang dirancang untuk aplikasi yang mengutamakan latensi, melakukan transkripsi real-time dengan arsitektur streaming alih-alih memproses audio per chunk
- Dapat dikonfigurasi pada latensi di bawah 200 ms, mencapai akurasi setara model batch pada latensi 2,4 detik, dan mempertahankan tingkat kesalahan 1–2% pada latensi 480 ms
- Mendukung 13 bahasa (Inggris, Mandarin, Hindi, Spanyol, Arab, Prancis, Portugis, Rusia, Jerman, Jepang, Korea, Italia, Belanda)
- Dengan skala 4B parameter, model ini berjalan efisien di perangkat edge sekaligus menjaga keamanan dan privasi
- Bobot model tersedia di Hugging Face Hub
Voxtral Mini Transcribe V2
- Kualitas transkripsi dan pemisahan pembicara meningkat secara signifikan di berbagai bahasa dan domain
- Menawarkan word error rate sekitar 4% pada benchmark FLEURS, serta price-performance terbaik dengan biaya $0.003/menit
- Lebih akurat daripada GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, dan Deepgram Nova; 3 kali lebih cepat daripada ElevenLabs Scribe v2 dengan biaya hanya 1/5-nya
Fitur enterprise
- Speaker diarization: membedakan pembicara dan menandai waktu mulai/selesai, cocok untuk rapat, wawancara, dan panggilan multi-pihak
- Context biasing: dapat menetapkan hingga 100 kata/frasa untuk meningkatkan pengenalan nama khusus dan istilah teknis (dioptimalkan untuk bahasa Inggris, eksperimental untuk bahasa lain)
- Timestamp per kata: berguna untuk pembuatan subtitle, pencarian audio, dan penyelarasan konten
- Dukungan bahasa yang diperluas: mendukung 13 bahasa, dengan performa unggul dibanding model pesaing bahkan untuk bahasa non-Inggris
- Ketahanan terhadap noise: tetap menjaga akurasi di lingkungan bising seperti pabrik dan call center
- Pemrosesan audio berdurasi panjang: dapat menangani file rekaman hingga 3 jam dalam satu permintaan
Audio playground
- Mistral Studio memungkinkan pengujian langsung Voxtral Transcribe 2
- Mendukung unggah hingga 10 file audio, serta pengaturan speaker diarization, unit timestamp, dan context biasing
- Format yang didukung: .mp3, .wav, .m4a, .flac, .ogg, maksimum 1 GB per file
Berbagai kasus penggunaan
- Meeting intelligence: memungkinkan analisis data rapat skala besar melalui transkripsi rapat multibahasa dan pemisahan pembicara
- Agen suara dan asisten virtual: menghadirkan antarmuka percakapan yang alami dengan latensi di bawah 200 ms
- Otomatisasi contact center: mendukung analisis sentimen, saran respons, dan pengisian CRM otomatis melalui transkripsi panggilan real-time
- Media dan penyiaran: pembuatan subtitle multibahasa secara real-time serta peningkatan pengenalan nama khusus dan istilah teknis
- Kepatuhan regulasi dan dokumentasi: memungkinkan audit trail berbasis timestamp per pembicara
- Kedua model mendukung deployment yang patuh GDPR dan HIPAA, dan dapat dijalankan dengan aman di lingkungan on-premises atau private cloud
Penggunaan dan harga
- Voxtral Mini Transcribe V2: $0.003/menit melalui API, tersedia di Mistral Studio atau Le Chat
- Voxtral Realtime: $0.006/menit melalui API, dengan open weights tersedia di Hugging Face
- Informasi tambahan tersedia melalui dokumentasi audio dan transkripsi milik Mistral
1 komentar
Komentar Hacker News
Demo ini benar-benar mengesankan
Meski tertulis tidak ada mikrofon, saat tombol rekam ditekan browser langsung meminta izin dan segera berfungsi
Bahkan saat berbicara cepat dan mencampur istilah teknis, transkripsinya tetap akurat. Ejaan WebAssembly pun sempurna
Ditambah lagi ini open weight, benar-benar patut disyukuri
Aku bahkan mencoba bicara dalam dua bahasa sekaligus dan tetap dikenali dengan akurat. Benar-benar mengejutkan
Pengenalan bahasa Inggrisnya cukup bagus, tapi saat berbicara dalam bahasa Polandia malah dikenali sebagai bahasa Rusia atau Ukraina
Kalau ini perusahaan berbasis Eropa, menurutku dukungan untuk bahasa-bahasa utama Eropa seharusnya lebih baik
Saat aku mencampur bahasa Inggris dan Polandia, hasilnya benar-benar campur aduk
Model ini mendukung 13 bahasa, dan aku penasaran bagaimana jumlah parameter atau kebutuhan data latih berubah jika ada banyak bahasa dengan akar yang mirip
Angka word error rate 4% menurut FLEURS dan harga $0.003 per menit cukup mengesankan
Amazon Transcribe mengenakan $0.024 per menit, jadi selisihnya besar
Misalnya, Whisper API dari fal.ai menetapkan “$0.00125 per detik komputasi”, tapi diproses pada kecepatan 10~25x real-time jadi jauh lebih murah
Model ini adalah model multibahasa yang memahami 14 bahasa
Namun untuk sebagian besar use case, yang dibutuhkan hanya satu bahasa, jadi bahasa-bahasa lainnya mungkin hanya menambah latensi
Ke depannya sepertinya akan muncul tren memangkas bagian yang tidak perlu dari model serbaguna seperti ini
Makalah terkait bisa dilihat di sini
Contoh: “voila”, “el camino real”
Hanya saja, secara internal tampaknya mereka juga memakai arsitektur berbasis LLM yang mirip
Performanya kompetitif dibanding Deepgram nova-3, dan dalam banyak kasus lebih baik daripada Assembly atau ElevenLabs
Dalam pengujian internal, model ini dievaluasi dengan dataset panggilan 8kHz beraksen British yang kental, dan praktis berada di level SOTA
Hanya saja distribusi latensi-nya agak tidak stabil. Sepertinya akan membaik jika dijalankan secara lokal
Aku penasaran resource hardware seperti apa yang dibutuhkan
Tidak dijelaskan apakah butuh beberapa GPU NVIDIA kelas atas, atau bisa berjalan offline di perangkat berdaya rendah seperti ESP32
Aku penasaran apakah ini lebih baik daripada Nvidia Parakeet V3. Sejauh ini itulah model terbaik versi lokal menurut pengalamanku
Lihat tautan model, port inference, dan versi GGUF
Aku kira fitur diarization sudah bawaan, tapi ternyata tidak ada di versi real-time
Voxtral-Mini-4B-Realtime-2602 adalah model sekitar 9GB
Aku mencoba demonya, dan pengenalan bahasa Inggrisnya luar biasa, serta bisa mendeteksi pergantian bahasa secara real-time
Tapi bahasa Ukraina sama sekali tidak dikenali dan selalu ditranskripsikan sebagai bahasa Rusia
Model STT lain bisa menangani bahasa Ukraina dengan baik, jadi ini cukup disayangkan karena tampaknya data latihnya jauh lebih banyak untuk bahasa Rusia
Modelnya memang bagus, tapi versi sebelumnya tidak lebih unggul daripada Parakeet
Perlu ada perbandingan objektif dengan model-model terbaru seperti Qwen3-ASR
Benchmark pilihan perusahaan sekarang sudah sulit dipercaya
Untuk saat ini, untuk kebutuhanku Parakeet v3 masih yang paling cepat dan efisien
Aku penasaran aplikasi apa yang dipakai di ponsel