Model Voxtral Transcribe 2 diumumkan

(mistral.ai)

13 poin oleh GN⁺ 2026-02-05 | 1 komentar | Bagikan ke WhatsApp

Model speech-to-text generasi berikutnya dengan fitur pengenalan ucapan real-time berlatensi ultra-rendah dan pemisahan pembicara berpresisi tinggi
Terdiri dari dua model: Voxtral Mini Transcribe V2 untuk pemrosesan batch, dan Voxtral Realtime dengan arsitektur untuk aplikasi real-time
Model Realtime memproses audio secara streaming dengan latensi di bawah 200 ms dan dirilis sebagai open weights Apache 2.0
Mini Transcribe V2 mendukung 13 bahasa termasuk bahasa Korea, serta menyediakan fitur enterprise seperti timestamp per kata, context biasing, dan pemisahan pembicara
Kedua model mendukung deployment yang patuh GDPR dan HIPAA, serta secara signifikan meningkatkan akurasi, kecepatan, dan efisiensi biaya aplikasi berbasis suara

Gambaran umum Voxtral Transcribe 2

Voxtral Transcribe 2 terdiri dari dua model yang menonjol dalam kualitas pengenalan ucapan mutakhir, speaker diarization presisi, dan pemrosesan berlatensi ultra-rendah
- Voxtral Mini Transcribe V2: untuk transkripsi batch
- Voxtral Realtime: untuk aplikasi real-time
Model Realtime dirilis di bawah lisensi Apache 2.0, sehingga dapat di-deploy bahkan di lingkungan edge
Pengujian transkripsi dapat langsung dilakukan melalui audio playground di Mistral Studio

Ringkasan fitur utama

Voxtral Mini Transcribe V2: mendukung 13 bahasa, pemisahan pembicara, context biasing, dan timestamp per kata
Voxtral Realtime: memungkinkan transkripsi real-time dengan latensi di bawah 200 ms, cocok untuk agen suara dan aplikasi real-time
Efisiensi: menghadirkan akurasi kelas atas dengan biaya terendah di industri
Open weights: model Realtime dirilis di bawah Apache 2.0 untuk deployment yang berfokus pada privasi

Voxtral Realtime

Model yang dirancang untuk aplikasi yang mengutamakan latensi, melakukan transkripsi real-time dengan arsitektur streaming alih-alih memproses audio per chunk
Dapat dikonfigurasi pada latensi di bawah 200 ms, mencapai akurasi setara model batch pada latensi 2,4 detik, dan mempertahankan tingkat kesalahan 1–2% pada latensi 480 ms
Mendukung 13 bahasa (Inggris, Mandarin, Hindi, Spanyol, Arab, Prancis, Portugis, Rusia, Jerman, Jepang, Korea, Italia, Belanda)
Dengan skala 4B parameter, model ini berjalan efisien di perangkat edge sekaligus menjaga keamanan dan privasi
Bobot model tersedia di Hugging Face Hub

Voxtral Mini Transcribe V2

Kualitas transkripsi dan pemisahan pembicara meningkat secara signifikan di berbagai bahasa dan domain
Menawarkan word error rate sekitar 4% pada benchmark FLEURS, serta price-performance terbaik dengan biaya $0.003/menit
Lebih akurat daripada GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, dan Deepgram Nova; 3 kali lebih cepat daripada ElevenLabs Scribe v2 dengan biaya hanya 1/5-nya

Fitur enterprise

Speaker diarization: membedakan pembicara dan menandai waktu mulai/selesai, cocok untuk rapat, wawancara, dan panggilan multi-pihak
Context biasing: dapat menetapkan hingga 100 kata/frasa untuk meningkatkan pengenalan nama khusus dan istilah teknis (dioptimalkan untuk bahasa Inggris, eksperimental untuk bahasa lain)
Timestamp per kata: berguna untuk pembuatan subtitle, pencarian audio, dan penyelarasan konten
Dukungan bahasa yang diperluas: mendukung 13 bahasa, dengan performa unggul dibanding model pesaing bahkan untuk bahasa non-Inggris
Ketahanan terhadap noise: tetap menjaga akurasi di lingkungan bising seperti pabrik dan call center
Pemrosesan audio berdurasi panjang: dapat menangani file rekaman hingga 3 jam dalam satu permintaan

Audio playground

Mistral Studio memungkinkan pengujian langsung Voxtral Transcribe 2
Mendukung unggah hingga 10 file audio, serta pengaturan speaker diarization, unit timestamp, dan context biasing
Format yang didukung: .mp3, .wav, .m4a, .flac, .ogg, maksimum 1 GB per file

Berbagai kasus penggunaan

Meeting intelligence: memungkinkan analisis data rapat skala besar melalui transkripsi rapat multibahasa dan pemisahan pembicara
Agen suara dan asisten virtual: menghadirkan antarmuka percakapan yang alami dengan latensi di bawah 200 ms
Otomatisasi contact center: mendukung analisis sentimen, saran respons, dan pengisian CRM otomatis melalui transkripsi panggilan real-time
Media dan penyiaran: pembuatan subtitle multibahasa secara real-time serta peningkatan pengenalan nama khusus dan istilah teknis
Kepatuhan regulasi dan dokumentasi: memungkinkan audit trail berbasis timestamp per pembicara

Kedua model mendukung deployment yang patuh GDPR dan HIPAA, dan dapat dijalankan dengan aman di lingkungan on-premises atau private cloud

Penggunaan dan harga

Voxtral Mini Transcribe V2: $0.003/menit melalui API, tersedia di Mistral Studio atau Le Chat
Voxtral Realtime: $0.006/menit melalui API, dengan open weights tersedia di Hugging Face
Informasi tambahan tersedia melalui dokumentasi audio dan transkripsi milik Mistral

1 komentar

GN⁺ 2026-02-05

Komentar Hacker News

Demo ini benar-benar mengesankan
Meski tertulis tidak ada mikrofon, saat tombol rekam ditekan browser langsung meminta izin dan segera berfungsi
Bahkan saat berbicara cepat dan mencampur istilah teknis, transkripsinya tetap akurat. Ejaan WebAssembly pun sempurna
- Selama 3 tahun terakhir aku sudah mencoba hampir semua model suara, dan ini jelas yang terbaik yang pernah kulihat sejauh ini
  Ditambah lagi ini open weight, benar-benar patut disyukuri
- Terima kasih untuk tautannya. Playground bawaan Mistral hanya mendukung unggah file jadi sulit merasakan kecepatan dan akurasinya, tapi tautan ini benar-benar menunjukkan performa real-time
  Aku bahkan mencoba bicara dalam dua bahasa sekaligus dan tetap dikenali dengan akurat. Benar-benar mengejutkan
- Di lingkunganku ini tidak berfungsi. Di Firefox maupun Chromium gelombangnya terlihat, tapi hanya menampilkan “Awaiting audio input”
- Tautan API ini menghasilkan error 404. Di UI muncul sebagai error merah di kanan atas
- Kecepatannya mengejutkan sampai bisa mentranskripsikan bagian rap cepat Eminem secara real-time
Pengenalan bahasa Inggrisnya cukup bagus, tapi saat berbicara dalam bahasa Polandia malah dikenali sebagai bahasa Rusia atau Ukraina
Kalau ini perusahaan berbasis Eropa, menurutku dukungan untuk bahasa-bahasa utama Eropa seharusnya lebih baik
Saat aku mencampur bahasa Inggris dan Polandia, hasilnya benar-benar campur aduk
- Model ini memang secara jelas menyebut bahwa bahasa Polandia tidak didukung dan bahasa Rusia didukung
  Model ini mendukung 13 bahasa, dan aku penasaran bagaimana jumlah parameter atau kebutuhan data latih berubah jika ada banyak bahasa dengan akar yang mirip
- Sebaiknya pengujian dilakukan hanya dengan bahasa yang ada di daftar dukungan
- Agak disayangkan performanya bagus hanya di bahasa tertentu. Secara resmi hanya 13 bahasa yang didukung kuat
- Kalau bahasa Polandia dan Ukraina dicampur, hasilnya keluar sebagai bahasa Rusia. Bahkan saat hanya berbicara bahasa Ukraina, transkripsinya selalu jadi bahasa Rusia, jadi cukup mengecewakan
- Dari sisi struktur fonologis, bahasa Polandia sebenarnya lebih alami jika ditulis dengan alfabet Kiril, tapi karena alasan sejarah tidak demikian. Hal seperti ini tampaknya membingungkan AI
Angka word error rate 4% menurut FLEURS dan harga $0.003 per menit cukup mengesankan
Amazon Transcribe mengenakan $0.024 per menit, jadi selisihnya besar
- Tapi aku penasaran apakah harga ini dihitung per menit audio atau per menit komputasi
  Misalnya, Whisper API dari fal.ai menetapkan “$0.00125 per detik komputasi”, tapi diproses pada kecepatan 10~25x real-time jadi jauh lebih murah
Model ini adalah model multibahasa yang memahami 14 bahasa
Namun untuk sebagian besar use case, yang dibutuhkan hanya satu bahasa, jadi bahasa-bahasa lainnya mungkin hanya menambah latensi
Ke depannya sepertinya akan muncul tren memangkas bagian yang tidak perlu dari model serbaguna seperti ini
Makalah terkait bisa dilihat di sini
- Tapi karena ada banyak kata serapan antarbahasa, model multibahasa justru bisa membantu
  Contoh: “voila”, “el camino real”
- Model ini tampaknya membuktikan efisiensi dan akurasi sekaligus
- Layanan STT lama seperti Azure, Google, dan Amazon memang mengharuskan bahasa ditentukan, tapi kualitasnya tetap tinggi
  Hanya saja, secara internal tampaknya mereka juga memakai arsitektur berbasis LLM yang mirip
- Manusia tidak memakai hanya satu bahasa. Code-switching itu alami, jadi model satu bahasa punya keterbatasan
- Lucunya, komentar di atas ingin mengurangi jumlah bahasa, sementara komentar lain justru mengeluhkan bahasa yang didukung kurang banyak
Performanya kompetitif dibanding Deepgram nova-3, dan dalam banyak kasus lebih baik daripada Assembly atau ElevenLabs
Dalam pengujian internal, model ini dievaluasi dengan dataset panggilan 8kHz beraksen British yang kental, dan praktis berada di level SOTA
Hanya saja distribusi latensi-nya agak tidak stabil. Sepertinya akan membaik jika dijalankan secara lokal
Aku penasaran resource hardware seperti apa yang dibutuhkan
Tidak dijelaskan apakah butuh beberapa GPU NVIDIA kelas atas, atau bisa berjalan offline di perangkat berdaya rendah seperti ESP32
Aku penasaran apakah ini lebih baik daripada Nvidia Parakeet V3. Sejauh ini itulah model terbaik versi lokal menurut pengalamanku
- Aku sendiri mem-porting dan memakai Nemotron ASR, dan cukup puas
  Lihat tautan model, port inference, dan versi GGUF
- Aku pernah memakai Parakeet V3 secara lokal, dan menurut rasanya model ini sedikit lebih lambat tapi akurasi-nya lebih tinggi
- Aku suka Parakeet v3, tapi kadang ada masalah melewatkan satu kalimat utuh
- Parakeet berukuran 0.6B jadi bisa jalan di edge device. Voxtral berukuran 4B jadi tampaknya sulit berjalan real-time di Orin atau Hailo
- Aku juga datang untuk menanyakan hal yang sama!
Aku kira fitur diarization sudah bawaan, tapi ternyata tidak ada di versi real-time
Voxtral-Mini-4B-Realtime-2602 adalah model sekitar 9GB
- Fitur diarization hanya ada di versi Voxtral Mini Transcribe V2
Aku mencoba demonya, dan pengenalan bahasa Inggrisnya luar biasa, serta bisa mendeteksi pergantian bahasa secara real-time
Tapi bahasa Ukraina sama sekali tidak dikenali dan selalu ditranskripsikan sebagai bahasa Rusia
Model STT lain bisa menangani bahasa Ukraina dengan baik, jadi ini cukup disayangkan karena tampaknya data latihnya jauh lebih banyak untuk bahasa Rusia
- Karena model ini hanya mendukung bahasa Rusia, input bahasa Ukraina dipetakan ke kata bahasa Rusia yang paling dekat
Modelnya memang bagus, tapi versi sebelumnya tidak lebih unggul daripada Parakeet
Perlu ada perbandingan objektif dengan model-model terbaru seperti Qwen3-ASR
Benchmark pilihan perusahaan sekarang sudah sulit dipercaya
Untuk saat ini, untuk kebutuhanku Parakeet v3 masih yang paling cepat dan efisien
- Ada Open ASR Leaderboard, tapi sudah setengah tahun tidak diperbarui
- Aku juga suka Parakeet dan memakainya lewat aplikasi Handy di Mac.
  Aku penasaran aplikasi apa yang dipakai di ponsel

Model Voxtral Transcribe 2 diumumkan

Gambaran umum Voxtral Transcribe 2

Ringkasan fitur utama

Voxtral Realtime

Voxtral Mini Transcribe V2

Fitur enterprise

Audio playground

Berbagai kasus penggunaan

Penggunaan dan harga

Bacaan terkait

1 komentar

Komentar Hacker News