13 poin oleh GN⁺ 2026-02-05 | 1 komentar | Bagikan ke WhatsApp
  • Model speech-to-text generasi berikutnya dengan fitur pengenalan ucapan real-time berlatensi ultra-rendah dan pemisahan pembicara berpresisi tinggi
  • Terdiri dari dua model: Voxtral Mini Transcribe V2 untuk pemrosesan batch, dan Voxtral Realtime dengan arsitektur untuk aplikasi real-time
  • Model Realtime memproses audio secara streaming dengan latensi di bawah 200 ms dan dirilis sebagai open weights Apache 2.0
  • Mini Transcribe V2 mendukung 13 bahasa termasuk bahasa Korea, serta menyediakan fitur enterprise seperti timestamp per kata, context biasing, dan pemisahan pembicara
  • Kedua model mendukung deployment yang patuh GDPR dan HIPAA, serta secara signifikan meningkatkan akurasi, kecepatan, dan efisiensi biaya aplikasi berbasis suara

Gambaran umum Voxtral Transcribe 2

  • Voxtral Transcribe 2 terdiri dari dua model yang menonjol dalam kualitas pengenalan ucapan mutakhir, speaker diarization presisi, dan pemrosesan berlatensi ultra-rendah
    • Voxtral Mini Transcribe V2: untuk transkripsi batch
    • Voxtral Realtime: untuk aplikasi real-time
  • Model Realtime dirilis di bawah lisensi Apache 2.0, sehingga dapat di-deploy bahkan di lingkungan edge
  • Pengujian transkripsi dapat langsung dilakukan melalui audio playground di Mistral Studio

Ringkasan fitur utama

  • Voxtral Mini Transcribe V2: mendukung 13 bahasa, pemisahan pembicara, context biasing, dan timestamp per kata
  • Voxtral Realtime: memungkinkan transkripsi real-time dengan latensi di bawah 200 ms, cocok untuk agen suara dan aplikasi real-time
  • Efisiensi: menghadirkan akurasi kelas atas dengan biaya terendah di industri
  • Open weights: model Realtime dirilis di bawah Apache 2.0 untuk deployment yang berfokus pada privasi

Voxtral Realtime

  • Model yang dirancang untuk aplikasi yang mengutamakan latensi, melakukan transkripsi real-time dengan arsitektur streaming alih-alih memproses audio per chunk
  • Dapat dikonfigurasi pada latensi di bawah 200 ms, mencapai akurasi setara model batch pada latensi 2,4 detik, dan mempertahankan tingkat kesalahan 1–2% pada latensi 480 ms
  • Mendukung 13 bahasa (Inggris, Mandarin, Hindi, Spanyol, Arab, Prancis, Portugis, Rusia, Jerman, Jepang, Korea, Italia, Belanda)
  • Dengan skala 4B parameter, model ini berjalan efisien di perangkat edge sekaligus menjaga keamanan dan privasi
  • Bobot model tersedia di Hugging Face Hub

Voxtral Mini Transcribe V2

  • Kualitas transkripsi dan pemisahan pembicara meningkat secara signifikan di berbagai bahasa dan domain
  • Menawarkan word error rate sekitar 4% pada benchmark FLEURS, serta price-performance terbaik dengan biaya $0.003/menit
  • Lebih akurat daripada GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, dan Deepgram Nova; 3 kali lebih cepat daripada ElevenLabs Scribe v2 dengan biaya hanya 1/5-nya

Fitur enterprise

  • Speaker diarization: membedakan pembicara dan menandai waktu mulai/selesai, cocok untuk rapat, wawancara, dan panggilan multi-pihak
  • Context biasing: dapat menetapkan hingga 100 kata/frasa untuk meningkatkan pengenalan nama khusus dan istilah teknis (dioptimalkan untuk bahasa Inggris, eksperimental untuk bahasa lain)
  • Timestamp per kata: berguna untuk pembuatan subtitle, pencarian audio, dan penyelarasan konten
  • Dukungan bahasa yang diperluas: mendukung 13 bahasa, dengan performa unggul dibanding model pesaing bahkan untuk bahasa non-Inggris
  • Ketahanan terhadap noise: tetap menjaga akurasi di lingkungan bising seperti pabrik dan call center
  • Pemrosesan audio berdurasi panjang: dapat menangani file rekaman hingga 3 jam dalam satu permintaan

Audio playground

  • Mistral Studio memungkinkan pengujian langsung Voxtral Transcribe 2
  • Mendukung unggah hingga 10 file audio, serta pengaturan speaker diarization, unit timestamp, dan context biasing
  • Format yang didukung: .mp3, .wav, .m4a, .flac, .ogg, maksimum 1 GB per file

Berbagai kasus penggunaan

  • Meeting intelligence: memungkinkan analisis data rapat skala besar melalui transkripsi rapat multibahasa dan pemisahan pembicara
  • Agen suara dan asisten virtual: menghadirkan antarmuka percakapan yang alami dengan latensi di bawah 200 ms
  • Otomatisasi contact center: mendukung analisis sentimen, saran respons, dan pengisian CRM otomatis melalui transkripsi panggilan real-time
  • Media dan penyiaran: pembuatan subtitle multibahasa secara real-time serta peningkatan pengenalan nama khusus dan istilah teknis
  • Kepatuhan regulasi dan dokumentasi: memungkinkan audit trail berbasis timestamp per pembicara
  • Kedua model mendukung deployment yang patuh GDPR dan HIPAA, dan dapat dijalankan dengan aman di lingkungan on-premises atau private cloud

Penggunaan dan harga

  • Voxtral Mini Transcribe V2: $0.003/menit melalui API, tersedia di Mistral Studio atau Le Chat
  • Voxtral Realtime: $0.006/menit melalui API, dengan open weights tersedia di Hugging Face
  • Informasi tambahan tersedia melalui dokumentasi audio dan transkripsi milik Mistral

1 komentar

 
GN⁺ 2026-02-05
Komentar Hacker News
  • Demo ini benar-benar mengesankan
    Meski tertulis tidak ada mikrofon, saat tombol rekam ditekan browser langsung meminta izin dan segera berfungsi
    Bahkan saat berbicara cepat dan mencampur istilah teknis, transkripsinya tetap akurat. Ejaan WebAssembly pun sempurna

    • Selama 3 tahun terakhir aku sudah mencoba hampir semua model suara, dan ini jelas yang terbaik yang pernah kulihat sejauh ini
      Ditambah lagi ini open weight, benar-benar patut disyukuri
    • Terima kasih untuk tautannya. Playground bawaan Mistral hanya mendukung unggah file jadi sulit merasakan kecepatan dan akurasinya, tapi tautan ini benar-benar menunjukkan performa real-time
      Aku bahkan mencoba bicara dalam dua bahasa sekaligus dan tetap dikenali dengan akurat. Benar-benar mengejutkan
    • Di lingkunganku ini tidak berfungsi. Di Firefox maupun Chromium gelombangnya terlihat, tapi hanya menampilkan “Awaiting audio input”
    • Tautan API ini menghasilkan error 404. Di UI muncul sebagai error merah di kanan atas
    • Kecepatannya mengejutkan sampai bisa mentranskripsikan bagian rap cepat Eminem secara real-time
  • Pengenalan bahasa Inggrisnya cukup bagus, tapi saat berbicara dalam bahasa Polandia malah dikenali sebagai bahasa Rusia atau Ukraina
    Kalau ini perusahaan berbasis Eropa, menurutku dukungan untuk bahasa-bahasa utama Eropa seharusnya lebih baik
    Saat aku mencampur bahasa Inggris dan Polandia, hasilnya benar-benar campur aduk

    • Model ini memang secara jelas menyebut bahwa bahasa Polandia tidak didukung dan bahasa Rusia didukung
      Model ini mendukung 13 bahasa, dan aku penasaran bagaimana jumlah parameter atau kebutuhan data latih berubah jika ada banyak bahasa dengan akar yang mirip
    • Sebaiknya pengujian dilakukan hanya dengan bahasa yang ada di daftar dukungan
    • Agak disayangkan performanya bagus hanya di bahasa tertentu. Secara resmi hanya 13 bahasa yang didukung kuat
    • Kalau bahasa Polandia dan Ukraina dicampur, hasilnya keluar sebagai bahasa Rusia. Bahkan saat hanya berbicara bahasa Ukraina, transkripsinya selalu jadi bahasa Rusia, jadi cukup mengecewakan
    • Dari sisi struktur fonologis, bahasa Polandia sebenarnya lebih alami jika ditulis dengan alfabet Kiril, tapi karena alasan sejarah tidak demikian. Hal seperti ini tampaknya membingungkan AI
  • Angka word error rate 4% menurut FLEURS dan harga $0.003 per menit cukup mengesankan
    Amazon Transcribe mengenakan $0.024 per menit, jadi selisihnya besar

    • Tapi aku penasaran apakah harga ini dihitung per menit audio atau per menit komputasi
      Misalnya, Whisper API dari fal.ai menetapkan “$0.00125 per detik komputasi”, tapi diproses pada kecepatan 10~25x real-time jadi jauh lebih murah
  • Model ini adalah model multibahasa yang memahami 14 bahasa
    Namun untuk sebagian besar use case, yang dibutuhkan hanya satu bahasa, jadi bahasa-bahasa lainnya mungkin hanya menambah latensi
    Ke depannya sepertinya akan muncul tren memangkas bagian yang tidak perlu dari model serbaguna seperti ini
    Makalah terkait bisa dilihat di sini

    • Tapi karena ada banyak kata serapan antarbahasa, model multibahasa justru bisa membantu
      Contoh: “voila”, “el camino real”
    • Model ini tampaknya membuktikan efisiensi dan akurasi sekaligus
    • Layanan STT lama seperti Azure, Google, dan Amazon memang mengharuskan bahasa ditentukan, tapi kualitasnya tetap tinggi
      Hanya saja, secara internal tampaknya mereka juga memakai arsitektur berbasis LLM yang mirip
    • Manusia tidak memakai hanya satu bahasa. Code-switching itu alami, jadi model satu bahasa punya keterbatasan
    • Lucunya, komentar di atas ingin mengurangi jumlah bahasa, sementara komentar lain justru mengeluhkan bahasa yang didukung kurang banyak
  • Performanya kompetitif dibanding Deepgram nova-3, dan dalam banyak kasus lebih baik daripada Assembly atau ElevenLabs
    Dalam pengujian internal, model ini dievaluasi dengan dataset panggilan 8kHz beraksen British yang kental, dan praktis berada di level SOTA
    Hanya saja distribusi latensi-nya agak tidak stabil. Sepertinya akan membaik jika dijalankan secara lokal

  • Aku penasaran resource hardware seperti apa yang dibutuhkan
    Tidak dijelaskan apakah butuh beberapa GPU NVIDIA kelas atas, atau bisa berjalan offline di perangkat berdaya rendah seperti ESP32

  • Aku penasaran apakah ini lebih baik daripada Nvidia Parakeet V3. Sejauh ini itulah model terbaik versi lokal menurut pengalamanku

    • Aku sendiri mem-porting dan memakai Nemotron ASR, dan cukup puas
      Lihat tautan model, port inference, dan versi GGUF
    • Aku pernah memakai Parakeet V3 secara lokal, dan menurut rasanya model ini sedikit lebih lambat tapi akurasi-nya lebih tinggi
    • Aku suka Parakeet v3, tapi kadang ada masalah melewatkan satu kalimat utuh
    • Parakeet berukuran 0.6B jadi bisa jalan di edge device. Voxtral berukuran 4B jadi tampaknya sulit berjalan real-time di Orin atau Hailo
    • Aku juga datang untuk menanyakan hal yang sama!
  • Aku kira fitur diarization sudah bawaan, tapi ternyata tidak ada di versi real-time
    Voxtral-Mini-4B-Realtime-2602 adalah model sekitar 9GB

    • Fitur diarization hanya ada di versi Voxtral Mini Transcribe V2
  • Aku mencoba demonya, dan pengenalan bahasa Inggrisnya luar biasa, serta bisa mendeteksi pergantian bahasa secara real-time
    Tapi bahasa Ukraina sama sekali tidak dikenali dan selalu ditranskripsikan sebagai bahasa Rusia
    Model STT lain bisa menangani bahasa Ukraina dengan baik, jadi ini cukup disayangkan karena tampaknya data latihnya jauh lebih banyak untuk bahasa Rusia

    • Karena model ini hanya mendukung bahasa Rusia, input bahasa Ukraina dipetakan ke kata bahasa Rusia yang paling dekat
  • Modelnya memang bagus, tapi versi sebelumnya tidak lebih unggul daripada Parakeet
    Perlu ada perbandingan objektif dengan model-model terbaru seperti Qwen3-ASR
    Benchmark pilihan perusahaan sekarang sudah sulit dipercaya
    Untuk saat ini, untuk kebutuhanku Parakeet v3 masih yang paling cepat dan efisien

    • Ada Open ASR Leaderboard, tapi sudah setengah tahun tidak diperbarui
    • Aku juga suka Parakeet dan memakainya lewat aplikasi Handy di Mac.
      Aku penasaran aplikasi apa yang dipakai di ponsel