Cohere Transcribe - Model pengenalan suara open source SOTA

(cohere.com)

3 poin oleh GN⁺ 17 hari lalu | 2 komentar | Bagikan ke WhatsApp

Model automatic speech recognition (ASR) terbaru dengan 2B (2 miliar) parameter yang mendukung 14 bahasa, termasuk Inggris, Mandarin, dan Jepang
Menggunakan arsitektur encoder-decoder berbasis Conformer dan dirilis dengan lisensi Apache 2.0
Untuk bahasa Inggris, mencatat rata-rata word error rate (WER) 5.42%, melampaui model pesaing utama seperti Whisper Large v3, serta meraih peringkat 1 di Hugging Face Open ASR Leaderboard
Menunjukkan akurasi dan konsistensi tinggi baik dalam evaluasi dunia nyata maupun evaluasi manusia, serta mempertahankan performa stabil dalam transkripsi multibahasa
Mencapai latensi rendah dan efisiensi pemrosesan tinggi secara bersamaan, sehingga cocok untuk produk dan workflow real-time

Ikhtisar Cohere Transcribe

Suara kini muncul sebagai bentuk input utama untuk otomatisasi kerja berbasis AI, seperti pencatatan rapat, analisis suara, dan dukungan pelanggan real-time
Model ini dilatih dari nol dengan tujuan meminimalkan word error rate (WER), dan dirancang dengan mempertimbangkan penggunaan di lingkungan layanan nyata, bukan sekadar untuk riset
Inferensi dapat dijalankan secara efisien di GPU maupun lingkungan lokal, dan juga tersedia di platform inferensi terkelola milik Cohere, Model Vault
Mencapai peringkat 1 akurasi di Open ASR Leaderboard milik Hugging Face, sekaligus menetapkan standar baru untuk performa transkripsi di lingkungan nyata

Arsitektur model

Nama modelnya adalah cohere-transcribe-03-2026, menggunakan arsitektur encoder-decoder berbasis Conformer
- Input berupa gelombang audio yang dikonversi menjadi log-Mel spectrogram, dan output berupa teks hasil transkripsi
- Encoder Conformer besar berukuran 2B (2 miliar) parameter mengekstrak representasi akustik, lalu decoder Transformer ringan menghasilkan token
Dilatih dari nol dengan pembelajaran terawasi menggunakan standard cross-entropy loss
Mendukung 14 bahasa
- Eropa: Inggris, Prancis, Jerman, Italia, Spanyol, Portugis, Yunani, Belanda, Polandia
- Asia-Pasifik: Mandarin, Jepang, Korea, Vietnam
- Timur Tengah dan Afrika Utara: Arab
- Dirilis secara terbuka dengan lisensi Apache 2.0

Performa model

Mencapai standar terbaru dalam akurasi pengenalan suara bahasa Inggris, dengan rata-rata WER 5.42, performa terbaik di antara model ASR publik maupun tertutup
- Mengungguli model pesaing utama seperti Whisper Large v3, ElevenLabs Scribe v2, dan Qwen3-ASR-1.7B
Tetap tangguh di berbagai lingkungan nyata seperti multi-pembicara, akustik ruang rapat, dan beragam aksen
Hasil benchmark utama
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- Dengan rata-rata WER 5.42, lebih baik daripada Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52), dan NVIDIA Canary Qwen 2.5B (5.63)
Hugging Face Open ASR Leaderboard mengevaluasi dengan WER terstandarisasi di berbagai dataset, dan WER yang lebih rendah berarti akurasi transkripsi yang lebih tinggi

Hasil evaluasi manusia

Performa unggul yang sama juga dikonfirmasi dalam evaluasi dunia nyata di luar benchmark
- Evaluator berpengalaman menilai hasil transkripsi audio nyata berdasarkan akurasi, konsistensi, dan kegunaan
- Menunjukkan performa unggul yang konsisten baik dalam evaluasi otomatis maupun evaluasi manusia
Dalam evaluasi perbandingan kualitas transkripsi bahasa Inggris, model ini mendapat tingkat preferensi tinggi dalam pelestarian makna, pencegahan halusinasi, pengenalan nama diri, dan akurasi format
Dalam evaluasi manusia per bahasa yang didukung, model ini juga mencatat rasio preferensi di atas 50%, membuktikan performa stabil di lingkungan multibahasa

Kecepatan pemrosesan dan efisiensi

Dalam lingkungan layanan nyata, latensi dan throughput adalah kendala utama
- Meski akurasinya tinggi, model yang lambat atau boros sumber daya akan berdampak langsung pada pengalaman pengguna dan biaya
Cohere Transcribe mempertahankan efisiensi pemrosesan kelas atas di antara keluarga model 1B+ parameter, sekaligus mencapai WER rendah dan RTFx (kelipatan pemrosesan real-time) tinggi
RTFx adalah metrik yang menunjukkan seberapa cepat input audio diproses dibandingkan waktu nyata; Transcribe memperluas frontier Pareto baik dalam akurasi maupun kecepatan
Evaluasi dari Radical Ventures
- Wakil presiden Radical Ventures, Paige Dickie, memberikan penilaian tinggi terhadap kecepatan dan kualitas Transcribe
- Ia menyebut bahwa model ini “mentranskripsikan audio berdurasi beberapa menit hanya dalam hitungan detik, dan membuka kemungkinan baru untuk produk serta workflow real-time”
- Ia juga menilai kualitas transkripsinya kuat dan dapat diandalkan bahkan untuk percakapan sehari-hari, dengan pengalaman penggunaan yang mulus

Arah pengembangan selanjutnya

Cohere berencana mengintegrasikan Transcribe dengan North, platform orkestrasi AI agent miliknya
- Ke depannya, Transcribe direncanakan berkembang melampaui model transkripsi sederhana menjadi fondasi voice intelligence untuk enterprise

Penggunaan dan deployment

Model dapat diunduh dari Hugging Face, dan dapat dijalankan di lingkungan lokal maupun edge
Dapat diuji secara gratis melalui Cohere API, tetapi ada batas permintaan (rate limit)
- Panduan penggunaan dan integrasi tersedia di dokumentasi resmi
Dengan Model Vault, inferensi latensi rendah di private cloud dapat dilakukan tanpa mengelola infrastruktur
- Berlaku skema biaya instance per jam, dengan diskon untuk penggunaan jangka panjang
- Pertanyaan terkait deployment enterprise dapat dilakukan melalui tim penjualan Cohere

2 komentar

j2sus91 17 hari lalu

Jadi ini bukan open source, melainkan layanan berbayar?

GN⁺ 17 hari lalu

Pendapat Hacker News

Saya khawatir ASR (pengenalan ucapan otomatis) pada akhirnya akan menjadi seperti OCR
Jika AI besar multimodal cukup cepat dan punya pemahaman konteks yang dalam, rasanya semua teknik lama akan diserap habis
Di OCR juga, meski teks hasil pemindaian buram, AI bisa menebak makna dokumen dan mengenali pola seperti “ID pesanan biasanya ada di bawah tanggal pesanan”
Jika ASR juga mulai ‘menebak’ berdasarkan konteks seperti ini, ada risiko ucapan aslinya terdistorsi
- Ini punya sisi baik dan buruk
  ASR yang bagus bisa memahami suara berisik yang bahkan tidak bisa saya dengar dengan jelas, tetapi kadang terlalu banyak mengoreksi sehingga kata yang jarang muncul diganti menjadi kata yang umum
  Di OCR juga bisa muncul data yang kelihatannya masuk akal tetapi salah, seperti pada kasus Xerox
  Karena itu saya hanya memakai OCR untuk pencarian, dan selalu menyimpan hasil pindai aslinya
- Kenyataannya, arah perkembangannya memang sudah seperti itu
  LLM multimodal seperti gpt-4o-transcribe jauh lebih unggul daripada pengenalan ucapan biasa
  Kita bisa memasukkan istilah khusus perusahaan atau bagan organisasi ke dalam prompt, sehingga kalimat seperti “suruh Kaitlyn mereview PR” bisa dibedakan orangnya dengan akurat
  Dengan alat open-source untuk Mac yang saya buat, Anda bisa mencoba memakai kunci API OpenAI dan prompt kustom
- Saya tidak paham kenapa ini perlu dikhawatirkan
  Kalau teknologi berkembang, meski beberapa teknik hilang, bukankah pada akhirnya arahnya jadi lebih baik?
- ASR sudah terbukti berguna
  Sejak Whisper muncul, model pengenalan ucapan yang berjalan secara lokal meledak jumlahnya
  Contoh: superwhisper.com, carelesswhisper.app, macwhisper.com
- STT (ucapan→teks) sepertinya akan tetap lebih unggul untuk pemrosesan lokal selama beberapa waktu
  Jika diproses langsung di perangkat yang memiliki mikrofon, pemakaian bandwidth bisa dikurangi banyak dan mungkin tidak perlu mengirim data ke cloud
Agak disayangkan model ini tidak punya fitur timestamp atau pemisahan pembicara (diarization)
Saya penasaran apakah WhisperX masih menjadi pilihan terbaik untuk tujuan itu
- Bahkan di antara API komersial, hampir tidak ada yang mendukung pemisahan pembicara dan timestamp per kata secara stabil
  Google Chirp punya banyak masalah seperti segmen hilang, halusinasi (hallucination), dan timestamp yang tidak cocok
  AWS sedikit lebih baik, tetapi sinkronisasi per kata masih tidak stabil
  Whisper juga sering berhalusinasi, dan model baru OpenAI akurat tetapi tidak mendukung timestamp
  Pada akhirnya ini bisa diatasi lewat pascapemrosesan, tetapi rasanya akan menyenangkan jika ada API yang bisa langsung dipakai dengan percaya diri
- WhisperX bukan model, melainkan paket perangkat lunak yang menggabungkan Whisper dengan model-model lain
  Versi terintegrasi untuk Cohere Transcribe sepertinya akan segera muncul
- Saya merekomendasikan Qwen-ASR
  Di bagian bawah halaman ada contoh yang menyertakan timestamp
- Mistral Voxtral mendukung timestamp dan pemisahan pembicara, serta menunjukkan performa yang bagus dalam bahasa Jerman
- Ada juga whisper-timestamped
  Ini memakai bobot cross-attention milik Whisper untuk penyelarasan dengan Dynamic Time Warping tanpa model tambahan
Saya sangat puas dengan layanan Cohere
Beberapa bulan lalu saya pindah ke model clip-style embedding, dan sejauh ini itu punya latensi P50 paling stabil di antara layanan eksternal yang pernah saya pakai
- Saya penasaran bagaimana kualitas keseluruhannya
  Model Cohere biasanya cenderung kecil dan performanya lebih rendah
Banyak model STT hanya dilatih dengan ucapan berpelafalan sempurna, sehingga lemah terhadap aksen asing
Sebagai orang dengan aksen Inggris bergaya Prancis, saya benar-benar ingin menguji model ini
Sampai sekarang, yang paling bagus untuk aplikasi belajar bahasa saya (Copycat Cafe) adalah Soniox, sedangkan model berbasis Whisper justru cenderung menghasilkan kalimat halusinasi
Saya mengujinya dengan dataset internal kami (250 ucapan kode pos Inggris), dan hasilnya cukup kompetitif
Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, dan Speechmatics sekitar 54%
- Di compare-stt.com, katanya Gladia menempati peringkat 1 dalam uji buta
- Untuk rendering tabel, cukup beri dua baris kosong di antara baris-barisnya
- Saya penasaran apakah patokan manusia itu 248/248
Disayangkan model ini tidak mendukung kamus kata kustom, word boosting, atau penambahan prompt
Kemungkinan ini hanyalah model ASR yang berfokus pada benchmark lagi
Saya mengunggah hasil edit siaran Twitch ke YouTube dan membuat subtitle dengan Whisper-large-v3
Syarat ASR yang bagus adalah
1. dukungan timestamp
2. pengenalan pembicara simultan
3. transkripsi yang akurat
4. menyertakan ekspresi nonverbal seperti [batuk], [tertawa]
5. bisa menyuntikkan konteks lebih dari 10 ribu kata
  Dengan WhisperX, transkripsi bisa selesai dalam 5 menit, tetapi masalah terbesarnya tetap ada kalimat yang terlewat
- Poin 3 dan 4 justru bisa menjadi fitur yang tidak perlu bagi sebagian besar pelanggan
Kalau disebut open-source, saya penasaran apakah yang tersedia itu kode sumbernya, atau hanya bobot modelnya saja
- Anda bisa mengunduh file dari Hugging Face,
  dan ada juga versi hasil konversi ONNX sehingga bisa dijalankan di CPU
- Dalam kebanyakan kasus, “open-source” berarti bobotnya dibuka
  Melatih model itu terlalu mahal, jadi membagikan hasil akhirnya saja sudah cukup berguna
- Mungkin yang dimaksud memang merujuk ke modelnya sendiri
Saya penasaran apakah model ini benar-benar SOTA di kelas ukurannya
Saya ingin tahu apakah ini lebih baik daripada Parakeet
- Jika melihat leaderboard ASR Hugging Face,
  Parakeet (0.6B) memang cepat, tetapi dari sisi WER hanya berada kira-kira di peringkat 10 besar
- Model Cohere punya 2B parameter sehingga lebih besar daripada Parakeet (0.6B, 1.1B), dan di benchmark juga menunjukkan performa yang lebih baik
Dulu saya pernah memakai Dragon Dictate, tetapi pelatihannya lama dan hasilnya juga kurang bagus
Baru-baru ini saya melakukan wawancara podcast, dan Apple Podcasts otomatis membuat transkripsi AI
Tidak banyak kesalahan, tetapi yang paling mengganggu adalah tidak ada pemisahan pembicara
- Pada masa itu, bahkan ada perangkat lunak pengenalan ucapan yang bisa berjalan dengan RAM 64MB
  Waktu kecil saya mengunduh terlalu banyak shareware TTS/pengenalan ucapan seperti itu

Cohere Transcribe - Model pengenalan suara open source SOTA

Ikhtisar Cohere Transcribe

Arsitektur model

Mendukung 14 bahasa

Performa model

Hasil evaluasi manusia

Kecepatan pemrosesan dan efisiensi

Evaluasi dari Radical Ventures

Arah pengembangan selanjutnya

Penggunaan dan deployment

Bacaan terkait

2 komentar

Pendapat Hacker News