- Model automatic speech recognition (ASR) terbaru dengan 2B (2 miliar) parameter yang mendukung 14 bahasa, termasuk Inggris, Mandarin, dan Jepang
- Menggunakan arsitektur encoder-decoder berbasis Conformer dan dirilis dengan lisensi Apache 2.0
- Untuk bahasa Inggris, mencatat rata-rata word error rate (WER) 5.42%, melampaui model pesaing utama seperti Whisper Large v3, serta meraih peringkat 1 di Hugging Face Open ASR Leaderboard
- Menunjukkan akurasi dan konsistensi tinggi baik dalam evaluasi dunia nyata maupun evaluasi manusia, serta mempertahankan performa stabil dalam transkripsi multibahasa
- Mencapai latensi rendah dan efisiensi pemrosesan tinggi secara bersamaan, sehingga cocok untuk produk dan workflow real-time
Ikhtisar Cohere Transcribe
- Suara kini muncul sebagai bentuk input utama untuk otomatisasi kerja berbasis AI, seperti pencatatan rapat, analisis suara, dan dukungan pelanggan real-time
- Model ini dilatih dari nol dengan tujuan meminimalkan word error rate (WER), dan dirancang dengan mempertimbangkan penggunaan di lingkungan layanan nyata, bukan sekadar untuk riset
- Inferensi dapat dijalankan secara efisien di GPU maupun lingkungan lokal, dan juga tersedia di platform inferensi terkelola milik Cohere, Model Vault
- Mencapai peringkat 1 akurasi di Open ASR Leaderboard milik Hugging Face, sekaligus menetapkan standar baru untuk performa transkripsi di lingkungan nyata
Arsitektur model
- Nama modelnya adalah cohere-transcribe-03-2026, menggunakan arsitektur encoder-decoder berbasis Conformer
- Input berupa gelombang audio yang dikonversi menjadi log-Mel spectrogram, dan output berupa teks hasil transkripsi
- Encoder Conformer besar berukuran 2B (2 miliar) parameter mengekstrak representasi akustik, lalu decoder Transformer ringan menghasilkan token
- Dilatih dari nol dengan pembelajaran terawasi menggunakan standard cross-entropy loss
-
Mendukung 14 bahasa
- Eropa: Inggris, Prancis, Jerman, Italia, Spanyol, Portugis, Yunani, Belanda, Polandia
- Asia-Pasifik: Mandarin, Jepang, Korea, Vietnam
- Timur Tengah dan Afrika Utara: Arab
- Dirilis secara terbuka dengan lisensi Apache 2.0
Performa model
- Mencapai standar terbaru dalam akurasi pengenalan suara bahasa Inggris, dengan rata-rata WER 5.42, performa terbaik di antara model ASR publik maupun tertutup
- Mengungguli model pesaing utama seperti Whisper Large v3, ElevenLabs Scribe v2, dan Qwen3-ASR-1.7B
- Tetap tangguh di berbagai lingkungan nyata seperti multi-pembicara, akustik ruang rapat, dan beragam aksen
- Hasil benchmark utama
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- Dengan rata-rata WER 5.42, lebih baik daripada Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52), dan NVIDIA Canary Qwen 2.5B (5.63)
- Hugging Face Open ASR Leaderboard mengevaluasi dengan WER terstandarisasi di berbagai dataset, dan WER yang lebih rendah berarti akurasi transkripsi yang lebih tinggi
Hasil evaluasi manusia
- Performa unggul yang sama juga dikonfirmasi dalam evaluasi dunia nyata di luar benchmark
- Evaluator berpengalaman menilai hasil transkripsi audio nyata berdasarkan akurasi, konsistensi, dan kegunaan
- Menunjukkan performa unggul yang konsisten baik dalam evaluasi otomatis maupun evaluasi manusia
- Dalam evaluasi perbandingan kualitas transkripsi bahasa Inggris, model ini mendapat tingkat preferensi tinggi dalam pelestarian makna, pencegahan halusinasi, pengenalan nama diri, dan akurasi format
- Dalam evaluasi manusia per bahasa yang didukung, model ini juga mencatat rasio preferensi di atas 50%, membuktikan performa stabil di lingkungan multibahasa
Kecepatan pemrosesan dan efisiensi
- Dalam lingkungan layanan nyata, latensi dan throughput adalah kendala utama
- Meski akurasinya tinggi, model yang lambat atau boros sumber daya akan berdampak langsung pada pengalaman pengguna dan biaya
- Cohere Transcribe mempertahankan efisiensi pemrosesan kelas atas di antara keluarga model 1B+ parameter, sekaligus mencapai WER rendah dan RTFx (kelipatan pemrosesan real-time) tinggi
- RTFx adalah metrik yang menunjukkan seberapa cepat input audio diproses dibandingkan waktu nyata; Transcribe memperluas frontier Pareto baik dalam akurasi maupun kecepatan
-
Evaluasi dari Radical Ventures
- Wakil presiden Radical Ventures, Paige Dickie, memberikan penilaian tinggi terhadap kecepatan dan kualitas Transcribe
- Ia menyebut bahwa model ini “mentranskripsikan audio berdurasi beberapa menit hanya dalam hitungan detik, dan membuka kemungkinan baru untuk produk serta workflow real-time”
- Ia juga menilai kualitas transkripsinya kuat dan dapat diandalkan bahkan untuk percakapan sehari-hari, dengan pengalaman penggunaan yang mulus
Arah pengembangan selanjutnya
- Cohere berencana mengintegrasikan Transcribe dengan North, platform orkestrasi AI agent miliknya
- Ke depannya, Transcribe direncanakan berkembang melampaui model transkripsi sederhana menjadi fondasi voice intelligence untuk enterprise
Penggunaan dan deployment
- Model dapat diunduh dari Hugging Face, dan dapat dijalankan di lingkungan lokal maupun edge
- Dapat diuji secara gratis melalui Cohere API, tetapi ada batas permintaan (rate limit)
- Panduan penggunaan dan integrasi tersedia di dokumentasi resmi
- Dengan Model Vault, inferensi latensi rendah di private cloud dapat dilakukan tanpa mengelola infrastruktur
- Berlaku skema biaya instance per jam, dengan diskon untuk penggunaan jangka panjang
- Pertanyaan terkait deployment enterprise dapat dilakukan melalui tim penjualan Cohere
2 komentar
Jadi ini bukan open source, melainkan layanan berbayar?
Pendapat Hacker News
Saya khawatir ASR (pengenalan ucapan otomatis) pada akhirnya akan menjadi seperti OCR
Jika AI besar multimodal cukup cepat dan punya pemahaman konteks yang dalam, rasanya semua teknik lama akan diserap habis
Di OCR juga, meski teks hasil pemindaian buram, AI bisa menebak makna dokumen dan mengenali pola seperti “ID pesanan biasanya ada di bawah tanggal pesanan”
Jika ASR juga mulai ‘menebak’ berdasarkan konteks seperti ini, ada risiko ucapan aslinya terdistorsi
ASR yang bagus bisa memahami suara berisik yang bahkan tidak bisa saya dengar dengan jelas, tetapi kadang terlalu banyak mengoreksi sehingga kata yang jarang muncul diganti menjadi kata yang umum
Di OCR juga bisa muncul data yang kelihatannya masuk akal tetapi salah, seperti pada kasus Xerox
Karena itu saya hanya memakai OCR untuk pencarian, dan selalu menyimpan hasil pindai aslinya
LLM multimodal seperti gpt-4o-transcribe jauh lebih unggul daripada pengenalan ucapan biasa
Kita bisa memasukkan istilah khusus perusahaan atau bagan organisasi ke dalam prompt, sehingga kalimat seperti “suruh Kaitlyn mereview PR” bisa dibedakan orangnya dengan akurat
Dengan alat open-source untuk Mac yang saya buat, Anda bisa mencoba memakai kunci API OpenAI dan prompt kustom
Kalau teknologi berkembang, meski beberapa teknik hilang, bukankah pada akhirnya arahnya jadi lebih baik?
Sejak Whisper muncul, model pengenalan ucapan yang berjalan secara lokal meledak jumlahnya
Contoh: superwhisper.com, carelesswhisper.app, macwhisper.com
Jika diproses langsung di perangkat yang memiliki mikrofon, pemakaian bandwidth bisa dikurangi banyak dan mungkin tidak perlu mengirim data ke cloud
Agak disayangkan model ini tidak punya fitur timestamp atau pemisahan pembicara (diarization)
Saya penasaran apakah WhisperX masih menjadi pilihan terbaik untuk tujuan itu
Google Chirp punya banyak masalah seperti segmen hilang, halusinasi (hallucination), dan timestamp yang tidak cocok
AWS sedikit lebih baik, tetapi sinkronisasi per kata masih tidak stabil
Whisper juga sering berhalusinasi, dan model baru OpenAI akurat tetapi tidak mendukung timestamp
Pada akhirnya ini bisa diatasi lewat pascapemrosesan, tetapi rasanya akan menyenangkan jika ada API yang bisa langsung dipakai dengan percaya diri
Versi terintegrasi untuk Cohere Transcribe sepertinya akan segera muncul
Di bagian bawah halaman ada contoh yang menyertakan timestamp
Ini memakai bobot cross-attention milik Whisper untuk penyelarasan dengan Dynamic Time Warping tanpa model tambahan
Saya sangat puas dengan layanan Cohere
Beberapa bulan lalu saya pindah ke model clip-style embedding, dan sejauh ini itu punya latensi P50 paling stabil di antara layanan eksternal yang pernah saya pakai
Model Cohere biasanya cenderung kecil dan performanya lebih rendah
Banyak model STT hanya dilatih dengan ucapan berpelafalan sempurna, sehingga lemah terhadap aksen asing
Sebagai orang dengan aksen Inggris bergaya Prancis, saya benar-benar ingin menguji model ini
Sampai sekarang, yang paling bagus untuk aplikasi belajar bahasa saya (Copycat Cafe) adalah Soniox, sedangkan model berbasis Whisper justru cenderung menghasilkan kalimat halusinasi
Saya mengujinya dengan dataset internal kami (250 ucapan kode pos Inggris), dan hasilnya cukup kompetitif
Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, dan Speechmatics sekitar 54%
Disayangkan model ini tidak mendukung kamus kata kustom, word boosting, atau penambahan prompt
Kemungkinan ini hanyalah model ASR yang berfokus pada benchmark lagi
Saya mengunggah hasil edit siaran Twitch ke YouTube dan membuat subtitle dengan Whisper-large-v3
Syarat ASR yang bagus adalah
Dengan WhisperX, transkripsi bisa selesai dalam 5 menit, tetapi masalah terbesarnya tetap ada kalimat yang terlewat
Kalau disebut open-source, saya penasaran apakah yang tersedia itu kode sumbernya, atau hanya bobot modelnya saja
dan ada juga versi hasil konversi ONNX sehingga bisa dijalankan di CPU
Melatih model itu terlalu mahal, jadi membagikan hasil akhirnya saja sudah cukup berguna
Saya penasaran apakah model ini benar-benar SOTA di kelas ukurannya
Saya ingin tahu apakah ini lebih baik daripada Parakeet
Parakeet (0.6B) memang cepat, tetapi dari sisi WER hanya berada kira-kira di peringkat 10 besar
Dulu saya pernah memakai Dragon Dictate, tetapi pelatihannya lama dan hasilnya juga kurang bagus
Baru-baru ini saya melakukan wawancara podcast, dan Apple Podcasts otomatis membuat transkripsi AI
Tidak banyak kesalahan, tetapi yang paling mengganggu adalah tidak ada pemisahan pembicara
Waktu kecil saya mengunduh terlalu banyak shareware TTS/pengenalan ucapan seperti itu