3 poin oleh GN⁺ 17 hari lalu | 2 komentar | Bagikan ke WhatsApp
  • Model automatic speech recognition (ASR) terbaru dengan 2B (2 miliar) parameter yang mendukung 14 bahasa, termasuk Inggris, Mandarin, dan Jepang
  • Menggunakan arsitektur encoder-decoder berbasis Conformer dan dirilis dengan lisensi Apache 2.0
  • Untuk bahasa Inggris, mencatat rata-rata word error rate (WER) 5.42%, melampaui model pesaing utama seperti Whisper Large v3, serta meraih peringkat 1 di Hugging Face Open ASR Leaderboard
  • Menunjukkan akurasi dan konsistensi tinggi baik dalam evaluasi dunia nyata maupun evaluasi manusia, serta mempertahankan performa stabil dalam transkripsi multibahasa
  • Mencapai latensi rendah dan efisiensi pemrosesan tinggi secara bersamaan, sehingga cocok untuk produk dan workflow real-time

Ikhtisar Cohere Transcribe

  • Suara kini muncul sebagai bentuk input utama untuk otomatisasi kerja berbasis AI, seperti pencatatan rapat, analisis suara, dan dukungan pelanggan real-time
  • Model ini dilatih dari nol dengan tujuan meminimalkan word error rate (WER), dan dirancang dengan mempertimbangkan penggunaan di lingkungan layanan nyata, bukan sekadar untuk riset
  • Inferensi dapat dijalankan secara efisien di GPU maupun lingkungan lokal, dan juga tersedia di platform inferensi terkelola milik Cohere, Model Vault
  • Mencapai peringkat 1 akurasi di Open ASR Leaderboard milik Hugging Face, sekaligus menetapkan standar baru untuk performa transkripsi di lingkungan nyata

Arsitektur model

  • Nama modelnya adalah cohere-transcribe-03-2026, menggunakan arsitektur encoder-decoder berbasis Conformer
    • Input berupa gelombang audio yang dikonversi menjadi log-Mel spectrogram, dan output berupa teks hasil transkripsi
    • Encoder Conformer besar berukuran 2B (2 miliar) parameter mengekstrak representasi akustik, lalu decoder Transformer ringan menghasilkan token
  • Dilatih dari nol dengan pembelajaran terawasi menggunakan standard cross-entropy loss
  • Mendukung 14 bahasa

    • Eropa: Inggris, Prancis, Jerman, Italia, Spanyol, Portugis, Yunani, Belanda, Polandia
    • Asia-Pasifik: Mandarin, Jepang, Korea, Vietnam
    • Timur Tengah dan Afrika Utara: Arab
    • Dirilis secara terbuka dengan lisensi Apache 2.0

Performa model

  • Mencapai standar terbaru dalam akurasi pengenalan suara bahasa Inggris, dengan rata-rata WER 5.42, performa terbaik di antara model ASR publik maupun tertutup
    • Mengungguli model pesaing utama seperti Whisper Large v3, ElevenLabs Scribe v2, dan Qwen3-ASR-1.7B
  • Tetap tangguh di berbagai lingkungan nyata seperti multi-pembicara, akustik ruang rapat, dan beragam aksen
  • Hasil benchmark utama
    • AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
    • Dengan rata-rata WER 5.42, lebih baik daripada Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52), dan NVIDIA Canary Qwen 2.5B (5.63)
  • Hugging Face Open ASR Leaderboard mengevaluasi dengan WER terstandarisasi di berbagai dataset, dan WER yang lebih rendah berarti akurasi transkripsi yang lebih tinggi

Hasil evaluasi manusia

  • Performa unggul yang sama juga dikonfirmasi dalam evaluasi dunia nyata di luar benchmark
    • Evaluator berpengalaman menilai hasil transkripsi audio nyata berdasarkan akurasi, konsistensi, dan kegunaan
    • Menunjukkan performa unggul yang konsisten baik dalam evaluasi otomatis maupun evaluasi manusia
  • Dalam evaluasi perbandingan kualitas transkripsi bahasa Inggris, model ini mendapat tingkat preferensi tinggi dalam pelestarian makna, pencegahan halusinasi, pengenalan nama diri, dan akurasi format
  • Dalam evaluasi manusia per bahasa yang didukung, model ini juga mencatat rasio preferensi di atas 50%, membuktikan performa stabil di lingkungan multibahasa

Kecepatan pemrosesan dan efisiensi

  • Dalam lingkungan layanan nyata, latensi dan throughput adalah kendala utama
    • Meski akurasinya tinggi, model yang lambat atau boros sumber daya akan berdampak langsung pada pengalaman pengguna dan biaya
  • Cohere Transcribe mempertahankan efisiensi pemrosesan kelas atas di antara keluarga model 1B+ parameter, sekaligus mencapai WER rendah dan RTFx (kelipatan pemrosesan real-time) tinggi
  • RTFx adalah metrik yang menunjukkan seberapa cepat input audio diproses dibandingkan waktu nyata; Transcribe memperluas frontier Pareto baik dalam akurasi maupun kecepatan
  • Evaluasi dari Radical Ventures

    • Wakil presiden Radical Ventures, Paige Dickie, memberikan penilaian tinggi terhadap kecepatan dan kualitas Transcribe
    • Ia menyebut bahwa model ini “mentranskripsikan audio berdurasi beberapa menit hanya dalam hitungan detik, dan membuka kemungkinan baru untuk produk serta workflow real-time”
    • Ia juga menilai kualitas transkripsinya kuat dan dapat diandalkan bahkan untuk percakapan sehari-hari, dengan pengalaman penggunaan yang mulus

Arah pengembangan selanjutnya

  • Cohere berencana mengintegrasikan Transcribe dengan North, platform orkestrasi AI agent miliknya
    • Ke depannya, Transcribe direncanakan berkembang melampaui model transkripsi sederhana menjadi fondasi voice intelligence untuk enterprise

Penggunaan dan deployment

  • Model dapat diunduh dari Hugging Face, dan dapat dijalankan di lingkungan lokal maupun edge
  • Dapat diuji secara gratis melalui Cohere API, tetapi ada batas permintaan (rate limit)
    • Panduan penggunaan dan integrasi tersedia di dokumentasi resmi
  • Dengan Model Vault, inferensi latensi rendah di private cloud dapat dilakukan tanpa mengelola infrastruktur
    • Berlaku skema biaya instance per jam, dengan diskon untuk penggunaan jangka panjang
    • Pertanyaan terkait deployment enterprise dapat dilakukan melalui tim penjualan Cohere

2 komentar

 
j2sus91 17 hari lalu

Jadi ini bukan open source, melainkan layanan berbayar?

 
GN⁺ 17 hari lalu
Pendapat Hacker News
  • Saya khawatir ASR (pengenalan ucapan otomatis) pada akhirnya akan menjadi seperti OCR
    Jika AI besar multimodal cukup cepat dan punya pemahaman konteks yang dalam, rasanya semua teknik lama akan diserap habis
    Di OCR juga, meski teks hasil pemindaian buram, AI bisa menebak makna dokumen dan mengenali pola seperti “ID pesanan biasanya ada di bawah tanggal pesanan”
    Jika ASR juga mulai ‘menebak’ berdasarkan konteks seperti ini, ada risiko ucapan aslinya terdistorsi

    • Ini punya sisi baik dan buruk
      ASR yang bagus bisa memahami suara berisik yang bahkan tidak bisa saya dengar dengan jelas, tetapi kadang terlalu banyak mengoreksi sehingga kata yang jarang muncul diganti menjadi kata yang umum
      Di OCR juga bisa muncul data yang kelihatannya masuk akal tetapi salah, seperti pada kasus Xerox
      Karena itu saya hanya memakai OCR untuk pencarian, dan selalu menyimpan hasil pindai aslinya
    • Kenyataannya, arah perkembangannya memang sudah seperti itu
      LLM multimodal seperti gpt-4o-transcribe jauh lebih unggul daripada pengenalan ucapan biasa
      Kita bisa memasukkan istilah khusus perusahaan atau bagan organisasi ke dalam prompt, sehingga kalimat seperti “suruh Kaitlyn mereview PR” bisa dibedakan orangnya dengan akurat
      Dengan alat open-source untuk Mac yang saya buat, Anda bisa mencoba memakai kunci API OpenAI dan prompt kustom
    • Saya tidak paham kenapa ini perlu dikhawatirkan
      Kalau teknologi berkembang, meski beberapa teknik hilang, bukankah pada akhirnya arahnya jadi lebih baik?
    • ASR sudah terbukti berguna
      Sejak Whisper muncul, model pengenalan ucapan yang berjalan secara lokal meledak jumlahnya
      Contoh: superwhisper.com, carelesswhisper.app, macwhisper.com
    • STT (ucapan→teks) sepertinya akan tetap lebih unggul untuk pemrosesan lokal selama beberapa waktu
      Jika diproses langsung di perangkat yang memiliki mikrofon, pemakaian bandwidth bisa dikurangi banyak dan mungkin tidak perlu mengirim data ke cloud
  • Agak disayangkan model ini tidak punya fitur timestamp atau pemisahan pembicara (diarization)
    Saya penasaran apakah WhisperX masih menjadi pilihan terbaik untuk tujuan itu

    • Bahkan di antara API komersial, hampir tidak ada yang mendukung pemisahan pembicara dan timestamp per kata secara stabil
      Google Chirp punya banyak masalah seperti segmen hilang, halusinasi (hallucination), dan timestamp yang tidak cocok
      AWS sedikit lebih baik, tetapi sinkronisasi per kata masih tidak stabil
      Whisper juga sering berhalusinasi, dan model baru OpenAI akurat tetapi tidak mendukung timestamp
      Pada akhirnya ini bisa diatasi lewat pascapemrosesan, tetapi rasanya akan menyenangkan jika ada API yang bisa langsung dipakai dengan percaya diri
    • WhisperX bukan model, melainkan paket perangkat lunak yang menggabungkan Whisper dengan model-model lain
      Versi terintegrasi untuk Cohere Transcribe sepertinya akan segera muncul
    • Saya merekomendasikan Qwen-ASR
      Di bagian bawah halaman ada contoh yang menyertakan timestamp
    • Mistral Voxtral mendukung timestamp dan pemisahan pembicara, serta menunjukkan performa yang bagus dalam bahasa Jerman
    • Ada juga whisper-timestamped
      Ini memakai bobot cross-attention milik Whisper untuk penyelarasan dengan Dynamic Time Warping tanpa model tambahan
  • Saya sangat puas dengan layanan Cohere
    Beberapa bulan lalu saya pindah ke model clip-style embedding, dan sejauh ini itu punya latensi P50 paling stabil di antara layanan eksternal yang pernah saya pakai

    • Saya penasaran bagaimana kualitas keseluruhannya
      Model Cohere biasanya cenderung kecil dan performanya lebih rendah
  • Banyak model STT hanya dilatih dengan ucapan berpelafalan sempurna, sehingga lemah terhadap aksen asing
    Sebagai orang dengan aksen Inggris bergaya Prancis, saya benar-benar ingin menguji model ini
    Sampai sekarang, yang paling bagus untuk aplikasi belajar bahasa saya (Copycat Cafe) adalah Soniox, sedangkan model berbasis Whisper justru cenderung menghasilkan kalimat halusinasi

  • Saya mengujinya dengan dataset internal kami (250 ucapan kode pos Inggris), dan hasilnya cukup kompetitif
    Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, dan Speechmatics sekitar 54%

    • Di compare-stt.com, katanya Gladia menempati peringkat 1 dalam uji buta
    • Untuk rendering tabel, cukup beri dua baris kosong di antara baris-barisnya
    • Saya penasaran apakah patokan manusia itu 248/248
  • Disayangkan model ini tidak mendukung kamus kata kustom, word boosting, atau penambahan prompt

  • Kemungkinan ini hanyalah model ASR yang berfokus pada benchmark lagi
    Saya mengunggah hasil edit siaran Twitch ke YouTube dan membuat subtitle dengan Whisper-large-v3
    Syarat ASR yang bagus adalah

    1. dukungan timestamp
    2. pengenalan pembicara simultan
    3. transkripsi yang akurat
    4. menyertakan ekspresi nonverbal seperti [batuk], [tertawa]
    5. bisa menyuntikkan konteks lebih dari 10 ribu kata
      Dengan WhisperX, transkripsi bisa selesai dalam 5 menit, tetapi masalah terbesarnya tetap ada kalimat yang terlewat
    • Poin 3 dan 4 justru bisa menjadi fitur yang tidak perlu bagi sebagian besar pelanggan
  • Kalau disebut open-source, saya penasaran apakah yang tersedia itu kode sumbernya, atau hanya bobot modelnya saja

    • Anda bisa mengunduh file dari Hugging Face,
      dan ada juga versi hasil konversi ONNX sehingga bisa dijalankan di CPU
    • Dalam kebanyakan kasus, “open-source” berarti bobotnya dibuka
      Melatih model itu terlalu mahal, jadi membagikan hasil akhirnya saja sudah cukup berguna
    • Mungkin yang dimaksud memang merujuk ke modelnya sendiri
  • Saya penasaran apakah model ini benar-benar SOTA di kelas ukurannya
    Saya ingin tahu apakah ini lebih baik daripada Parakeet

    • Jika melihat leaderboard ASR Hugging Face,
      Parakeet (0.6B) memang cepat, tetapi dari sisi WER hanya berada kira-kira di peringkat 10 besar
    • Model Cohere punya 2B parameter sehingga lebih besar daripada Parakeet (0.6B, 1.1B), dan di benchmark juga menunjukkan performa yang lebih baik
  • Dulu saya pernah memakai Dragon Dictate, tetapi pelatihannya lama dan hasilnya juga kurang bagus
    Baru-baru ini saya melakukan wawancara podcast, dan Apple Podcasts otomatis membuat transkripsi AI
    Tidak banyak kesalahan, tetapi yang paling mengganggu adalah tidak ada pemisahan pembicara

    • Pada masa itu, bahkan ada perangkat lunak pengenalan ucapan yang bisa berjalan dengan RAM 64MB
      Waktu kecil saya mengunduh terlalu banyak shareware TTS/pengenalan ucapan seperti itu