1 poin oleh GN⁺ 2025-07-23 | 1 komentar | Bagikan ke WhatsApp
  • Pada model Whisper, ketika file wav yang benar-benar hening dimasukkan, selalu muncul fenomena keluaran halusinasi dengan teks yang sama dalam bahasa Arab, yaitu "ترجمة نانسي قنقر" (Translation by Nancy Qunqar)
  • Jika audio hening dibuat dengan ffmpeg lalu dijalankan di Whisper dengan bahasa Arab dan model large-v3, hasil yang keluar selalu sama
  • Masalah ini tampaknya menunjukkan bahwa model Whisper dilatih untuk menafsirkan audio hening sebagai teks tertentu
  • Pada model lama (seperti small), penyesuaian parameter seperti suppress_tokens, initial prompt, dan logprob_threshold dapat sedikit menekan gejala ini, tetapi pada v3 (terutama large-v3) efeknya kecil
  • Metode seperti menggunakan VAD (Voice Activity Detection) atau menyaring bagian hening audio terlebih dahulu diusulkan sebagai solusi sementara

Gejala isu

  • Dilaporkan ada masalah pada Whisper large-v3 yang selalu menghasilkan halusinasi kalimat Arab "ترجمة نانسي قنقر" untuk audio hening
  • Membuat file wav hening 30 detik dengan ffmpeg seperti berikut
    ffmpeg -f lavfi -i anullsrc=r=44100\:cl=stereo -t 30 silence.wav
  • Contoh menjalankan perintah Whisper
    whisper ./silence.wav --language Arabic --model large-v3
  • Hasil:
    \[00:00.000 --> 00:29.980] ترجمة نانسي قنقر

Penyebab dan analisis

  • Model Whisper terbaru seperti large-v3 cenderung menghasilkan keluaran halusinasi acak untuk keheningan, alih-alih deskripsi audio atau pendekatan lama lainnya
  • Model sebelumnya (seperti small) juga menghasilkan keluaran campur aduk (acak) pada audio hening, tetapi sebagian masih bisa dikendalikan dengan berbagai opsi seperti suppress_tokens, initial prompt, dan logprob_threshold
  • Pada v3, cara-cara di atas tidak banyak berhasil, dan yang muncul justru hasil halusinasi yang tetap

Solusi sementara dan usulan penyelesaian

  • Menerapkan VAD (Voice Activity Detection): hanya menjalankan Whisper pada bagian audio yang benar-benar berisi suara, dan tidak memasukkan bagian hening sama sekali
  • Menyesuaikan parameter seperti suppress_tokens, initial prompt, dan logprob_threshold: efektif pada sebagian model, tetapi sangat minim pada large-v3
  • Untuk audio yang sepenuhnya hening atau sinyalnya lemah, perlu pascapemrosesan dengan metode lain di luar Whisper

Diskusi lainnya

  • Ada diskusi lanjutan mengenai apakah ada model yang lebih baik daripada large-v3 untuk bahasa Arab, tetapi belum ada model alternatif yang jelas diajukan

1 komentar

 
GN⁺ 2025-07-23
Komentar Hacker News
  • Saat mentranskripsikan audio berbahasa Mandarin dengan whisper-large-v3, saya berkali-kali mengalami bagian hening keluar sebagai kalimat aneh seperti “tolong like, share, dan favorit”, sehingga muncul kecurigaan bahwa saat melatih model, data diambil secara acak dari video YouTube tanpa diseleksi menjadi materi yang benar-benar berguna

    • Dalam transkripsi bahasa Mandarin juga sering muncul tambahan seperti "subtitle ini untuk tujuan riset/pembelajaran. Harap dihapus setelah 48 jam.", yang merupakan disclaimer yang ditambahkan sukarelawan subtitle pada subtitle film atau acara (ilegal)
    • Bahkan saat memakai model lain, saya terus mengalami bagian hening diubah menjadi ‘terima kasih sudah menonton!’ atau ‘[MUSIC]’, dan sangat disayangkan kesalahan seperti ini lolos dari proses QA lalu berulang di berbagai model transkripsi; bagian hening dalam input audio adalah situasi yang benar-benar sangat umum terjadi
    • Saat menguji whisper, saya mendapat kesan bahwa performanya tidak bagus pada video yang direkam dari YouTube atau ponsel; saya menduga sebagian besar data latihnya adalah subtitle atau naskah. Video yang saya coba berbahasa Mandarin, dan meski dengan whisper-large-v3 muncul salah paham yang khas serta hasil yang tidak bermakna, performanya tetap cukup unggul dibanding perangkat lunak lain. Hanya saja, ia terkadang mengarang nama pembicara lalu menempelkannya di depan dialog, sesekali berganti-ganti antara Han sederhana dan tradisional, dan pada bagian hening berulang kali mengeluarkan kalimat terakhir atau kadang menyisipkan teks bahasa Inggris yang tampak seperti arahan panggung. Saya tidak melihat subtitle atau kredit penutup, tetapi di satu video ketika pembicaranya sedang flu dan mengendus hidung, whisper mentranskripsikannya sebagai sedang menangis (“* crying ”), dan batuk diterjemahkan menjadi “ door closing *”. Baris berikutnya bahkan ditranskripsikan menjadi isi yang cukup tidak sopan. Setelah bagian suara mengendus itu saya potong, transkripsi anehnya hilang, tetapi kali ini kembali beralih ke Han tradisional
    • Rasanya mirip dengan “kalau celana jeans dimasukkan ke kalkulator, apa akan keluar jawaban yang benar?”
    • Saat YouTube mulai membuat fitur caption otomatis, kebisingan atau musik—terutama suara bising industri—selalu ditandai sebagai “[foreign]”; suara yang tidak dipahami sudah lama diperlakukan sebagai “foreign”
  • Hal yang sama juga terjadi pada LLM, ini contoh klasik "overfitting" pada data yang condong ke pola yang tidak jelas; mirip seperti mengeluarkan autorespons out-of-office apa adanya sebagai hasil terjemahan, lihat artikel terkait https://www.theguardian.com/theguardian/2008/nov/01/5

    • Saya penasaran apakah fenomena ini benar-benar overfitting, atau justru masalah kualitas data atau klasifikasi
  • Untuk menghemat waktu pencarian: frasa Arab "رجمة نانسي قنقر" berarti "terjemahan Nancy Qanqar" atau "diterjemahkan oleh Nancy Qanqar"; "رجمة" berarti terjemahan, dan "نانسي قنقر" adalah nama

    • Dalam bahasa Ceko, whisper saat hening juga sering mentranskripsikan “Titulky vytvořil JohnyX” (subtitle dibuat oleh JohnyX), dengan alasan yang serupa
    • Ada yang menunjukkan ejaannya salah; bentuk terjemahan yang benar bukan "رجمة" melainkan "ترجمة" dengan huruf ت di depan
    • Penyebab transkripsi seperti ini adalah karena data latihnya terutama berasal dari subtitle film tidak resmi; subtitle seperti itu sering memuat teks seperti “diterjemahkan oleh XXX” di bagian akhir film, dan pada saat itu subtitle tampil di layar tetapi audionya sebenarnya hening
  • Whisper terlalu sering berhalusinasi sampai terasa tidak layak dipakai; fenomena ini sudah terdokumentasi berkali-kali. Menghapus bagian hening dari audio memang sedikit membantu, tetapi ada juga isu seperti koreksi tata bahasa otomatis, misalnya pada terjemahan ujaran dwibahasa; model audio terbaru sudah membaik tetapi belum sepenuhnya menyelesaikannya https://news.ycombinator.com/item?id=43427376

    • Menurut saya, kuncinya bukan menyebutnya “tidak bisa dipakai”, melainkan memahami dulu batasan Whisper lalu mencari cara mengakalinya. Saya membangun bisnis di atas Whisper, dan yang paling penting sejak awal adalah memperkenalkan model voice activity detection (VAD) untuk mengurangi halusinasi, lihat https://speechischeap.com
    • Masalah ini muncul jika hanya memakai model besar; harus selalu dikombinasikan dengan model satelit kecil atau logika tambahan. Halusinasi juga mudah dideteksi dengan model ML/DL yang sudah ada; pada bagian hening seharusnya tidak ada teks, dan kode untuk mendeteksi itu mudah dibuat
    • Koreksi tata bahasa otomatis juga umum pada subtitle biasa; lihat video referensi "Mengapa subtitle berbeda dari dubbing?" https://youtu.be/pU9sHwNKc2c
  • Bahkan pada Whisper versi bahasa Inggris, saat memutar keheningan sering muncul “[ sub by sk cn2 ]”, “bagaimanapun juga, terima kasih sudah menonton! Tolong subscribe dan like! Sampai jumpa!” atau “video ini telah berakhir. Terima kasih sudah menonton. Jika bermanfaat, mohon subscribe ke channel.”

    • Alasannya karena model dilatih menggunakan media bajakan atau video YouTube; ini memang cara yang efektif, tetapi berisiko tidak terkontrol kualitasnya atau tersandung isu hak cipta
  • Dalam bahasa Rusia, sering kali di akhir muncul halusinasi “Субтитры сделал DimaTorzok” (subtitle dibuat oleh DimaTorzok); saya juga penasaran apakah memang ada banyak subtitle yang berisi itu, jadi sempat mencarinya di YouTube, tetapi tampaknya tidak terlalu banyak

  • Jika 30 detik pertama panggilan yang direkam berisi nada dering atau DTMF—yang hampir selalu terjadi saat menelepon perusahaan—Whisper sering salah memilih bahasa menjadi Nynorsk atau Wales. Saya belum mengecek teks apa yang ditranskripsikan, tetapi kemungkinan isinya sama-sama ngawur; buat saya ini tidak terlalu bermasalah secara praktis, tetapi untuk call center dwibahasa bisa cukup merepotkan

  • Untuk pertanyaan “siapa Nicolai Winther?” lihat https://medium.com/@lehandreassen/who-is-nicolai-winther-985409568201

    • Ada yang meninggalkan kalimat, “Di masa depan, semua orang akan terkenal selama 15 menit di komunitas mikro yang sangat sempit antara teknologi dan bahasa mereka sendiri, pada masa ketika AI sedang menyapu segalanya”
  • Ada yang berpendapat judulnya harus diubah menjadi "OpenAI, bukti terungkap bahwa dilatih dengan film bajakan"

    • Tentu saja, kalau uangnya cukup banyak, melatih dengan konten ilegal pun jadi legal
    • Saya penasaran apakah ini benar-benar bisa dianggap bukti; memakai materi berhak cipta yang sejak awal sudah diizinkan dari komunitas subtitle online atau DVD tampaknya juga sudah lama diketahui luas di industri, dan bahwa pelatihan model AI memakai berbagai materi berhak cipta juga sudah pernah ditunjukkan
    • Hacker News sangat ketat soal pengeditan judul yang subjektif; bahkan jika nyaris tak terbantahkan sebagai fakta, mengganti judul seperti itu akan langsung membuat postingannya dilaporkan
  • Ada juga candaan bahwa “mungkin Nancy Qunqar benar-benar mentranskripsikan semuanya satu per satu secara manual”, disertai semangat seperti “semangat Nancy! terus berjuang!”

    • Ada yang curiga apakah ini spam; nama ini tampaknya hanya muncul di Instagram dan di thread ini, jadi muncul pertanyaan apakah ini semacam teknik spam baru untuk mencari follower Instagram