- Pada model Whisper, ketika file wav yang benar-benar hening dimasukkan, selalu muncul fenomena keluaran halusinasi dengan teks yang sama dalam bahasa Arab, yaitu "ترجمة نانسي قنقر" (Translation by Nancy Qunqar)
- Jika audio hening dibuat dengan ffmpeg lalu dijalankan di Whisper dengan bahasa Arab dan model large-v3, hasil yang keluar selalu sama
- Masalah ini tampaknya menunjukkan bahwa model Whisper dilatih untuk menafsirkan audio hening sebagai teks tertentu
- Pada model lama (seperti small), penyesuaian parameter seperti suppress_tokens, initial prompt, dan logprob_threshold dapat sedikit menekan gejala ini, tetapi pada v3 (terutama large-v3) efeknya kecil
- Metode seperti menggunakan VAD (Voice Activity Detection) atau menyaring bagian hening audio terlebih dahulu diusulkan sebagai solusi sementara
Gejala isu
- Dilaporkan ada masalah pada Whisper large-v3 yang selalu menghasilkan halusinasi kalimat Arab "ترجمة نانسي قنقر" untuk audio hening
- Membuat file wav hening 30 detik dengan ffmpeg seperti berikut
ffmpeg -f lavfi -i anullsrc=r=44100\:cl=stereo -t 30 silence.wav
- Contoh menjalankan perintah Whisper
whisper ./silence.wav --language Arabic --model large-v3
- Hasil:
\[00:00.000 --> 00:29.980] ترجمة نانسي قنقر
Penyebab dan analisis
- Model Whisper terbaru seperti large-v3 cenderung menghasilkan keluaran halusinasi acak untuk keheningan, alih-alih deskripsi audio atau pendekatan lama lainnya
- Model sebelumnya (seperti small) juga menghasilkan keluaran campur aduk (acak) pada audio hening, tetapi sebagian masih bisa dikendalikan dengan berbagai opsi seperti suppress_tokens, initial prompt, dan logprob_threshold
- Pada v3, cara-cara di atas tidak banyak berhasil, dan yang muncul justru hasil halusinasi yang tetap
Solusi sementara dan usulan penyelesaian
- Menerapkan VAD (Voice Activity Detection): hanya menjalankan Whisper pada bagian audio yang benar-benar berisi suara, dan tidak memasukkan bagian hening sama sekali
- Menyesuaikan parameter seperti suppress_tokens, initial prompt, dan logprob_threshold: efektif pada sebagian model, tetapi sangat minim pada large-v3
- Untuk audio yang sepenuhnya hening atau sinyalnya lemah, perlu pascapemrosesan dengan metode lain di luar Whisper
Diskusi lainnya
- Ada diskusi lanjutan mengenai apakah ada model yang lebih baik daripada large-v3 untuk bahasa Arab, tetapi belum ada model alternatif yang jelas diajukan
1 komentar
Komentar Hacker News
Saat mentranskripsikan audio berbahasa Mandarin dengan whisper-large-v3, saya berkali-kali mengalami bagian hening keluar sebagai kalimat aneh seperti “tolong like, share, dan favorit”, sehingga muncul kecurigaan bahwa saat melatih model, data diambil secara acak dari video YouTube tanpa diseleksi menjadi materi yang benar-benar berguna
Hal yang sama juga terjadi pada LLM, ini contoh klasik "overfitting" pada data yang condong ke pola yang tidak jelas; mirip seperti mengeluarkan autorespons out-of-office apa adanya sebagai hasil terjemahan, lihat artikel terkait https://www.theguardian.com/theguardian/2008/nov/01/5
Untuk menghemat waktu pencarian: frasa Arab "رجمة نانسي قنقر" berarti "terjemahan Nancy Qanqar" atau "diterjemahkan oleh Nancy Qanqar"; "رجمة" berarti terjemahan, dan "نانسي قنقر" adalah nama
Whisper terlalu sering berhalusinasi sampai terasa tidak layak dipakai; fenomena ini sudah terdokumentasi berkali-kali. Menghapus bagian hening dari audio memang sedikit membantu, tetapi ada juga isu seperti koreksi tata bahasa otomatis, misalnya pada terjemahan ujaran dwibahasa; model audio terbaru sudah membaik tetapi belum sepenuhnya menyelesaikannya https://news.ycombinator.com/item?id=43427376
Bahkan pada Whisper versi bahasa Inggris, saat memutar keheningan sering muncul “[ sub by sk cn2 ]”, “bagaimanapun juga, terima kasih sudah menonton! Tolong subscribe dan like! Sampai jumpa!” atau “video ini telah berakhir. Terima kasih sudah menonton. Jika bermanfaat, mohon subscribe ke channel.”
Dalam bahasa Rusia, sering kali di akhir muncul halusinasi “Субтитры сделал DimaTorzok” (subtitle dibuat oleh DimaTorzok); saya juga penasaran apakah memang ada banyak subtitle yang berisi itu, jadi sempat mencarinya di YouTube, tetapi tampaknya tidak terlalu banyak
Jika 30 detik pertama panggilan yang direkam berisi nada dering atau DTMF—yang hampir selalu terjadi saat menelepon perusahaan—Whisper sering salah memilih bahasa menjadi Nynorsk atau Wales. Saya belum mengecek teks apa yang ditranskripsikan, tetapi kemungkinan isinya sama-sama ngawur; buat saya ini tidak terlalu bermasalah secara praktis, tetapi untuk call center dwibahasa bisa cukup merepotkan
Untuk pertanyaan “siapa Nicolai Winther?” lihat https://medium.com/@lehandreassen/who-is-nicolai-winther-985409568201
Ada yang berpendapat judulnya harus diubah menjadi "OpenAI, bukti terungkap bahwa dilatih dengan film bajakan"
Ada juga candaan bahwa “mungkin Nancy Qunqar benar-benar mentranskripsikan semuanya satu per satu secara manual”, disertai semangat seperti “semangat Nancy! terus berjuang!”