31 poin oleh GN⁺ 2025-08-14 | Belum ada komentar. | Bagikan ke WhatsApp
  • FFmpeg versi 8.0 secara resmi menambahkan dukungan untuk model pengenalan suara Whisper
  • Whisper adalah model pengenalan suara open-source yang dikembangkan oleh OpenAI, dan digunakan untuk konversi ucapan otomatis dalam berbagai bahasa
  • Dengan hadirnya fitur ini, kemungkinan otomatisasi alur kerja konversi ucapan ke teks langsung di dalam tugas pemrosesan video dan audio menjadi semakin besar
  • Di kalangan developer dan bidang otomatisasi media, kegunaan dan efisiensi FFmpeg meningkat secara signifikan
  • Dengan menyertakan fitur pengenalan suara terbaru, beban penggunaan alat eksternal tambahan atau proses integrasi yang rumit dapat dikurangi

Gambaran umum dukungan Whisper di FFmpeg 8.0

  • FFmpeg versi 8.0 menambahkan dukungan untuk model pengenalan suara Whisper, sehingga menyediakan kemampuan untuk secara otomatis mengubah data suara menjadi teks dalam berbagai bahasa
  • Whisper memanfaatkan algoritme berbasis deep learning buatan OpenAI untuk memberikan performa konversi ucapan ke teks dengan akurasi tinggi
  • Pengguna FFmpeg yang sudah ada kini mendapatkan kemudahan untuk membuat subtitle atau mengekstrak isi ucapan dari file video dan audio melalui dukungan Whisper bawaan, tanpa harus melewati alat eksternal

Manfaat utama integrasi Whisper

  • Berkat integrasi Whisper, implementasi alur kerja pengenalan suara yang efisien dan mudah diskalakan menjadi mungkin di dalam pipeline pemrosesan dan otomatisasi media berbasis FFmpeg
  • Karena algoritme pengenalan suara sudah terintegrasi, developer memiliki keuntungan berupa hasil konversi suara ke teks hanya dengan perintah sederhana, tanpa beban integrasi tambahan yang kompleks atau penulisan skrip terpisah

Signifikansi industri dari kombinasi FFmpeg dan Whisper

  • Di berbagai bidang seperti pengelolaan aset media berskala besar, pembuatan subtitle, dan pengarsipan data video, kombinasi FFmpeg + Whisper memiliki keunggulan dalam mewujudkan efisiensi biaya sekaligus otomatisasi
  • Sebelumnya, alat pengenalan suara open-source terpisah perlu dihubungkan dengan FFmpeg, tetapi sekarang pemrosesan dapat dilakukan langsung di FFmpeg itu sendiri, sehingga penyederhanaan workflow dan peningkatan kecepatan pemrosesan dapat diharapkan

Detail teknis

  • Berdasarkan library Whisper.cpp, sebuah filter audio ditambahkan ke FFmpeg untuk menjalankan automatic speech recognition (ASR) langsung di dalam FFmpeg
  • Dapat diaktifkan dengan opsi --enable-whisper, dan path model (model) wajib ditentukan
  • Opsi utama: pengaturan bahasa (language), apakah menggunakan GPU (use_gpu), ukuran antrean (queue), format output (format: text/srt/json), serta pengaturan model dan ambang VAD (voice activity detection)
    • Jika nilai queue dibuat kecil, respons real-time meningkat tetapi akurasi menurun dan beban CPU bertambah; jika dibuat besar, akurasi meningkat tetapi latensi membesar
    • Dengan opsi destination, hasil dapat disimpan ke file output, URL, atau metadata, dan protokol AVIO juga didukung
  • Termasuk skenario contoh seperti pembuatan subtitle SRT, pengiriman HTTP dalam format JSON, dan transkripsi real-time dari input mikrofon (menggunakan VAD)
    • Contoh pembuatan file subtitle SRT
      ffmpeg -i input.mp4 -vn \  
      -af "whisper=model=../whisper.cpp/models/ggml-base.en.bin:language=en:queue=3:destination=output.srt:format=srt" \  
      -f null -  
      

Belum ada komentar.

Belum ada komentar.