WhisperX - ASR berbasis Whisper dengan akurasi timestamp yang ditingkatkan
(github.com/m-bain)- OpenAI Whisper menghasilkan transkripsi yang sangat akurat, tetapi timestamp-nya berada pada tingkat ujaran (utterance), bukan tingkat kata, sehingga bisa meleset beberapa detik
- Memperbaiki timestamp model Whisper dengan menggunakan ASR berbasis fonem seperti Wav2vec2.0 dan forced alignment
- Bahasa bawaan yang disediakan adalah {en, fr, de, es, it, ja, zh, nl}. Untuk bahasa tambahan, perlu dicari di Huggingface Model Hub lalu diuji
Belum ada komentar.