Saya sudah mencoba Whisper dari OpenAI dan Clova dari NCP, tetapi ternyata diarization multi-pembicara untuk bahasa Korea jauh lebih sulit dari yang saya kira.
Apakah ada model lokal atau cloud, komersial, yang pernah Anda gunakan dan layak direkomendasikan?
Proses yang saya bayangkan adalah sebagai berikut
- Pengumpulan konten > pemisahan audio (musik, efek, suara) > analisis bentuk gelombang audio > pemisahan multi-pembicara dalam audio > STT berdasarkan beberapa pembicara > pembuatan transkrip berdasarkan informasi timecode
Tergantung hasilnya, sepertinya ini juga bisa diperluas hingga dubbing/pembuatan subtitle.
Kriteria yang saya lihat adalah sebagai berikut.
- Seberapa baik hasil keluaran dari pemisahan audio?
- Apakah mungkin mengenali dan membedakan suara orang yang sama berdasarkan audio?
Mohon banyak masukan dan pendapat!
5 komentar
Dari yang belakangan ini saya coba, untuk multi-pembicara, Cloava bekerja dengan baik.
Kalau kualitas yang dibutuhkan cukup sedang, ReturnZero yang direkomendasikan di atas juga oke.
Meskipun kualitas
sttsedikit kurang, jika hasilnya diteruskan kellmyang performanya bagus, hasilnya tetap bisa cukup memuaskan.Dalam kasus saya, karena pengenalan pembicara tidak terlalu penting, saya memilih Gemini.
Karena tiap solusi punya kelebihan dan kekurangan masing-masing, pada akhirnya saya sarankan Anda mengambil beberapa sampel dari data yang ingin Anda tangani lalu memilih berdasarkan itu.
https://developers.rtzr.ai/docs/stt-file/diarization/
Tidak bisa hanya memakai pemisahan multi-pembicara saja, tetapi API disediakan dengan dikombinasikan bersama STT. (OpenAI dan Clova juga mirip)
Pemisahan pembicaranya sepertinya bagus dilakukan oleh Daglo.
Oh! Begitukah?! Apakah ini platform? Saya sedang mencari bentuk yang berjalan berbasis local LLM atau API!
Ya, sayangnya Daglo memang belum menyediakan LLM lokal!
Berbayar, tetapi tampaknya juga menyediakan API. (https://developers.daglo.ai/guide/)