Dulu saya pernah memposting pertanyaan tentang multi-speaker bahasa Korea! Ini update perkembangan lanjutannya!

3 poin oleh somang04 2026-05-28 | 5 komentar | Bagikan ke WhatsApp

Saya juga tidak yakin apakah ini cocok untuk ASK GN..! Tapi sepertinya ini bukan berita atau Show, jadi saya posting di sini.

Saya sedang mencoba membuatnya berdasarkan masukan yang diberikan waktu itu.
Kebetulan, teman yang bekerja bersama saya di bagian bisnis juga punya ide seperti itu, jadi dua orang non-developer sedang jungkir balik mencoba membuat MVP.
(Claude Code 5X + semua biaya API kami tanggung sendiri.. teman dari tim bisnis mentraktir minuman dan makanan.. hehe)

Karena kami membuatnya dengan acuan konten seperti drama/variety show/film, model yang bisa dipakai ternyata terbatas.
Jadi setelah mencari ke sana kemari, kami sekarang menggunakan Whisper(Open AI API), Pyannote, dan Assembly AI.

Masa gratis pyannote sudah habis jadi harus berlangganan, tapi karena biayanya berbentuk langganan ($19/month), bukan berdasarkan penggunaan, jadi kami melewatinya,
dan sekarang sedang menguji Deepgram Nova-3. (Kalau daftar anggota dapat $200.)

Tapi.. seperti yang diduga, tanpa pyannote pemisahan pembicara memang sulit, jadi kami melakukan speaker diarization dengan meronym/speaker-diarization di replicate.com.

Kalau melihat hasil akhirnya, pemisahan pembicara lumayan berhasil.
Kami berencana membandingkannya dengan Clova, dan hasil perbandingannya juga akan saya bagikan!

Sekarang, hal berikutnya yang sedang saya pikirkan adalah

Pemisahan pembicara dilakukan berbasis audio, tapi kalau ditambahkan fitur pengenalan wajah, apakah hasilnya akan jadi lebih presisi?
Metadata yang dibutuhkan untuk pengenalan wajah sebaiknya dikumpulkan dengan cara bagaimana?
Jika basisnya adalah konten seperti drama/film/variety show, dari mana sebaiknya mendapatkan metadata? (Naver, Namuwiki, dll.)
Apakah mengumpulkan metadata benar-benar meningkatkan kualitas jika dibandingkan dengan biaya dan waktu yang dibutuhkan?

Kalau ada senior yang pernah memikirkan hal seperti ini, saya sangat berharap bisa mendapat banyak saran...!!!

5 komentar

boradi 2026-05-29

Saya pernah melakukan riset terkait pemisahan pembicara, jadi saya akan menyampaikan berdasarkan yang saya tahu.

Ya, hasilnya akan jadi lebih presisi. Namun secara teknis tingkat kesulitannya mungkin cukup tinggi. Karena ini berarti perubahan bentuk mulut dan sinkronisasi suara juga bisa dicocokkan. Ada banyak open source terkait seperti TalkNet-ASD, 3D-Speaker-Toolkit, jadi Anda bisa menjadikannya referensi dengan baik. Selain itu, belakangan ini juga ada riset seperti SpeakerLM yang digabungkan dengan LLM, sehingga gambar dan video dapat diberikan bersama sebagai input untuk melakukan pemisahan pembicara dan pembuatan subtitle secara bersamaan.
Untuk ini, karena saya tidak terlalu memahami konteks bisnis yang sedang Anda jalankan, saya hanya bisa bicara berdasarkan informasi yang tertulis. Wajah yang muncul dalam konten seperti drama, film, atau variety show, meskipun orangnya sama, bisa terekstrak sangat berbeda tergantung riasan atau situasinya. Jadi Anda perlu mengekstrak seluruh wajah tokoh yang muncul di tiap konten, lalu melakukan clustering per wajah dan mencocokkannya satu per satu dengan daftar pemeran dari konten tersebut. Ini memang bisa dilakukan dengan model multimodal, tetapi demi akurasi tetap dibutuhkan pelabelan oleh manusia, sehingga memakan banyak biaya dan waktu. Itu juga alasan kenapa orang membayar pekerja lepas untuk melakukannya. Sebagai referensi, bahkan ketika hanya ada audio, jika data suara ini dikumpulkan lebih dulu lalu dilabeli dan di-embedding oleh manusia, kualitas pemisahan pembicara akan meningkat cukup besar.
Database untuk konten seperti ini memiliki banyak API terkait seperti tmdb, imdb, kmdb, jadi siapa pun bisa mengambilnya sampai batas tertentu, baik gratis maupun berbayar. Tetapi untuk membuatnya menjadi database, Anda tetap perlu mengerjakannya sendiri. Crawling juga bisa menjadi salah satu cara.
Saya tidak tahu persis apa yang ingin Anda lakukan, tetapi yang saya jelaskan di atas memang terdengar mudah diucapkan, namun untuk benar-benar meningkatkan akurasi dibutuhkan banyak waktu dan biaya. Riset yang pernah saya lakukan juga memanjang cukup lama karena berbagai alasan. Mencapai akurasi 80–90% itu mudah, tetapi itu adalah sesuatu yang bisa dilakukan siapa saja. Karena itu, mengisi detail pada sisa 10% inilah yang menjadi esensi komersialisasi dan nilai intinya. Jika Anda bertanya, "apakah kualitasnya membaik," maka tentu membaik. Namun jika pertanyaannya, "apakah membaik sebanding dengan biaya dan waktu," saya kurang yakin. Seperti yang saya katakan, peningkatannya hanya sekitar 10%.

Bagaimanapun juga, sangat mengagumkan dan keren melihat orang non-developer mencoba tantangan seperti ini. Semoga hasilnya baik.

somang04 2026-05-29

Terima kasih!! Memang ada batasnya kalau mengandalkan otomatisasi, dan untuk tagging serta mapping memang benar harus dikerjakan manual oleh manusia..

Sepertinya saya harus merekrut satu budak lagi.. Ini sangat membantu!!

Terima kasih!!

hmmhmmhm 2026-05-29

diarization memang bagus, tetapi ada beberapa bagian yang agak kurang memuaskan, jadi kalau ingin mendalami lebih jauh di antara model-model yang sudah dipublikasikan, sepertinya seperti komentar di bawah, kita malah harus benar-benar masuk ke ranah riset.

somang04 2026-05-29

Saya sedang nekat mencoba tanpa benar-benar paham.. hehe. Memang karena tidak tahu, jadi malah langsung dikerjakan begitu saja.
Seperti kata orang di bawah, karena tetap perlu campur tangan manusia, saya sedang mencari budak 1.. hehe

hmmhmmhm 2026-05-29

Wah.... keren sekali Anda mau menantangnya... saya juga jadi ikut dapat semangat sinerginya!! Semangat!!!

Dulu saya pernah memposting pertanyaan tentang multi-speaker bahasa Korea! Ini update perkembangan lanjutannya!

Bacaan terkait

5 komentar