Apakah ada model yang bagus untuk diarization multi-pembicara dalam bahasa Korea??

2 poin oleh somang04 2026-05-12 | 5 komentar | Bagikan ke WhatsApp

Saya sudah mencoba Whisper dari OpenAI dan Clova dari NCP, tetapi ternyata diarization multi-pembicara untuk bahasa Korea jauh lebih sulit dari yang saya kira.
Apakah ada model lokal atau cloud, komersial, yang pernah Anda gunakan dan layak direkomendasikan?

Proses yang saya bayangkan adalah sebagai berikut

Pengumpulan konten > pemisahan audio (musik, efek, suara) > analisis bentuk gelombang audio > pemisahan multi-pembicara dalam audio > STT berdasarkan beberapa pembicara > pembuatan transkrip berdasarkan informasi timecode

Tergantung hasilnya, sepertinya ini juga bisa diperluas hingga dubbing/pembuatan subtitle.

Kriteria yang saya lihat adalah sebagai berikut.

Seberapa baik hasil keluaran dari pemisahan audio?
Apakah mungkin mengenali dan membedakan suara orang yang sama berdasarkan audio?

Mohon banyak masukan dan pendapat!

5 komentar

sungwoo 2026-05-19

Dari yang belakangan ini saya coba, untuk multi-pembicara, Cloava bekerja dengan baik.
Kalau kualitas yang dibutuhkan cukup sedang, ReturnZero yang direkomendasikan di atas juga oke.
Meskipun kualitas stt sedikit kurang, jika hasilnya diteruskan ke llm yang performanya bagus, hasilnya tetap bisa cukup memuaskan.

Dalam kasus saya, karena pengenalan pembicara tidak terlalu penting, saya memilih Gemini.
Karena tiap solusi punya kelebihan dan kekurangan masing-masing, pada akhirnya saya sarankan Anda mengambil beberapa sampel dari data yang ingin Anda tangani lalu memilih berdasarkan itu.

arthurk 2026-05-18

https://developers.rtzr.ai/docs/stt-file/diarization/
Tidak bisa hanya memakai pemisahan multi-pembicara saja, tetapi API disediakan dengan dikombinasikan bersama STT. (OpenAI dan Clova juga mirip)

yunsub2 2026-05-12

Pemisahan pembicaranya sepertinya bagus dilakukan oleh Daglo.

somang04 2026-05-12

Oh! Begitukah?! Apakah ini platform? Saya sedang mencari bentuk yang berjalan berbasis local LLM atau API!

yunsub2 2026-05-13

Ya, sayangnya Daglo memang belum menyediakan LLM lokal!
Berbayar, tetapi tampaknya juga menyediakan API. (https://developers.daglo.ai/guide/)

Apakah ada model yang bagus untuk diarization multi-pembicara dalam bahasa Korea??

Bacaan terkait

5 komentar