2 poin oleh somang04 12 hari lalu | 5 komentar | Bagikan ke WhatsApp

Saya sudah mencoba Whisper dari OpenAI dan Clova dari NCP, tetapi ternyata diarization multi-pembicara untuk bahasa Korea jauh lebih sulit dari yang saya kira.
Apakah ada model lokal atau cloud, komersial, yang pernah Anda gunakan dan layak direkomendasikan?

Proses yang saya bayangkan adalah sebagai berikut

  1. Pengumpulan konten > pemisahan audio (musik, efek, suara) > analisis bentuk gelombang audio > pemisahan multi-pembicara dalam audio > STT berdasarkan beberapa pembicara > pembuatan transkrip berdasarkan informasi timecode

Tergantung hasilnya, sepertinya ini juga bisa diperluas hingga dubbing/pembuatan subtitle.

Kriteria yang saya lihat adalah sebagai berikut.

  • Seberapa baik hasil keluaran dari pemisahan audio?
  • Apakah mungkin mengenali dan membedakan suara orang yang sama berdasarkan audio?

Mohon banyak masukan dan pendapat!

5 komentar

 
sungwoo 5 hari lalu

Dari yang belakangan ini saya coba, untuk multi-pembicara, Cloava bekerja dengan baik.
Kalau kualitas yang dibutuhkan cukup sedang, ReturnZero yang direkomendasikan di atas juga oke.
Meskipun kualitas stt sedikit kurang, jika hasilnya diteruskan ke llm yang performanya bagus, hasilnya tetap bisa cukup memuaskan.

Dalam kasus saya, karena pengenalan pembicara tidak terlalu penting, saya memilih Gemini.
Karena tiap solusi punya kelebihan dan kekurangan masing-masing, pada akhirnya saya sarankan Anda mengambil beberapa sampel dari data yang ingin Anda tangani lalu memilih berdasarkan itu.

 
arthurk 6 hari lalu

https://developers.rtzr.ai/docs/stt-file/diarization/
Tidak bisa hanya memakai pemisahan multi-pembicara saja, tetapi API disediakan dengan dikombinasikan bersama STT. (OpenAI dan Clova juga mirip)

 
yunsub2 12 hari lalu

Pemisahan pembicaranya sepertinya bagus dilakukan oleh Daglo.

 
somang04 12 hari lalu

Oh! Begitukah?! Apakah ini platform? Saya sedang mencari bentuk yang berjalan berbasis local LLM atau API!

 
yunsub2 11 hari lalu

Ya, sayangnya Daglo memang belum menyediakan LLM lokal!
Berbayar, tetapi tampaknya juga menyediakan API. (https://developers.daglo.ai/guide/)