- Kokoro v0.19 adalah model text-to-speech yang baru-baru ini diumumkan, memiliki 82M parameter dan menghasilkan output dengan kualitas sangat tinggi
- Berlisensi Apache, dilatih dengan audio kurang dari 100 jam
- Mendukung bahasa Inggris AS, Inggris Britania, Prancis, Korea, Jepang, dan Tionghoa, serta menyediakan berbagai suara berkualitas tinggi
-
Pemanfaatan Kokoro
- Pengguna dapat memanfaatkan Kokoro melalui alat bernama Audiblez yang dapat mengubah ebook menjadi audiobook.
- Audiblez mem-parsing file
.epub dan mengubah isi buku menjadi file audio dengan rekaman yang rapi.
- Sebagai contoh, di M2 MacBook Pro dibutuhkan sekitar 2 jam untuk mengonversi buku sekitar 100.000 kata.
-
Cara instalasi dan menjalankan
- Audiblez dapat dipasang melalui pip pada komputer yang sudah terinstal Python 3.
- Tidak berfungsi di Python 3.13.
- Perlu mengunduh file tambahan sekitar 360MB.
- Untuk mengubah file
.epub menjadi audiobook, perlu menjalankan perintah.
-
Bahasa dan suara yang didukung
- Bahasa dapat ditentukan dengan opsi
-l, dan kode bahasa yang didukung adalah en-us, en-gb, fr-fr, ja, ko, cmn.
- Suara dapat ditentukan dengan opsi
-v, dan tersedia beragam pilihan suara.
-
Deteksi bab
- Deteksi bab agak kurang stabil, tetapi pada sebagian besar file
.epub tetap dapat menemukan bab-bab utama.
- Jika bab yang diinginkan tidak termasuk, Anda dapat mencoba menyesuaikan fungsi
is_chapter di kode.
-
Kode sumber dan rencana perbaikan
- Proyek Audiblez dapat dilihat di GitHub.
- Perbaikan ke depan mencakup deteksi bab yang lebih baik, penambahan navigasi bab, dan penambahan narasi untuk gambar.
3 komentar
Memang ada model yang lebih besar dan lebih bagus daripada ini, tetapi sepertinya harus dilihat bahwa kegunaannya berbeda.
Kokoro mendapat respons yang sangat baik karena ukurannya kecil sehingga cepat, dan kualitasnya juga tidak buruk.
Versi bahasa Koreanya terdengar seperti bahasa Rusia. Tingkatnya sampai tidak layak didengarkan.
Komentar Hacker News
Ada perasaan campur aduk tentang penggunaan suara AI, karena narator audiobook terkadang mampu menafsirkan teks dengan sangat baik
Suara hasil generasi AI sulit didengarkan lebih dari 1 menit, dan jika suara AI muncul di YouTube, langsung dilewati
Meminta rekomendasi opsi open source untuk menghasilkan TTS dengan suara kustom
Menginginkan pembaca ebook yang bisa beralih antara teks dan audio hanya dengan satu tombol
Punya ide untuk mengubah ebook menjadi audiobook dengan suara narator audiobook tertentu
Sudah mencoba berbagai model TTS, tetapi kebanyakan biasa saja, tidak berjalan di Mac, atau sangat lambat
Pada 2025, jaringan saraf kemungkinan akan mampu menghasilkan audiobook dengan musik latar, efek suara, dan narasi yang dramatis
"kokoro" berarti "hati" dalam bahasa Jepang
Berharap ada plugin tambahan untuk perangkat lunak manajemen ebook Calibre agar judul terpilih di perpustakaan epub bisa dengan mudah diubah menjadi versi audio
Sangat puas karena argumen kecepatan variabel ditambahkan