24 poin oleh GN⁺ 2025-01-16 | 3 komentar | Bagikan ke WhatsApp
  • Kokoro v0.19 adalah model text-to-speech yang baru-baru ini diumumkan, memiliki 82M parameter dan menghasilkan output dengan kualitas sangat tinggi
    • Berlisensi Apache, dilatih dengan audio kurang dari 100 jam
    • Mendukung bahasa Inggris AS, Inggris Britania, Prancis, Korea, Jepang, dan Tionghoa, serta menyediakan berbagai suara berkualitas tinggi
  • Pemanfaatan Kokoro

    • Pengguna dapat memanfaatkan Kokoro melalui alat bernama Audiblez yang dapat mengubah ebook menjadi audiobook.
    • Audiblez mem-parsing file .epub dan mengubah isi buku menjadi file audio dengan rekaman yang rapi.
    • Sebagai contoh, di M2 MacBook Pro dibutuhkan sekitar 2 jam untuk mengonversi buku sekitar 100.000 kata.
  • Cara instalasi dan menjalankan

    • Audiblez dapat dipasang melalui pip pada komputer yang sudah terinstal Python 3.
    • Tidak berfungsi di Python 3.13.
    • Perlu mengunduh file tambahan sekitar 360MB.
    • Untuk mengubah file .epub menjadi audiobook, perlu menjalankan perintah.
  • Bahasa dan suara yang didukung

    • Bahasa dapat ditentukan dengan opsi -l, dan kode bahasa yang didukung adalah en-us, en-gb, fr-fr, ja, ko, cmn.
    • Suara dapat ditentukan dengan opsi -v, dan tersedia beragam pilihan suara.
  • Deteksi bab

    • Deteksi bab agak kurang stabil, tetapi pada sebagian besar file .epub tetap dapat menemukan bab-bab utama.
    • Jika bab yang diinginkan tidak termasuk, Anda dapat mencoba menyesuaikan fungsi is_chapter di kode.
  • Kode sumber dan rencana perbaikan

    • Proyek Audiblez dapat dilihat di GitHub.
    • Perbaikan ke depan mencakup deteksi bab yang lebih baik, penambahan navigasi bab, dan penambahan narasi untuk gambar.

3 komentar

 
crawler 2025-01-16

Memang ada model yang lebih besar dan lebih bagus daripada ini, tetapi sepertinya harus dilihat bahwa kegunaannya berbeda.
Kokoro mendapat respons yang sangat baik karena ukurannya kecil sehingga cepat, dan kualitasnya juga tidak buruk.

 
munggo 2025-01-16

Versi bahasa Koreanya terdengar seperti bahasa Rusia. Tingkatnya sampai tidak layak didengarkan.

 
GN⁺ 2025-01-16
Komentar Hacker News
  • Ada perasaan campur aduk tentang penggunaan suara AI, karena narator audiobook terkadang mampu menafsirkan teks dengan sangat baik

    • Audiobook dengan beberapa narator dan suara berbeda untuk tiap karakter memberikan pengalaman yang istimewa
    • Terkadang satu-satunya petunjuk tentang siapa yang sedang berbicara dalam dialog adalah perubahan nada suara
    • Lebih memilih suara AI daripada audiobook domain publik seperti karya amatir atau Project Gutenberg
  • Suara hasil generasi AI sulit didengarkan lebih dari 1 menit, dan jika suara AI muncul di YouTube, langsung dilewati

    • Mungkin karena otak kita mencoba menangkap emosi pembicara, jeda, senyum yang tak terlihat, dan semacamnya
    • Model akan terus membaik hingga suara hasil generasi AI menjadi sulit dikenali
  • Meminta rekomendasi opsi open source untuk menghasilkan TTS dengan suara kustom

    • Berencana mencoba Coqui TTS
  • Menginginkan pembaca ebook yang bisa beralih antara teks dan audio hanya dengan satu tombol

    • Membayangkan bisa membaca buku di sofa lalu beralih ke mode audio sambil mencuci piring
  • Punya ide untuk mengubah ebook menjadi audiobook dengan suara narator audiobook tertentu

    • Terinspirasi dari proyek Infinite Conversation, tetapi belum sempat mewujudkannya
  • Sudah mencoba berbagai model TTS, tetapi kebanyakan biasa saja, tidak berjalan di Mac, atau sangat lambat

    • Model ini cepat, mudah dipasang, dan menghasilkan suara yang lumayan bagus
    • Tidak membaca buku yang tidak memiliki versi audiobook
    • Pernah menggunakan elevenlabs sebelumnya, tetapi harganya terlalu mahal untuk penggunaan pribadi
  • Pada 2025, jaringan saraf kemungkinan akan mampu menghasilkan audiobook dengan musik latar, efek suara, dan narasi yang dramatis

  • "kokoro" berarti "hati" dalam bahasa Jepang

  • Berharap ada plugin tambahan untuk perangkat lunak manajemen ebook Calibre agar judul terpilih di perpustakaan epub bisa dengan mudah diubah menjadi versi audio

  • Sangat puas karena argumen kecepatan variabel ditambahkan