Abogen - Membuat audiobook dari EPUB, PDF, dan teks

(github.com/denizsafak)

10 poin oleh GN⁺ 2025-08-11 | 1 komentar | Bagikan ke WhatsApp

Abogen adalah alat open-source yang memudahkan konversi file ePub, PDF, dan teks menjadi audiobook berkualitas tinggi
Dalam proses konversi, subtitle tersinkronisasi dengan audio juga dibuat secara otomatis
Menyediakan beragam fitur seperti mixing suara kustom, format encoding, pemisahan bab, dan pemrosesan batch (mode antrean)
Menggunakan mesin sintesis suara Kokoro-82M terbaru untuk mendukung kualitas TTS yang alami dan multibahasa
Dibanding proyek lain, keunggulannya mencakup GUI yang intuitif, pengelolaan folder per proyek, dan pemrosesan metadata otomatis

Gambaran umum dan pentingnya Abogen

Abogen adalah alat text-to-speech (TTS) open-source yang dengan cepat mengubah file teks (ePub, PDF, .txt, dll.) menjadi audiobook yang terdengar alami
Menawarkan fitur yang kaya seperti antarmuka intuitif, pemrosesan batch multi-file, mixing suara pengguna, beragam format output, pengelolaan bab, dan dukungan metadata
Tidak seperti proyek open-source lain, dengan pengoperasian yang sederhana pengguna bisa dengan mudah mendapatkan audio berkualitas tinggi (terutama TTS berbasis Kokoro-82M) beserta subtitle
Proses instalasi awal dan pengaturan environment Python yang rumit diotomatisasi sehingga developer pemula pun dapat memanfaatkannya dengan mudah
Secara khusus, pemrosesan bab dan metadata per proyek, lingkungan GUI, serta fitur suara kustom dinilai sebagai keunggulan kompetitif di industri

Ringkasan fitur utama

Text-to-speech (TTS) untuk mengubah ePub, PDF, dan file teks menjadi audio dalam hitungan detik
Subtitle tersinkronisasi dibuat otomatis, mendukung kecocokan sempurna antara audio dan subtitle
Menggunakan voice mixer untuk menggabungkan beberapa model suara dan membuat profil suara sendiri
Fitur mode antrean mendukung pemrosesan batch banyak file sekaligus dan mempertahankan pengaturan terpisah untuk tiap file
Pembuatan otomatis chapter marker/metadata dan fitur pengelolaan folder proyek
Beragam format output: mendukung WAV, FLAC, MP3, OPUS, M4B, serta subtitle yang dapat dipilih seperti SRT/ASS
Dukungan bahasa utama: Inggris AS/Inggris Britania, Spanyol, Prancis, Hindi, Italia, Jepang, Portugis, Mandarin, dan lainnya
Memberikan kualitas tinggi dan pelafalan alami berbasis mesin TTS Kokoro-82M
Mendukung GUI maupun command line, serta dapat menggunakan container Docker

Rangkuman detail fitur Abogen

#Latar belakang awal dan instalasi

Alat TTS yang sudah ada memiliki banyak keterbatasan dalam instalasi, konfigurasi environment, kualitas, kustomisasi, dan pemrosesan multi-file
Abogen dibuat agar pemula pun dapat dengan mudah mengakses fitur lanjutan seperti konversi teks-ke-audio, pembuatan subtitle, dan mixing suara melalui antarmuka yang praktis namun kuat
Dapat digunakan di berbagai OS (Windows, Linux, macOS), dan mendukung penyiapan environment bawaan/otomatis tanpa perlu instalasi Python terlebih dahulu

#Cara penggunaan utama

File ePub, PDF, atau teks bisa di-drag-and-drop atau diedit dengan editor bawaan
Pengaturan: dapat memilih secara rinci kecepatan baca, suara (model·gender·bahasa), gaya subtitle (per kalimat·per kata), format output audio dan subtitle, jalur output, dan lainnya
Hasil dapat langsung dibuat hanya dengan menekan tombol mulai konversi

#Demo nyata

Bahkan pada GPU berspesifikasi rendah, sekitar 3.000 karakter teks dapat dihasilkan menjadi audio berdurasi 3 menit 28 detik hanya dalam 11 detik
Kecepatan pemrosesan akan berbeda tergantung spesifikasi hardware

#Opsi pengaturan

Metode input: drag-and-drop, editor bawaan, dan pengelolaan antrean untuk memproses beberapa file sekaligus
Kecepatan baca: penyesuaian detail dari 0.1x hingga 2.0x
Pemilihan dan pratinjau suara: model berdasarkan bahasa dan gender, serta penetapan profil suara sendiri dengan custom mixer
Pembuatan subtitle: otomatisasi subtitle per kalimat, per koma, atau per n kata
Output audio: WAV, FLAC, MP3, OPUS, M4B (termasuk bab)
Format subtitle: mendukung kustomisasi seperti SRT, ASS, dll.
Pengelolaan bab dan proyek: simpan ke folder proyek yang mencakup audio per bab, versi gabungan, dan metadata
Beragam opsi UI seperti tema, log, shortcut, dan lainnya

#Voice Mixer

Menggabungkan beberapa model suara dengan pengaturan bobot, sehingga bisa membuat, menyimpan, dan memakai ulang suara unik sendiri
Hasil mixing suara dapat dipratinjau dan diterapkan sebagai profil suara

#Mode antrean

Mempertahankan pengaturan terpisah untuk tiap file, serta mengonversi banyak teks dan eBook sekaligus secara otomatis
Setiap file menyimpan pengaturan masing-masing saat ditambahkan ke antrean, terpisah dari perubahan pada pengaturan utama

#Chapter marker/metadata

Secara otomatis menyisipkan tag pemisah bab
- Tag `` juga dapat disisipkan secara manual
- Saat terjadi error, hal ini memudahkan pemrosesan ulang cepat hanya pada bab terkait
Dengan tag metadata, informasi seperti judul, penulis, dan tahun dapat ditambahkan agar tampil di aplikasi audiobook
- Dapat ditambahkan di bagian awal file teks

#Bahasa yang didukung

Dukungan multibahasa dari mesin Kokoro-82M
Inggris (AS/UK), Spanyol, Prancis, Hindi, Italia, Jepang, Portugis Brasil, Mandarin, dan lainnya
Subtitle untuk bahasa lain dapat diminta untuk ditambahkan di masa mendatang karena keterbatasan teknis engine

#Output dan pemanfaatan

Disarankan memakai media player tingkat lanjut seperti MPV yang mendukung subtitle tersinkronisasi
Mendukung menjalankan server berbasis Docker

#Perbedaan dari proyek serupa

Abogen menawarkan kenyamanan tingkat tinggi lewat GUI mandiri dan fitur kustomisasi, pengelolaan folder per proyek, otomatisasi bab dan metadata, pemrosesan antrean, serta mixed voice
Memiliki kemiripan dengan audiblez, autiobooks, pdf-narrator, epub_to_audiobook, ebook2audiobook, tetapi penggunaan GUI, mesin TTS canggih, dan sinkronisasi bab/subtitle menjadi poin pembeda utamanya

#Roadmap dan kontribusi

Direncanakan penambahan OCR (pengenalan dokumen) dan penguatan GUI multibahasa
Siapa pun dapat berkontribusi ke open source ini dengan melakukan fork, menambah fitur, atau memperbaiki bug

#Kredit teknis dan lisensi

Memanfaatkan berbagai teknologi open-source mitra seperti TTS Kokoro-82M, GUI berbasis PyQt, dan integrasi EbookLib
Lisensi MIT (bebas untuk penggunaan komersial dan modifikasi), sedangkan engine (Kokoro) berlisensi Apache-2.0

#Catatan dan batasan

Fitur sinkronisasi subtitle saat ini hanya tersedia untuk bahasa Inggris (dukungan bahasa lain memerlukan pengembangan engine Kokoro)
Beberapa fitur memiliki keterbatasan (misalnya audio preview di dalam Docker)
Untuk panduan detail instalasi dan pengaturan environment, lihat dokumentasi resmi

1 komentar

GN⁺ 2025-08-11

Komentar Hacker News

Saya membayangkan pipeline yang mengambil buku dari Calibre-Web, mengubahnya menjadi versi audio lewat Abogen, lalu menyajikannya melalui Audiobookshelf; ini juga tampaknya akan menjadi solusi yang sangat baik bagi penyandang disabilitas pendengaran. Lihat Calibre-Web dan audiobookshelf
Menggunakan alat ini untuk mengubah buku teks menjadi audiobook untuk konsumsi pribadi itu tidak masalah, tetapi jika penulis memakainya untuk membuat berkas distribusi, itu sangat berisiko. Penulis independen sudah sangat kesulitan mempromosikan karya mereka, dan belakangan ini calon pembaca tampaknya langsung kehilangan minat begitu melihat jejak penggunaan AI. Dalam kasus saya, saya mulai mempekerjakan pengisi suara yang aktingnya bagus tetapi bahasa ibunya bukan bahasa Inggris, atau pengisi suara yang menggunakan bahasa lain di rumah. Kadang saya juga meminta aksen yang sedikit lebih kuat; pendekatan ini membantu membedakannya dari AI, sekaligus menambah daya tarik buku bagi orang-orang yang mencari pengalaman baru. Dulu saya pernah terkejut saat audisi melihat betapa hidupnya para aktor dari kawasan Mediterania merekam audiobook
- Saya sering memakai fitur WhisperSync dari Amazon. Berkat fitur ini, saya bisa membaca buku sambil mendengarkannya secara bersamaan. Saat bepergian, saya kadang tetap bisa mengecek isi secara visual atau menyorot bagian untuk nanti, jadi ini sangat praktis. Kekurangannya, tidak banyak buku yang mendukung fitur ini, dan fitur baca bawaan di aplikasi Kindle kualitasnya kurang bagus. Jadi secara pribadi, saya akan sangat senang jika buku hebat yang ditulis manusia juga punya tambahan fitur suara AI
- Saya tidak yakin apakah benar sudah begitu umum bahwa calon pembaca melewatkan buku hanya karena ada tanda-tanda AI. Saat membaca teks, kalau hasil akhirnya bagus, kebanyakan orang sepertinya tidak terlalu peduli apakah itu dibacakan AI atau apa pun. Orang memang tidak menginginkan buku yang ditulis AI, tetapi membaca teks dengan suara AI sudah lama dipakai dengan nyaman untuk artikel maupun buku. Itu persoalan yang berbeda dari akting atau pengarahan suara
Saya penasaran apakah ini sekadar mengubah teks menjadi suara, atau benar-benar membuatnya seperti audiobook sungguhan. Audiobook yang bagus sering kali punya narator yang memerankan tiap tokoh secara berbeda, dengan intonasi dan dialek yang berbeda pula. Hal-hal seperti ini mungkin bisa dibuat untuk beberapa kalimat dengan alat seperti chatgpt, tetapi untuk keseluruhan audiobook berdurasi 8–20 jam rasanya tidak mudah. Pada level saat ini, saya rasa masih ada hambatan mendasar untuk mengubah epub menjadi audiobook kelas mutakhir. Saya penasaran apakah ada yang saya lewatkan
- Elevenlabs punya fitur pembuatan bergaya "full cast" yang memungkinkan suara berbeda ditetapkan ke karakter yang berbeda. Tetapi fitur itu tidak otomatis peka terhadap dialek. Dengan sistem saat ini, memang memungkinkan mengubah aksen atau gaya bicara tergantung konteks atau prompt, tetapi saya tidak tahu seberapa andal hasilnya
- Anda bisa memakai mixer untuk mencampur berbagai suara karakter dan menciptakan beragam nuansa. Bahkan memungkinkan juga memasukkan suara yang cocok untuk karakter berbeda langsung lewat kode
- Sebenarnya saya tidak terlalu suka pengarahan suara dengan banyak karakter. Membacakan kutipan dengan nada dan intonasi yang tepat sesuai konteks itu bagus, tetapi saya tidak suka jika setiap tokoh diberi suara berbeda
Alat ini memerlukan pip saat menjalankan aplikasi abogen, jadi harus dijalankan di lingkungan yang mendukung penggunaan pip. Bisa dimulai dengan perintah uv tool run abogen, tetapi macet di tahap instalasi model. Saya memastikan ini berjalan dengan benar memakai uv venv && uv pip install pip && source .venv/bin/activate && abogen. GUI yang dikemas juga bagus, UI untuk memilih halaman atau bagian dari berkas PDF juga baik, dan di laptop GTX 1650 saya kecepatannya juga tinggi. Hasilnya keluar sebagai audio .ogg dan berkas subtitle .ass, dan jika dibuka dengan mpv, saya bisa mendengar sambil membaca dari terminal. Satu hal yang agak disayangkan adalah line break dari PDF asli tetap terbawa, sehingga kadang kalimat terputus panjang di tengah dan mengganggu pemahaman. Menyalakan fitur untuk melewati single newline jelas memperbaikinya
- Saya mengonversi buku 110 halaman menjadi wav dalam waktu sekitar satu jam dengan RTX 4060. Jika fitur lewati line break tidak dinyalakan, hasilnya kurang bagus. Kalau opsi ini diaktifkan, hasilnya benar-benar luar biasa. Secara pribadi saya sangat suka suara af_heart, sementara af_jessica agak mengganggu. Masalah terbesar audiobook adalah selera terhadap pengisi suara sama pentingnya dengan isi bukunya sendiri. Saya merasa hari seperti ini memang akan segera datang, dan ini benar-benar mengagumkan. Saya sudah terlalu terbiasa dengan audiobook sampai-sampai membaca buku fisik sampai habis terasa sulit, jadi sungguh menakjubkan bahwa sekitar 20 buku yang tidak punya pasar cukup besar untuk dibacakan pengisi suara manusia kini bisa dengan mudah saya ubah ke suara yang saya suka memakai fitur ini
Saya sangat menyukai audiobook, tetapi sangat pemilih soal narasi. Ada banyak audiobook yang saya tinggalkan di tengah jalan karena pengisi suaranya tidak cocok untuk saya. Agar layanan seperti ini benar-benar bisa saya pakai, rasanya masih butuh waktu lama
- Saya juga pernah membeli dan mendengarkan seluruh seri hanya karena pengisi suaranya bagus, misalnya Grim Noir Chronicles atau karya full cast dari Soundbooth Theater. Jika yang diinginkan hanya mengubah teks menjadi getaran suara, teknologi TTS sudah memadai, tetapi menurut saya narasi AI masih belum bisa memberi pengalaman seperti yang bisa diberikan pengisi suara manusia
- Saya juga pernah meninggalkan audiobook di tengah karena pengisi suara, tetapi justru sebaliknya, saya merasa suara AI yang netral dan lumayan bagus mungkin akan membuat saya bisa menuntaskan buku-buku yang dulu sulit saya dengarkan. Bisa jadi suara AI yang rapi malah lebih baik daripada suara narasi resmi yang terasa canggung
- Ada juga kasus ketika seri yang semula dinarasikan oleh R. C. Bray tiba-tiba berganti ke pengisi suara lain dan langsung menjadi sangat sulit didengarkan sampai saya menyerah menamatkannya. Sebaliknya, ada juga narator seperti Wil Wheaton yang sengaja saya cari. Pada akhirnya, di audiobook, pengisi suara bisa menghidupkan atau justru merusak karya
- Saya penasaran audiobook favorit Anda apa
Sepertinya ini tidak akan bekerja dengan baik untuk buku yang selain teks juga berisi kode, diagram, gambar, dan semacamnya (yang tentu saja memang wajar). Saya juga penasaran apakah ada neural network open source yang bisa menerima halaman PDF lalu mengubahnya menjadi versi "prosa murni", misalnya jika ada halaman dengan gambar dan teks sekaligus, isi atau deskripsi gambar itu juga diubah menjadi teks
Saya pernah mencoba Kokoro TTS untuk konten pendek seperti blog atau artikel, tetapi hasilnya di bawah ekspektasi. Sekarang Gemini 2.5 Flash TTS jauh lebih baik performanya dan batas gratisnya juga longgar (10 menit per generasi, 90 menit per hari). Untuk tulisan pendek, masalah konsistensi suara tidak terlalu terasa, tetapi jika sepanjang satu buku penuh, ini jelas menjadi masalah
- Kokoro cukup oke sebagai TTS, tetapi ekspresi emosinya kurang. Mengingat ukuran modelnya, mungkin itu memang tidak terhindarkan
Saya mencoba alat ini untuk membuat audiobook dari buku-buku filsafat agar lebih mudah diakses, tetapi ada masalah penting. Jika kalimat yang dimasukkan ke Kokoro terlalu panjang, kata atau kalimat di bagian akhir akan terlewat atau terdengar kabur. Abogen memotong teks per kalimat, tetapi jika kalimatnya panjang, kalimat itu tetap masuk ke Kokoro apa adanya sehingga kualitas audiobook jadi tidak layak dipakai. Karena itu saya sedang membuat aplikasi GUI tkinter saya sendiri yang memecahnya lebih rinci dengan nltk dan regex
- Saya cukup puas menggunakan CLI "kokoro-tts" karena fitur pemotongan/pembagiannya lebih baik kokoro-tts. Alat ini juga membuat berkas audio dan metadata untuk tiap bab. Lalu saya bisa menggabungkan berkas-berkas audio itu dan menambahkan informasi bab dengan m4b-tool m4b-tool. Saya juga sangat ingin menulis sebuah post tentang alur kerja ini; sangat berguna
- Belakangan ini saya kesal karena hasil keluaran TTS deep learning terlalu tidak deterministik. Pendekatan klasik justru terasa lebih baik karena memberi pelafalan yang lebih bisa diprediksi
Secara pribadi saya berharap akan muncul solusi yang bisa mengubah PDF menjadi ePub yang rapi
Saya pernah memakai Kokoro TTS bersama audiblez untuk CLI. Meski modelnya kecil, kecepatannya tinggi dan kualitas suaranya mengesankan. Namun ada beberapa kekurangan: a) tidak bisa membedakan titik akhir kalimat dengan titik pada singkatan seperti "Mr." atau "Mrs.", sehingga muncul jeda yang canggung, b) penanganan elipsis (...) kurang baik, c) pelafalan kata selalu sama meskipun konteksnya berbeda
- Memanfaatkan tag fonem SSML juga bisa menjadi salah satu cara. Beberapa TTS mendukung ini. Anda juga bisa melakukan prapemrosesan dengan LLM yang kuat untuk menghindari masalah seperti itu
- Kasus seperti masalah Mr. / Mrs. tampaknya cukup mudah diperbaiki, setidaknya saya rasa sebagian dari kasus umum itu bisa dihilangkan

Abogen - Membuat audiobook dari EPUB, PDF, dan teks

Gambaran umum dan pentingnya Abogen

Ringkasan fitur utama

Rangkuman detail fitur Abogen

#Latar belakang awal dan instalasi

#Cara penggunaan utama

#Demo nyata

#Opsi pengaturan

#Voice Mixer

#Mode antrean

#Chapter marker/metadata

#Bahasa yang didukung

#Output dan pemanfaatan

#Perbedaan dari proyek serupa

#Roadmap dan kontribusi

#Kredit teknis dan lisensi

#Catatan dan batasan

Bacaan terkait

1 komentar

Komentar Hacker News