- Abogen adalah alat open-source yang memudahkan konversi file ePub, PDF, dan teks menjadi audiobook berkualitas tinggi
- Dalam proses konversi, subtitle tersinkronisasi dengan audio juga dibuat secara otomatis
- Menyediakan beragam fitur seperti mixing suara kustom, format encoding, pemisahan bab, dan pemrosesan batch (mode antrean)
- Menggunakan mesin sintesis suara Kokoro-82M terbaru untuk mendukung kualitas TTS yang alami dan multibahasa
- Dibanding proyek lain, keunggulannya mencakup GUI yang intuitif, pengelolaan folder per proyek, dan pemrosesan metadata otomatis
Gambaran umum dan pentingnya Abogen
- Abogen adalah alat text-to-speech (TTS) open-source yang dengan cepat mengubah file teks (ePub, PDF, .txt, dll.) menjadi audiobook yang terdengar alami
- Menawarkan fitur yang kaya seperti antarmuka intuitif, pemrosesan batch multi-file, mixing suara pengguna, beragam format output, pengelolaan bab, dan dukungan metadata
- Tidak seperti proyek open-source lain, dengan pengoperasian yang sederhana pengguna bisa dengan mudah mendapatkan audio berkualitas tinggi (terutama TTS berbasis Kokoro-82M) beserta subtitle
- Proses instalasi awal dan pengaturan environment Python yang rumit diotomatisasi sehingga developer pemula pun dapat memanfaatkannya dengan mudah
- Secara khusus, pemrosesan bab dan metadata per proyek, lingkungan GUI, serta fitur suara kustom dinilai sebagai keunggulan kompetitif di industri
Ringkasan fitur utama
- Text-to-speech (TTS) untuk mengubah ePub, PDF, dan file teks menjadi audio dalam hitungan detik
- Subtitle tersinkronisasi dibuat otomatis, mendukung kecocokan sempurna antara audio dan subtitle
- Menggunakan voice mixer untuk menggabungkan beberapa model suara dan membuat profil suara sendiri
- Fitur mode antrean mendukung pemrosesan batch banyak file sekaligus dan mempertahankan pengaturan terpisah untuk tiap file
- Pembuatan otomatis chapter marker/metadata dan fitur pengelolaan folder proyek
- Beragam format output: mendukung WAV, FLAC, MP3, OPUS, M4B, serta subtitle yang dapat dipilih seperti SRT/ASS
- Dukungan bahasa utama: Inggris AS/Inggris Britania, Spanyol, Prancis, Hindi, Italia, Jepang, Portugis, Mandarin, dan lainnya
- Memberikan kualitas tinggi dan pelafalan alami berbasis mesin TTS Kokoro-82M
- Mendukung GUI maupun command line, serta dapat menggunakan container Docker
Rangkuman detail fitur Abogen
#Latar belakang awal dan instalasi
- Alat TTS yang sudah ada memiliki banyak keterbatasan dalam instalasi, konfigurasi environment, kualitas, kustomisasi, dan pemrosesan multi-file
- Abogen dibuat agar pemula pun dapat dengan mudah mengakses fitur lanjutan seperti konversi teks-ke-audio, pembuatan subtitle, dan mixing suara melalui antarmuka yang praktis namun kuat
- Dapat digunakan di berbagai OS (Windows, Linux, macOS), dan mendukung penyiapan environment bawaan/otomatis tanpa perlu instalasi Python terlebih dahulu
#Cara penggunaan utama
- File ePub, PDF, atau teks bisa di-drag-and-drop atau diedit dengan editor bawaan
- Pengaturan: dapat memilih secara rinci kecepatan baca, suara (model·gender·bahasa), gaya subtitle (per kalimat·per kata), format output audio dan subtitle, jalur output, dan lainnya
- Hasil dapat langsung dibuat hanya dengan menekan tombol mulai konversi
#Demo nyata
- Bahkan pada GPU berspesifikasi rendah, sekitar 3.000 karakter teks dapat dihasilkan menjadi audio berdurasi 3 menit 28 detik hanya dalam 11 detik
- Kecepatan pemrosesan akan berbeda tergantung spesifikasi hardware
#Opsi pengaturan
- Metode input: drag-and-drop, editor bawaan, dan pengelolaan antrean untuk memproses beberapa file sekaligus
- Kecepatan baca: penyesuaian detail dari 0.1x hingga 2.0x
- Pemilihan dan pratinjau suara: model berdasarkan bahasa dan gender, serta penetapan profil suara sendiri dengan custom mixer
- Pembuatan subtitle: otomatisasi subtitle per kalimat, per koma, atau per n kata
- Output audio: WAV, FLAC, MP3, OPUS, M4B (termasuk bab)
- Format subtitle: mendukung kustomisasi seperti SRT, ASS, dll.
- Pengelolaan bab dan proyek: simpan ke folder proyek yang mencakup audio per bab, versi gabungan, dan metadata
- Beragam opsi UI seperti tema, log, shortcut, dan lainnya
#Voice Mixer
- Menggabungkan beberapa model suara dengan pengaturan bobot, sehingga bisa membuat, menyimpan, dan memakai ulang suara unik sendiri
- Hasil mixing suara dapat dipratinjau dan diterapkan sebagai profil suara
#Mode antrean
- Mempertahankan pengaturan terpisah untuk tiap file, serta mengonversi banyak teks dan eBook sekaligus secara otomatis
- Setiap file menyimpan pengaturan masing-masing saat ditambahkan ke antrean, terpisah dari perubahan pada pengaturan utama
#Chapter marker/metadata
- Secara otomatis menyisipkan tag pemisah bab
- Tag `` juga dapat disisipkan secara manual
- Saat terjadi error, hal ini memudahkan pemrosesan ulang cepat hanya pada bab terkait
- Dengan tag metadata, informasi seperti judul, penulis, dan tahun dapat ditambahkan agar tampil di aplikasi audiobook
- Dapat ditambahkan di bagian awal file teks
#Bahasa yang didukung
- Dukungan multibahasa dari mesin Kokoro-82M
- Inggris (AS/UK), Spanyol, Prancis, Hindi, Italia, Jepang, Portugis Brasil, Mandarin, dan lainnya
- Subtitle untuk bahasa lain dapat diminta untuk ditambahkan di masa mendatang karena keterbatasan teknis engine
#Output dan pemanfaatan
- Disarankan memakai media player tingkat lanjut seperti MPV yang mendukung subtitle tersinkronisasi
- Mendukung menjalankan server berbasis Docker
#Perbedaan dari proyek serupa
- Abogen menawarkan kenyamanan tingkat tinggi lewat GUI mandiri dan fitur kustomisasi, pengelolaan folder per proyek, otomatisasi bab dan metadata, pemrosesan antrean, serta mixed voice
- Memiliki kemiripan dengan audiblez, autiobooks, pdf-narrator, epub_to_audiobook, ebook2audiobook, tetapi penggunaan GUI, mesin TTS canggih, dan sinkronisasi bab/subtitle menjadi poin pembeda utamanya
#Roadmap dan kontribusi
- Direncanakan penambahan OCR (pengenalan dokumen) dan penguatan GUI multibahasa
- Siapa pun dapat berkontribusi ke open source ini dengan melakukan fork, menambah fitur, atau memperbaiki bug
#Kredit teknis dan lisensi
- Memanfaatkan berbagai teknologi open-source mitra seperti TTS Kokoro-82M, GUI berbasis PyQt, dan integrasi EbookLib
- Lisensi MIT (bebas untuk penggunaan komersial dan modifikasi), sedangkan engine (Kokoro) berlisensi Apache-2.0
#Catatan dan batasan
- Fitur sinkronisasi subtitle saat ini hanya tersedia untuk bahasa Inggris (dukungan bahasa lain memerlukan pengembangan engine Kokoro)
- Beberapa fitur memiliki keterbatasan (misalnya audio preview di dalam Docker)
- Untuk panduan detail instalasi dan pengaturan environment, lihat dokumentasi resmi
Belum ada komentar.