- Menyediakan fitur terintegrasi untuk kloning suara, text-to-speech, pembacaan dokumen, dan pembuatan audiobook
- Memanfaatkan akselerasi Metal berbasis MLX untuk menghadirkan performa native di lingkungan macOS (dukungan Windows direncanakan)
- Mengintegrasikan engine Qwen3-TTS dan Chatterbox yang memungkinkan kloning suara dengan sampel 3 detik
- Mendukung kloning suara multibahasa (23 bahasa) termasuk bahasa Korea serta ekspresi emosi
- Menyertakan model sintesis suara terbaru seperti Kokoro TTS, Supertonic-2, dan CosyVoice3 ONNX
- Fitur reader pembacaan dokumen: mendukung pembacaan file PDF, DOCX, EPUB, Markdown, dan TXT per kalimat
- Generator audiobook: mengonversi seluruh dokumen ke format WAV/MP3/M4B. Mendukung manajemen antrean per bab, pelacakan progres, dan penggunaan ulang preset suara
- Berjalan sebagai Agentic Voice Cloning Server dan mendukung pemrosesan paralel melalui orkestrasi antrean kerja tingkat lanjut
- Menyediakan UI, API, dan CLI sehingga bisa dipakai untuk otomatisasi lokal dan integrasi eksternal, serta memiliki server MCP bawaan
- Memiliki library suara bersama sehingga suara yang diunggah dapat digunakan ulang di semua engine
- Model manager bawaan: dapat mengunduh model HuggingFace dan memeriksa statusnya
- Mendukung integrasi Multi-LLM (Claude, OpenAI, Ollama, dll.)
- Codebase sekitar 18.600 baris yang terdiri dari backend FastAPI dan UI desktop Flutter
- Backend Python sekitar 8.500 baris, UI Dart sekitar 10.100 baris
- Menyediakan binary khusus macOS, sementara Windows/Linux baru mendukung kompatibilitas kode saja (build akan hadir nanti)
- Source code dirilis berdasarkan Business Source License 1.1 (BSL-1.1), sedangkan binary memakai lisensi distribusi terpisah
2 komentar
Apakah ini versi GUI dari mlx-audio? Kualitasnya memang jelas bagus.
Saya sudah mencobanya, dan ini benar-benar luar biasa.