42 poin oleh xguru 2026-03-19 | 2 komentar | Bagikan ke WhatsApp
  • Menyediakan fitur terintegrasi untuk kloning suara, text-to-speech, pembacaan dokumen, dan pembuatan audiobook
  • Memanfaatkan akselerasi Metal berbasis MLX untuk menghadirkan performa native di lingkungan macOS (dukungan Windows direncanakan)
  • Mengintegrasikan engine Qwen3-TTS dan Chatterbox yang memungkinkan kloning suara dengan sampel 3 detik
    • Mendukung kloning suara multibahasa (23 bahasa) termasuk bahasa Korea serta ekspresi emosi
  • Menyertakan model sintesis suara terbaru seperti Kokoro TTS, Supertonic-2, dan CosyVoice3 ONNX
  • Fitur reader pembacaan dokumen: mendukung pembacaan file PDF, DOCX, EPUB, Markdown, dan TXT per kalimat
  • Generator audiobook: mengonversi seluruh dokumen ke format WAV/MP3/M4B. Mendukung manajemen antrean per bab, pelacakan progres, dan penggunaan ulang preset suara
  • Berjalan sebagai Agentic Voice Cloning Server dan mendukung pemrosesan paralel melalui orkestrasi antrean kerja tingkat lanjut
  • Menyediakan UI, API, dan CLI sehingga bisa dipakai untuk otomatisasi lokal dan integrasi eksternal, serta memiliki server MCP bawaan
  • Memiliki library suara bersama sehingga suara yang diunggah dapat digunakan ulang di semua engine
  • Model manager bawaan: dapat mengunduh model HuggingFace dan memeriksa statusnya
  • Mendukung integrasi Multi-LLM (Claude, OpenAI, Ollama, dll.)
  • Codebase sekitar 18.600 baris yang terdiri dari backend FastAPI dan UI desktop Flutter
    • Backend Python sekitar 8.500 baris, UI Dart sekitar 10.100 baris
  • Menyediakan binary khusus macOS, sementara Windows/Linux baru mendukung kompatibilitas kode saja (build akan hadir nanti)
  • Source code dirilis berdasarkan Business Source License 1.1 (BSL-1.1), sedangkan binary memakai lisensi distribusi terpisah

2 komentar

 
neocode24 2026-03-19

Apakah ini versi GUI dari mlx-audio? Kualitasnya memang jelas bagus.

 
jhk0530 2026-03-19

Saya sudah mencobanya, dan ini benar-benar luar biasa.