MimikaStudio - Kloning Suara dan TTS open source untuk Mac

xguru · 2026-03-19T09:31:02+09:00

Menyediakan fitur terintegrasi untuk kloning suara, text-to-speech, pembacaan dokumen, dan pembuatan audiobook Memanfaatkan akselerasi Metal berbasis MLX untuk menghadirkan performa native di lingkungan macOS (dukungan Windows direncanakan) Mengintegrasikan engine Qwen3-TTS dan Chatterbox yang memungkinkan kloning suara dengan sampel 3 detik Mendukung kloning suara multibahasa (23 bahasa) termasuk bahasa Korea serta ekspresi emosi Menyertakan model sintesis suara terbaru seperti Kokoro TTS, Supertonic-2, dan CosyVoice3 ONNX Fitur reader pembacaan dokumen: mendukung pembacaan file PDF, DOCX, EPUB, Markdown, dan TXT per kalimat Generator audiobook: mengonversi seluruh dokumen ke format WAV/MP3/M4B. Mendukung manajemen antrean per bab, pelacakan progres, dan penggunaan ulang preset suara Berjalan sebagai Agentic Voice Cloning Server dan mendukung pemrosesan paralel melalui orkestrasi antrean kerja tingkat lanjut Menyediakan UI, API, dan CLI sehingga bisa dipakai untuk otomatisasi lokal dan integrasi eksternal, serta memiliki server MCP bawaan Memiliki library suara bersama sehingga suara yang diunggah dapat digunakan ulang di semua engine Model manager bawaan: dapat mengunduh model HuggingFace dan memeriksa statusnya Mendukung integrasi Multi-LLM (Claude, OpenAI, Ollama, dll.) Codebase sekitar 18.600 baris yang terdiri dari backend FastAPI dan UI desktop Flutter Backend Python sekitar 8.500 baris, UI Dart sekitar 10.100 baris Menyediakan binary khusus macOS, sementara Windows/Linux baru mendukung kompatibilitas kode saja (build akan hadir nanti) Source code dirilis berdasarkan Business Source License 1.1 (BSL-1.1), sedangkan binary memakai lisensi distribusi terpisah

(github.com/BoltzmannEntropy)

42 poin oleh xguru 2026-03-19 | 2 komentar | Bagikan ke WhatsApp

Menyediakan fitur terintegrasi untuk kloning suara, text-to-speech, pembacaan dokumen, dan pembuatan audiobook
Memanfaatkan akselerasi Metal berbasis MLX untuk menghadirkan performa native di lingkungan macOS (dukungan Windows direncanakan)
Mengintegrasikan engine Qwen3-TTS dan Chatterbox yang memungkinkan kloning suara dengan sampel 3 detik
- Mendukung kloning suara multibahasa (23 bahasa) termasuk bahasa Korea serta ekspresi emosi
Menyertakan model sintesis suara terbaru seperti Kokoro TTS, Supertonic-2, dan CosyVoice3 ONNX
Fitur reader pembacaan dokumen: mendukung pembacaan file PDF, DOCX, EPUB, Markdown, dan TXT per kalimat
Generator audiobook: mengonversi seluruh dokumen ke format WAV/MP3/M4B. Mendukung manajemen antrean per bab, pelacakan progres, dan penggunaan ulang preset suara
Berjalan sebagai Agentic Voice Cloning Server dan mendukung pemrosesan paralel melalui orkestrasi antrean kerja tingkat lanjut
Menyediakan UI, API, dan CLI sehingga bisa dipakai untuk otomatisasi lokal dan integrasi eksternal, serta memiliki server MCP bawaan
Memiliki library suara bersama sehingga suara yang diunggah dapat digunakan ulang di semua engine
Model manager bawaan: dapat mengunduh model HuggingFace dan memeriksa statusnya
Mendukung integrasi Multi-LLM (Claude, OpenAI, Ollama, dll.)
Codebase sekitar 18.600 baris yang terdiri dari backend FastAPI dan UI desktop Flutter
- Backend Python sekitar 8.500 baris, UI Dart sekitar 10.100 baris
Menyediakan binary khusus macOS, sementara Windows/Linux baru mendukung kompatibilitas kode saja (build akan hadir nanti)
Source code dirilis berdasarkan Business Source License 1.1 (BSL-1.1), sedangkan binary memakai lisensi distribusi terpisah

2 komentar

neocode24 2026-03-19

Apakah ini versi GUI dari mlx-audio? Kualitasnya memang jelas bagus.

jhk0530 2026-03-19

Saya sudah mencobanya, dan ini benar-benar luar biasa.

MimikaStudio - Kloning Suara dan TTS open source untuk Mac

Bacaan terkait

2 komentar