42 poin oleh xguru 5 hari lalu | 2 komentar | Bagikan ke WhatsApp
  • Mendukung 30 bahasa termasuk bahasa Korea, dan bisa langsung melakukan sintesis hanya dengan memasukkan teks tanpa perlu menentukan tag bahasa
  • Tanpa sampel pengisi suara, cukup tambahkan deskripsi bahasa alami seperti (Young female voice, warm and gentle) di depan teks (jenis kelamin, usia, tone, emosi, kecepatan) untuk langsung membuat karakter suara yang diinginkan
  • Sistem TTS berbasis diffusion autoregressive yang langsung menghasilkan representasi suara kontinu tanpa melalui tokenisasi diskret, dengan model 2B parameter yang dilatih menggunakan lebih dari 2 juta jam data multibahasa
  • Mendukung Controllable Voice Cloning yang dapat menyalin timbre dari klip referensi pendek sambil mengatur emosi, kecepatan, dan gaya secara terpisah (slightly faster, cheerful tone)
  • Mode Ultimate Cloning yang, jika audio referensi + transkrip dimasukkan bersama, mereproduksi seluruh timbre, ritme, emosi, dan gaya tanpa perlu post-processing tambahan
  • Meski input referensi 16kHz, sistem ini langsung menghasilkan output 48kHz setara studio dengan encode/decode asimetris AudioVAE V2. Tidak perlu upsampler eksternal atau membangun pipeline post-processing
  • Berdasarkan RTX 4090, RTF (Real-Time Factor) sekitar 0.3, dan sekitar 0.13 saat dipercepat dengan Nano-vLLM, sehingga dapat digunakan untuk streaming real-time
  • Dapat berjalan dengan sekitar 8GB VRAM, sehingga bisa dioperasikan juga pada GPU kelas RTX 3070~4060
  • Di Seed-TTS-eval, termasuk peringkat teratas dalam kemiripan pembicara (SIM) di antara model open-source, dengan rata-rata error rate 1.68% pada benchmark ASR internal 30 bahasa
  • Hanya dengan audio berdurasi 5~10 menit, adaptasi pembicara atau domain tertentu dimungkinkan melalui fine-tuning LoRA, dan juga mendukung pelatihan dan inferensi berbasis WebUI lewat lora_ft_webui.py
  • Berbasis backbone MiniCPM-4, tersusun dari pipeline 4 tahap LocEnc → TSLM → RALM → LocDiT
  • Tersedia banyak opsi inferensi bahkan di lingkungan tanpa GPU seperti inferensi CPU GGML/GGUF (VoxCPM.cpp), konversi ONNX, backend Apple Neural Engine, reimplementasi Rust, node ComfyUI, dan lainnya
  • Lisensi Apache-2.0 tanpa pembatasan penggunaan komersial, implementasi Python

2 komentar

 
cr543l 5 hari lalu

Bahkan di 3060 juga bisa dicoba, kualitasnya sangat bagus.

 
crawler 5 hari lalu

Saya sempat merasa familiar dengan OpenBMB, ternyata itu tempat yang membuat model MiniCPM-o.
Model MiniCPM-o adalah model omni seperti GPT 4o, dan performanya cukup bagus.

Silakan cek video demo MiniCPM-o,

Saya cukup puas dengan model itu, jadi saya juga jadi menantikan model kloning suara yang baru ini.