Dia - Model TTS open-weight yang menghasilkan percakapan realistis

(github.com/nari-labs)

41 poin oleh GN⁺ 2025-04-22 | 13 komentar | Bagikan ke WhatsApp

Dia adalah model TTS 1.6B parameter yang menghasilkan suara percakapan berkualitas tinggi berdasarkan dialog teks, dengan kendali emosi dan tone melalui prompt audio
Dikembangkan oleh Nari Labs, dan "Nari" dalam bahasa Korea murni berarti "lili"
Dengan [S1], [S2] untuk menandai pembicara, model ini juga dapat menghasilkan ekspresi nonverbal seperti (laughs), (coughs), serta mendukung voice cloning sederhana
Dapat langsung dijalankan di HuggingFace, serta menyediakan pengujian berbasis browser dan dukungan ZeroGPU tanpa instalasi terpisah
Saat ini hanya mendukung bahasa Inggris, membutuhkan VRAM 10GB atau lebih, dan ke depannya direncanakan model terkuantisasi serta dukungan multibahasa

Dia: model sintesis suara yang berfokus pada percakapan

Dia adalah model TTS open-weight 1.6B parameter yang dikembangkan oleh Nari Labs
Tidak seperti TTS konvensional yang menghasilkan suara per pembicara secara terpisah, model ini menggunakan pendekatan menghasilkan seluruh percakapan sekaligus
Demo: Hugging Face Space
Kode: repositori GitHub

Fitur utama

Pembuatan suara percakapan

Pembicara dapat ditandai di dalam teks dengan [S1], [S2]
Suara nonverbal seperti (laughs), (coughs) juga dapat disisipkan melalui teks
Emosi, tone, dan gaya suara dapat ditentukan melalui prompt audio

Voice cloning

Jika audio contoh dan dialog terkait diberikan bersama dalam bentuk teks, fitur voice cloning akan aktif
Bisa dicoba dengan mengunggah audio di Hugging Face Space
Untuk contoh rinci, lihat example/voice_clone.py

Digunakan sebagai library

from dia.model import Dia  
model = Dia.from_pretrained("nari-labs/Dia-1.6B")  
output = model.generate(text)

Output MP3 dapat dibuat dengan soundfile
Paket PyPI dan alat CLI juga akan segera tersedia

Instalasi dan menjalankan

Cara cepat menjalankan (berbasis Gradio)

git clone https://github.com/nari-labs/dia.git  
cd dia && uv run app.py

Atau jika tidak ada uv:

cd dia  
python -m venv .venv  
source .venv/bin/activate  
pip install uv  
uv run app.py

Descript Audio Codec akan diunduh otomatis saat dijalankan
Setiap kali dijalankan, suara akan dihasilkan secara acak, jadi untuk konsistensi perlu mengunci prompt atau seed

Performa dan kebutuhan perangkat keras

Lingkungan pengujian: PyTorch 2.0+, CUDA 12.6 atau lebih baru
VRAM yang disarankan: 10GB atau lebih, dan versi terkuantisasi (Quantized) akan segera dirilis
Berdasarkan GPU A4000, menghasilkan sekitar 40 token/detik (86 token = sekitar 1 detik suara)
Kecepatan dapat ditingkatkan dengan torch.compile

Rencana selanjutnya dan TODO

Dukungan Docker
Optimalisasi kecepatan inferensi
Kuantisasi model (efisiensi memori)
Sedang dipertimbangkan perluasan seperti dukungan multibahasa dan lebih banyak pembicara

Lisensi dan batasan penggunaan

Menggunakan lisensi Apache 2.0
Contoh penggunaan yang dilarang:
- Menghasilkan suara orang lain tanpa izin (Identity Misuse)
- Membuat informasi palsu (Fake News, dll.)
- Tujuan ilegal atau bermaksud jahat

Komunitas dan kontribusi

Tim kecil yang terdiri dari 1 peneliti penuh waktu + 1 paruh waktu
Umpan balik dan usulan fitur dapat dibagikan melalui server Discord
Proyek berorientasi open source yang tumbuh bersama para kontributor

Referensi dan landasan teknis

Model suara: terinspirasi dari SoundStorm, Parakeet, Descript Audio Codec
Dukungan komputasi: Google TPU Research Cloud, program HuggingFace ZeroGPU
"Nari" dalam bahasa Korea murni berarti "lili"

13 komentar

reagea0 2025-04-24

Wah, ini sangat bagus. Untuk dikerjakan berdua saja, pasti tidak mudah bahkan untuk mengamankan data pelatihannya, jadi sungguh luar biasa.

princox 2025-04-24

Yang bikin sendiri muncul~ Saya juga jadi ingin coba pakai sekali.

kleinstein 2025-04-22

Saya menantikan dukungan bahasa Korea!!

toebee 2025-04-22

Oh, saya tadinya mau membuat dan mengunggah ini, tapi ternyata sudah lebih dulu diunggah dengan cepat. Terima kasih.

winterjung 2025-04-22

Wah, ternyata ini dibuat oleh orang Korea ya! Saya membandingkannya sambil mendengarkan di halaman demo, dan performanya memang sangat bagus. Jika memberikan audio prompt, apakah model ini akan merujuk pada suara tersebut? Saya juga penasaran apakah contoh yang dibedakan sebagai s1 dan s2 perlu dimasukkan masing-masing.

toebee 2025-04-22

Terima kasih! Anda tidak perlu memasukkan contoh yang dipisahkan dengan [S1] [S2] ke dalam audio prompt. Anda bisa memasukkan hanya [S1], atau [S1] dan [S2] keduanya juga tidak masalah. Yang penting, pastikan [S1] selalu datang lebih dulu.

xguru 2025-04-22

Sepertinya karena mendapat banyak upvote di Hacker News, GN+ otomatis membuat ringkasannya. Saya hanya menambahkan sedikit rangkuman lagi.

Semangat!!

toebee 2025-04-22

Terima kasih :))

toebee 2025-04-22

Ini model yang saya buat, hehe...

kgh1379 2025-04-22

Keren sekali!! Akan saya pakai dengan baik T_T/

toebee 2025-04-22

Terima kasih :)) mohon bantuannya untuk memberi bintang di GitHub ya hehe

kgh1379 2025-04-22

Selesai! Saya juga ingin segera melihat berita berbahasa Korea!! Terima kasih

GN⁺ 2025-04-22

Opini Hacker News

Kekaguman dan pujian teknis

Meski ini adalah proyek yang dibuat hanya oleh dua orang dalam waktu 3 bulan, kualitasnya terlihat sangat tinggi
Sangat mengesankan bahwa tim kecil bisa menghasilkan hasil yang kompetitif di bidang model audio dibanding perusahaan besar
Muncul reaksi seperti "terdengar seperti manusia sungguhan", "seperti melihat masa depan TTS", dan "contohnya menakjubkan"
Beberapa pengguna menilai contoh audio berbasis adegan The Office sebagai yang paling mengesankan

Penilaian terhadap kualitas dan karakteristik suara

Mayoritas memberi tanggapan positif seperti "alami seperti manusia", "ekspresi emosinya bagus", dan "detail seperti tawa, batuk, teriakan terasa hidup"
Sebagian juga menyebut kekurangan seperti emosi yang berlebihan, nuansa seperti iklan, dan noise di bagian awal
Ada juga pendapat bahwa suaranya mirip gaya pengisi suara tertentu (misalnya tone NPR) atau nuansa animasi Flash YouTube lama

Ulasan penggunaan demo dan pengujian langsung

Dibagikan beberapa contoh keberhasilan menjalankan model di berbagai perangkat keras seperti M2 MacBook
Banyak yang memuji karena bisa langsung mencobanya secara online lewat HuggingFace Spaces
Ada juga umpan balik bahwa model dapat dijalankan dengan mudah menggunakan container Docker dan CUDA

Diskusi terkait penggunaan untuk audiobook dan novel

Berbagai pengguna mengeksplorasi potensinya untuk pembuatan audiobook, pemisahan pengisi suara per karakter, dan dialog yang kaya emosi
Namun, sebagian tetap berpendapat bahwa "pengisi suara manusia masih lebih baik" dan bahwa "pengisi suara yang bagus memberi tekstur unik pada karya"
Ada juga bantahan bahwa jika AI mampu menafsirkan emosi dan karakter dengan tepat, hasilnya justru bisa lebih baik

Permintaan fitur dan pertanyaan terkait sintesis suara

Muncul permintaan fitur/dukungan seperti berikut:
- dukungan multibahasa (Mandarin, Finlandia, dll.)
- dukungan percakapan 2 orang atau lebih
- voice cloning (suara sendiri)
- informasi timing per kata
- dukungan GPU AMD
- dukungan output streaming
Menanggapi hal ini, pihak pengembang membagikan bahwa beberapa fitur sedang dikembangkan atau direncanakan untuk didukung nanti

Lisensi dan open source

Didistribusikan dengan Apache 2.0, dan pengembang menjelaskan langsung bahwa frasa awalnya (dibatasi untuk tujuan riset) sebenarnya bermakna "jangan lakukan hal-hal shady"
Sejumlah pengguna menunjukkan bahwa ini perlu diperjelas agar tidak menimbulkan kebingungan

Pertanyaan terkait data pelatihan dan proses training

Banyak pengguna bertanya "dataset-nya berasal dari mana" dan "bagaimana model ini dilatih"
Pihak pengembang menjawab bahwa mereka berencana memberikan gambaran tingkat tinggi dalam laporan teknis

Kontroversi nama yang tumpang tindih

Ada yang menyoroti benturan nama dengan tool diagram GNOME (Dia) dan diabrowser.com
Muncul juga kritik bahwa "proyek AI sengaja meminjam nama open source yang sudah ada"
Menanggapi ini, pihak pengembang menjawab, "kami tidak tahu, ke depan kami akan membedakannya dengan lebih jelas"

Umpan balik soal kemudahan penggunaan dan perbaikan

Ada pendapat bahwa situs demo berbasis Notion lambat dan tidak nyaman untuk berbagi tautan → disarankan halaman ringan seperti GitHub Pages
Ada usulan perbaikan README seperti kebingungan pada frasa "join waitlist" dan penyebutan venv yang tidak perlu
Dibagikan juga umpan balik terkait konfigurasi, seperti masalah model yang diunduh setiap kali karena cache server tidak digunakan

Contoh pengembangan/penerapan dan integrasi

Dibandingkan dengan model TTS lain seperti E5-F2 dan Sesame-TTS
Ada pengguna yang menekankan akurasi pada domain tertentu seperti istilah medis
Ada permintaan informasi codec untuk menjalankannya di iOS serta gagasan kemungkinan penerapannya
Dibagikan juga faktor yang perlu dipertimbangkan saat diterapkan ke layanan nyata, seperti streaming dan kecepatan respons awal

Lain-lain

Dibagikan panduan dan perbaikan terkait error tautan HuggingFace atau masalah akses
Ditemukan juga fitur kecil tambahan seperti bookmark pada antarmuka demo
Disebutkan pula keterbatasan hardware pengguna serta harapan dan kekhawatiran umum terkait pemanfaatan TTS

Dia - Model TTS open-weight yang menghasilkan percakapan realistis

Dia: model sintesis suara yang berfokus pada percakapan

Fitur utama

Pembuatan suara percakapan

Voice cloning

Digunakan sebagai library

Instalasi dan menjalankan

Cara cepat menjalankan (berbasis Gradio)

Performa dan kebutuhan perangkat keras

Rencana selanjutnya dan TODO

Lisensi dan batasan penggunaan

Komunitas dan kontribusi

Referensi dan landasan teknis

Bacaan terkait

13 komentar

Opini Hacker News

Kekaguman dan pujian teknis

Penilaian terhadap kualitas dan karakteristik suara

Ulasan penggunaan demo dan pengujian langsung

Diskusi terkait penggunaan untuk audiobook dan novel

Permintaan fitur dan pertanyaan terkait sintesis suara

Lisensi dan open source

Pertanyaan terkait data pelatihan dan proses training

Kontroversi nama yang tumpang tindih

Umpan balik soal kemudahan penggunaan dan perbaikan

Contoh pengembangan/penerapan dan integrasi

Lain-lain