41 poin oleh GN⁺ 2025-04-22 | 13 komentar | Bagikan ke WhatsApp
  • Dia adalah model TTS 1.6B parameter yang menghasilkan suara percakapan berkualitas tinggi berdasarkan dialog teks, dengan kendali emosi dan tone melalui prompt audio
  • Dikembangkan oleh Nari Labs, dan "Nari" dalam bahasa Korea murni berarti "lili"
  • Dengan [S1], [S2] untuk menandai pembicara, model ini juga dapat menghasilkan ekspresi nonverbal seperti (laughs), (coughs), serta mendukung voice cloning sederhana
  • Dapat langsung dijalankan di HuggingFace, serta menyediakan pengujian berbasis browser dan dukungan ZeroGPU tanpa instalasi terpisah
  • Saat ini hanya mendukung bahasa Inggris, membutuhkan VRAM 10GB atau lebih, dan ke depannya direncanakan model terkuantisasi serta dukungan multibahasa

Dia: model sintesis suara yang berfokus pada percakapan

  • Dia adalah model TTS open-weight 1.6B parameter yang dikembangkan oleh Nari Labs
  • Tidak seperti TTS konvensional yang menghasilkan suara per pembicara secara terpisah, model ini menggunakan pendekatan menghasilkan seluruh percakapan sekaligus
  • Demo: Hugging Face Space
  • Kode: repositori GitHub

Fitur utama

Pembuatan suara percakapan

  • Pembicara dapat ditandai di dalam teks dengan [S1], [S2]
  • Suara nonverbal seperti (laughs), (coughs) juga dapat disisipkan melalui teks
  • Emosi, tone, dan gaya suara dapat ditentukan melalui prompt audio

Voice cloning

  • Jika audio contoh dan dialog terkait diberikan bersama dalam bentuk teks, fitur voice cloning akan aktif
  • Bisa dicoba dengan mengunggah audio di Hugging Face Space
  • Untuk contoh rinci, lihat example/voice_clone.py

Digunakan sebagai library

from dia.model import Dia  
model = Dia.from_pretrained("nari-labs/Dia-1.6B")  
output = model.generate(text)  
  • Output MP3 dapat dibuat dengan soundfile
  • Paket PyPI dan alat CLI juga akan segera tersedia

Instalasi dan menjalankan

Cara cepat menjalankan (berbasis Gradio)

git clone https://github.com/nari-labs/dia.git  
cd dia && uv run app.py  

Atau jika tidak ada uv:

cd dia  
python -m venv .venv  
source .venv/bin/activate  
pip install uv  
uv run app.py  
  • Descript Audio Codec akan diunduh otomatis saat dijalankan
  • Setiap kali dijalankan, suara akan dihasilkan secara acak, jadi untuk konsistensi perlu mengunci prompt atau seed

Performa dan kebutuhan perangkat keras

  • Lingkungan pengujian: PyTorch 2.0+, CUDA 12.6 atau lebih baru
  • VRAM yang disarankan: 10GB atau lebih, dan versi terkuantisasi (Quantized) akan segera dirilis
  • Berdasarkan GPU A4000, menghasilkan sekitar 40 token/detik (86 token = sekitar 1 detik suara)
  • Kecepatan dapat ditingkatkan dengan torch.compile

Rencana selanjutnya dan TODO

  • Dukungan Docker
  • Optimalisasi kecepatan inferensi
  • Kuantisasi model (efisiensi memori)
  • Sedang dipertimbangkan perluasan seperti dukungan multibahasa dan lebih banyak pembicara

Lisensi dan batasan penggunaan

  • Menggunakan lisensi Apache 2.0
  • Contoh penggunaan yang dilarang:
    • Menghasilkan suara orang lain tanpa izin (Identity Misuse)
    • Membuat informasi palsu (Fake News, dll.)
    • Tujuan ilegal atau bermaksud jahat

Komunitas dan kontribusi

  • Tim kecil yang terdiri dari 1 peneliti penuh waktu + 1 paruh waktu
  • Umpan balik dan usulan fitur dapat dibagikan melalui server Discord
  • Proyek berorientasi open source yang tumbuh bersama para kontributor

Referensi dan landasan teknis

  • Model suara: terinspirasi dari SoundStorm, Parakeet, Descript Audio Codec
  • Dukungan komputasi: Google TPU Research Cloud, program HuggingFace ZeroGPU
  • "Nari" dalam bahasa Korea murni berarti "lili"

13 komentar

 
reagea0 2025-04-24

Wah, ini sangat bagus. Untuk dikerjakan berdua saja, pasti tidak mudah bahkan untuk mengamankan data pelatihannya, jadi sungguh luar biasa.

 
princox 2025-04-24

Yang bikin sendiri muncul~ Saya juga jadi ingin coba pakai sekali.

 
kleinstein 2025-04-22

Saya menantikan dukungan bahasa Korea!!

 
toebee 2025-04-22

Oh, saya tadinya mau membuat dan mengunggah ini, tapi ternyata sudah lebih dulu diunggah dengan cepat. Terima kasih.

 
winterjung 2025-04-22

Wah, ternyata ini dibuat oleh orang Korea ya! Saya membandingkannya sambil mendengarkan di halaman demo, dan performanya memang sangat bagus. Jika memberikan audio prompt, apakah model ini akan merujuk pada suara tersebut? Saya juga penasaran apakah contoh yang dibedakan sebagai s1 dan s2 perlu dimasukkan masing-masing.

 
toebee 2025-04-22

Terima kasih! Anda tidak perlu memasukkan contoh yang dipisahkan dengan [S1] [S2] ke dalam audio prompt. Anda bisa memasukkan hanya [S1], atau [S1] dan [S2] keduanya juga tidak masalah. Yang penting, pastikan [S1] selalu datang lebih dulu.

 
xguru 2025-04-22

Sepertinya karena mendapat banyak upvote di Hacker News, GN+ otomatis membuat ringkasannya. Saya hanya menambahkan sedikit rangkuman lagi.

Semangat!!

 
toebee 2025-04-22

Terima kasih :))

 
toebee 2025-04-22

Ini model yang saya buat, hehe...

 
kgh1379 2025-04-22

Keren sekali!! Akan saya pakai dengan baik T_T/

 
toebee 2025-04-22

Terima kasih :)) mohon bantuannya untuk memberi bintang di GitHub ya hehe

 
kgh1379 2025-04-22

Selesai! Saya juga ingin segera melihat berita berbahasa Korea!! Terima kasih

 
GN⁺ 2025-04-22
Opini Hacker News

Kekaguman dan pujian teknis

  • Meski ini adalah proyek yang dibuat hanya oleh dua orang dalam waktu 3 bulan, kualitasnya terlihat sangat tinggi
  • Sangat mengesankan bahwa tim kecil bisa menghasilkan hasil yang kompetitif di bidang model audio dibanding perusahaan besar
  • Muncul reaksi seperti "terdengar seperti manusia sungguhan", "seperti melihat masa depan TTS", dan "contohnya menakjubkan"
  • Beberapa pengguna menilai contoh audio berbasis adegan The Office sebagai yang paling mengesankan

Penilaian terhadap kualitas dan karakteristik suara

  • Mayoritas memberi tanggapan positif seperti "alami seperti manusia", "ekspresi emosinya bagus", dan "detail seperti tawa, batuk, teriakan terasa hidup"
  • Sebagian juga menyebut kekurangan seperti emosi yang berlebihan, nuansa seperti iklan, dan noise di bagian awal
  • Ada juga pendapat bahwa suaranya mirip gaya pengisi suara tertentu (misalnya tone NPR) atau nuansa animasi Flash YouTube lama

Ulasan penggunaan demo dan pengujian langsung

  • Dibagikan beberapa contoh keberhasilan menjalankan model di berbagai perangkat keras seperti M2 MacBook
  • Banyak yang memuji karena bisa langsung mencobanya secara online lewat HuggingFace Spaces
  • Ada juga umpan balik bahwa model dapat dijalankan dengan mudah menggunakan container Docker dan CUDA

Diskusi terkait penggunaan untuk audiobook dan novel

  • Berbagai pengguna mengeksplorasi potensinya untuk pembuatan audiobook, pemisahan pengisi suara per karakter, dan dialog yang kaya emosi
  • Namun, sebagian tetap berpendapat bahwa "pengisi suara manusia masih lebih baik" dan bahwa "pengisi suara yang bagus memberi tekstur unik pada karya"
  • Ada juga bantahan bahwa jika AI mampu menafsirkan emosi dan karakter dengan tepat, hasilnya justru bisa lebih baik

Permintaan fitur dan pertanyaan terkait sintesis suara

  • Muncul permintaan fitur/dukungan seperti berikut:
    • dukungan multibahasa (Mandarin, Finlandia, dll.)
    • dukungan percakapan 2 orang atau lebih
    • voice cloning (suara sendiri)
    • informasi timing per kata
    • dukungan GPU AMD
    • dukungan output streaming
  • Menanggapi hal ini, pihak pengembang membagikan bahwa beberapa fitur sedang dikembangkan atau direncanakan untuk didukung nanti

Lisensi dan open source

  • Didistribusikan dengan Apache 2.0, dan pengembang menjelaskan langsung bahwa frasa awalnya (dibatasi untuk tujuan riset) sebenarnya bermakna "jangan lakukan hal-hal shady"
  • Sejumlah pengguna menunjukkan bahwa ini perlu diperjelas agar tidak menimbulkan kebingungan

Pertanyaan terkait data pelatihan dan proses training

  • Banyak pengguna bertanya "dataset-nya berasal dari mana" dan "bagaimana model ini dilatih"
  • Pihak pengembang menjawab bahwa mereka berencana memberikan gambaran tingkat tinggi dalam laporan teknis

Kontroversi nama yang tumpang tindih

  • Ada yang menyoroti benturan nama dengan tool diagram GNOME (Dia) dan diabrowser.com
  • Muncul juga kritik bahwa "proyek AI sengaja meminjam nama open source yang sudah ada"
  • Menanggapi ini, pihak pengembang menjawab, "kami tidak tahu, ke depan kami akan membedakannya dengan lebih jelas"

Umpan balik soal kemudahan penggunaan dan perbaikan

  • Ada pendapat bahwa situs demo berbasis Notion lambat dan tidak nyaman untuk berbagi tautan → disarankan halaman ringan seperti GitHub Pages
  • Ada usulan perbaikan README seperti kebingungan pada frasa "join waitlist" dan penyebutan venv yang tidak perlu
  • Dibagikan juga umpan balik terkait konfigurasi, seperti masalah model yang diunduh setiap kali karena cache server tidak digunakan

Contoh pengembangan/penerapan dan integrasi

  • Dibandingkan dengan model TTS lain seperti E5-F2 dan Sesame-TTS
  • Ada pengguna yang menekankan akurasi pada domain tertentu seperti istilah medis
  • Ada permintaan informasi codec untuk menjalankannya di iOS serta gagasan kemungkinan penerapannya
  • Dibagikan juga faktor yang perlu dipertimbangkan saat diterapkan ke layanan nyata, seperti streaming dan kecepatan respons awal

Lain-lain

  • Dibagikan panduan dan perbaikan terkait error tautan HuggingFace atau masalah akses
  • Ditemukan juga fitur kecil tambahan seperti bookmark pada antarmuka demo
  • Disebutkan pula keterbatasan hardware pengguna serta harapan dan kekhawatiran umum terkait pemanfaatan TTS