Kami menemukan model generatif baru yang diterima di ICLR

(discrete-distribution-networks.github.io)

2 poin oleh GN⁺ 2025-10-11 | 1 komentar | Bagikan ke WhatsApp

Discrete Distribution Networks (DDN) adalah model generatif inovatif dengan prinsip dan karakteristik baru
DDN memiliki hasil eksperimen yang unik serta kemampuan representasi diskret 1D melalui algoritme optimisasi split-and-prune
Berdasarkan struktur hierarkis, DDN juga mengaproksimasi distribusi kontinu, dan menunjukkan karakteristik menarik seperti generasi kondisional zero-shot
DDN menunjukkan potensi penerapan pada berbagai tugas nyata seperti generasi gambar dan transfer gaya
DDN memiliki pembeda dibanding model generatif yang ada dalam hal skalabilitas, efisiensi, dan kemampuan adaptasi yang alami

Gambaran umum DDN: Discrete Distribution Networks

Mengapa ini penting?

DDN (Discrete Distribution Networks) adalah pendekatan baru yang sepenuhnya berbeda dari model generatif yang ada, dengan prinsip yang sederhana, struktur hierarkis yang unik, dan karakteristik seperti generasi kondisional zero-shot. Karena bekerja dengan cara yang berbeda dari GAN dan Diffusion, DDN membuka banyak kemungkinan baik untuk riset maupun penerapan nyata.

Ringkasan poin utama

DDN adalah model generatif baru yang mengaproksimasi distribusi data dengan struktur distribusi diskret yang hierarkis
DDN mengusulkan teknik optimisasi split-and-prune dan menguji sifat pembeda seperti Zero-Shot Conditional Generation serta representasi laten diskret 1D, yang sulit dicapai pada model generatif konvensional
Di setiap layer, DDN menghasilkan beberapa sampel sekaligus lalu memilih sampel yang paling dekat dengan target untuk dipakai sebagai kondisi pada layer berikutnya
Semakin banyak layer, ruang representasi output berkembang secara eksponensial, sehingga pada akhirnya menghasilkan sampel yang mirip dengan target
Melalui berbagai eksperimen (CIFAR-10, FFHQ, transfer gaya, super-resolution, dan lain-lain), DDN menunjukkan keunggulan dalam kesederhanaan, kemampuan generalisasi, dan potensi penerapan nyata dibanding pendekatan yang ada

Eksperimen estimasi densitas DDN

Demonstrasi proses aproksimasi densitas probabilitas 2D
- Kiri: semua sampel yang saat ini dapat dihasilkan DDN
- Kanan: peta densitas probabilitas target
- Berbagai skenario distribusi target (blur_circles, QR_code, spiral, dan lain-lain) diterapkan secara berurutan sambil optimisasi terus berjalan
- Optimizer: Gradient Descent dan Split-and-Prune digunakan secara bersamaan
- Saat split-and-prune diterapkan, KL divergence menjadi lebih rendah bahkan dibanding sampel nyata

Kontribusi utama paper

Mengusulkan model generatif baru—DDN yang lebih sederhana dan efisien
Menerapkan algoritme optimisasi Split-and-Prune serta teknik praktisnya
Memverifikasi karakteristik seperti generasi kondisional zero-shot tanpa gradient dan representasi diskret 1D yang unik
Dalam review ICLR, dinilai sebagai "sangat berbeda dari model generatif yang ada dan memperluas arah penelitian"
Prinsip DDN: di tiap layer menghasilkan banyak sampel diskret, lalu hanya memilih hasil yang paling dekat dengan target untuk disempurnakan secara hierarkis

Struktur dan cara kerja

Struktur distribusi diskret hierarkis

Tiap layer menerima sampel terpilih dari layer sebelumnya sebagai input lalu menghasilkan beberapa sampel
Dari sampel tersebut, hanya hasil yang paling dekat dengan sampel training saat ini (jawaban benar) yang diteruskan ke layer berikutnya
Hasil disempurnakan secara berulang hingga mendekati distribusi target
Saat jumlah layer bertambah, ruang representasi output yang dihasilkan tumbuh secara eksponensial
Karena jaringan itu sendiri menghasilkan banyak sampel secara simultan, distribusi dapat direpresentasikan secara langsung

Rekonstruksi gambar dan representasi laten

Setiap output layer menghasilkan gambar yang berbeda, dan hanya hasil yang mirip dengan tujuan akhir yang diteruskan ke layer berikutnya
Peran sampler: memilih gambar yang paling mirip dengan target
Pada tugas generatif, pengambilan sampel acak memaksimalkan keberagaman
Variabel laten DDN dapat ditafsirkan sebagai struktur pohon, dan tiap sampel dipetakan ke ujung pohon (leaf node)

Contoh hasil eksperimen

Aproksimasi berbagai distribusi 2D (spiral, QR_code, dan lain-lain)
Dengan Split-and-Prune, KL divergence diminimalkan, serta masalah dead nodes atau density shift berkurang
Pada CIFAR-10, FFHQ, dan lainnya, terkonfirmasi cara generasi yang unik serta efisiensi dibanding model berbasis GAN dan Diffusion

Mendukung generasi kondisional zero-shot

DDN memungkinkan generasi kondisional zero-shot tanpa gradient
Contoh: generasi teks-ke-gambar menggunakan black-box CLIP
Beragam kondisi non-piksel seperti transfer gaya dan super-resolution juga dapat ditangani secara efektif

Training dan dua paradigma model

Saat training, setelah seleksi sampel di setiap Discrete Distribution Layer (DDL), optimisasi dilakukan dengan Adam + Split-and-Prune
Single Shot Generator: tiap layer memiliki bobot yang independen
Recurrence Iteration: semua layer berbagi bobot

Berbagai contoh penerapan

Generasi acak gambar wajah

Hasil generasi gambar wajah berbasis DDN yang telah dilatih menunjukkan keberagaman dan kualitas output

Pewarnaan gambar kondisional / transformasi edge-ke-warna

Berdasarkan gambar tertentu, model berupaya mendekati gaya semaksimal mungkin sekaligus memenuhi kondisi yang diberikan
Resolusi gambar yang dihasilkan adalah 256x256

Visualisasi generasi hierarkis (MNIST dan lain-lain)

Visualisasi hasil antara dan hasil akhir pada setiap tahap generasi
Gambar besar adalah draft, sedangkan gambar kecil adalah hasil akhir yang telah dimurnikan

Arah riset masa depan dan potensi aplikasi

Kinerja DDN masih dapat ditingkatkan melalui tuning hyperparameter, eksperimen eksploratif, dan analisis teoretis
Dapat diperluas hingga masalah dengan kompleksitas setingkat ImageNet, lalu membangun model yang layak untuk layanan nyata
Dapat diterapkan pada berbagai tugas seperti super-resolution, pewarnaan gambar, estimasi kedalaman, estimasi pose, dan robotika
- Dibanding model berbasis Diffusion, DDN dapat menghasilkan banyak sampel dalam satu forward-pass
- Efisien untuk pemanfaatan seperti estimasi ketidakpastian dan mudah menerapkan berbagai kendala
- Karena memungkinkan diferensiasi end-to-end, DDN dapat digabungkan secara efisien dengan pembelajaran berbasis diskriminator/imbalan yang ada
Juga dapat dimanfaatkan untuk tugas non-generatif (clustering tak terawasi, kompresi data, dan lain-lain)
Riset lanjutan juga dapat menerapkan ide desain DDN pada model generatif yang ada (misalnya menggabungkan Diffusion dengan ruang laten diskret 1D)
Menawarkan arah baru dalam language modeling, seperti pemodelan langsung string biner tanpa tokenizer

Pertanyaan yang sering diajukan

Q1: Kebutuhan memori GPU meningkat?

Sedikit meningkat dibanding generator GAN konvensional, tetapi tidak berbeda jauh
Saat training, hanya sampel yang terpilih yang menyimpan gradient, sisanya langsung dibuang sehingga ruang memori tetap terjaga
Pada tahap generasi, hanya satu sampel acak yang dihasilkan sehingga tidak perlu menghasilkan semua sampel dan penggunaan sumber daya tambahan menjadi sangat kecil

Q2: Masalah mode collapse?

Tidak ada. Loss selalu diterapkan hanya pada hasil yang paling mirip dengan target sehingga keberagaman tetap terjaga
Secara eksperimen juga menunjukkan performa rekonstruksi set uji (daya pemulihan) yang baik
Namun, pada data berdimensi tinggi yang terlalu kompleks untuk ditangani oleh kompleksitas DDN itu sendiri, dapat muncul sampel yang blur

1 komentar

GN⁺ 2025-10-11

Komentar Hacker News

Penulis menyatakan senang karena ulasan ICLR dirasa bermanfaat, dan menganggap kasus ini sebagai contoh bagaimana kebijakan ICLR yang mempublikasikan semua ulasan makalah bekerja dengan sukses
Para reviewer secara anonim berperan sebagai semacam "laporan evaluasi" bagi penulis tentang bagaimana makalah ditafsirkan, dan orang-orang di luar akademia tradisional juga bisa melihat diskusi yang tersembunyi di balik diterima/ditolaknya makalah
Tautan ulasan untuk makalah ini ada di sini
Daftar lengkap makalah yang ditolak bisa dilihat di sini
- Setiap kali saya pernah ditolak di ICLR, setidaknya saya bisa menunjukkan reviewer mana yang tidak memahami konsep inti makalah tersebut
Pada Fig.18 makalah, disebutkan bahwa Taiji-DDN mirip dengan taiji dalam filsafat Tiongkok kuno
Bagian ini terasa agak rumit
Karena struktur bercabang adalah konsep yang umum dijumpai, penafsiran yang secara khusus dikaitkan dengan istilah klasik terasa agak membingungkan
- Menurut saya pribadi, ini tampaknya hanya upaya menjelaskan penamaan yang unik dengan cara yang menyenangkan
  Saya rasa tidak ada unsur takhayul atau hal aneh di situ
Melihat makalah penulis tunggal dimuat di ICLR terasa sangat mengesankan, terutama ketika ia mengusulkan metode yang inovatif
Strukturnya terasa sangat menarik
Ada kelebihan berupa kemudahan debugging, tetapi karena memakai sampler dan bukan router bergaya Mixture-of-Experts(MoE), ada kekurangan bahwa pada tiap layer komputasi K-1 kali secara efektif terbuang
Menurut saya, analogi terdekat adalah kombinasi MoE dan model latent diffusion x0-target, dan inovasi utamanya bukan pada router melainkan pada guided sampler dan optimizer split-and-prune
Saya rasa ini membuat pelatihan menjadi lebih mudah
- Karena probabilitas sampling adalah 1/K tanpa bergantung pada input, saat inferensi tidak perlu melakukan semua K komputasi antara pada tiap layer; cukup tentukan sebelumnya mana yang akan dipakai lalu jalankan komputasi itu saja
  Hal ini dijelaskan pada Q1 di bagian "Common Questions About DDN" di bagian bawah makalah
- Sepertinya Anda salah memahami makalahnya
  Tidak ada "experts"; output hanya berperan mendekati sampel acak dari distribusi
  Tidak ada latent diffusion, dan yang digunakan adalah convolution mirip GAN
  Ditekankan bahwa saat inferensi, indeks sampel dipilih lebih dulu sehingga tidak ada komputasi sia-sia
Konsep yang sangat keren
Melihat contoh-contoh di bawah abstrak makalah, mengejutkan betapa akurat hasil model pada beberapa bagian
Misalnya, garis rambut di baris 2 kolom 3, warna baju di baris 2 kolom 7/8/9/11, seluruh lipstick di baris 4/6, serta posisi/bentuk wajah dan rambut di baris 6 kolom 4
Khususnya bagian merah di kiri bawah pada baris 6 kolom 4 sangat menarik; model tampaknya menyadari ada sesuatu yang berwarna merah dan menaruh blob merah di posisi yang tepat
Mungkin ini bias dataset (misalnya lipstick) atau pengamatan selektif saya, tetapi untuk tali bahu merah saya penasaran apakah ini kemungkinan kebocoran data atau overfitting, atau sekadar kebetulan
Saya juga pernah membuat arsitektur serupa (dengan metode berbeda), membangun struktur hierarkis dari cross-attention dan query yang dipelajari, lalu menerapkan L1 pada matriks attention untuk meningkatkan sparsity
Representasi hierarkis diskret memang sangat menarik
Pola aktivasi pada tiap layer bekerja seperti "parse tree" untuk setiap input, sehingga gambar bisa dikompresi secara efektif menjadi urutan bilangan bulat pendek
Saya bertanya karena kurang paham: jika jaringan hanya terdiri dari convolution 1x1, bukankah itu berarti tidak ada pertukaran informasi antarpiksel sama sekali?
Kalau begitu, artinya tiap piksel benar-benar independen, jadi apakah hasilnya tidak akan terasa tidak konsisten?
- Meski tidak berlaku di sini, sebenarnya memang ada arsitektur yang menghasilkan piksel secara saling independen
  Piksel atau elemen gambar apa pun bisa dihasilkan secara terpisah tanpa perlu menghasilkan sisanya; model-model ini bersifat implicit
  Sebagai contoh ada NeRF, "single-pixel GAN", dan MAE; berikut tautan makalahnya: makalah ini, makalah ini, makalah ini
  Hal ini dimungkinkan karena model dapat dianggap memiliki fungsi untuk "mengingat" semua data yang mungkin, sehingga menghasilkan secara independen hanyalah seperti mengambil bagian tertentu dari suatu "memori"
  Ruang laten adalah objek Platonik yang tidak berubah, sehingga tidak aneh jika tiap titik dihasilkan secara fisik terpisah
  Seperti arbitrary points bisa dihasilkan dengan fungsi seperti y=mx+b, pembuatan gambar juga hanya merupakan input bagi fungsi yang lebih kompleks
  Konsep ini tidak terbatas pada gambar; bahasa alami juga sampai batas tertentu bisa dihasilkan secara independen, dan bisa diperluas lewat kode ini serta usulan saya di sini
- Dalam DDN, convolution 1x1 hanya digunakan pada layer output dari Discrete Distribution Layer(DDL)
  Blok jaringan saraf di antara DDL menjadi sumber utama operasi dan parameter, dan di sana digunakan convolution 3x3 standar
Menarik
Beberapa hari lalu, saya meneliti diffusion untuk memparalelkan deep graph reaction system menggunakan symbolic transform matrix, dan banyak orang tampaknya bergerak ke arah umum ini
Saya merasa dalam 1-2 tahun ke depan model berbasis diffusion akan memimpin generasi kode
Sangat keren, dulu saya menghabiskan cukup banyak waktu pada representation learning, dan grid digit MNIST ini membangkitkan kenangan
Saya rasa ini pendekatan yang benar-benar menarik dan baru, dan saya penasaran bagaimana performanya jika diperluas ke domain non-gambar
Saya ingin tahu di mana saya bisa mengikuti penelitian lanjutannya
- Terima kasih atas ketertarikannya
  Ke depan, hasil penelitian saya akan diunggah baik ke GitHub maupun Twitter(X)
Ini tampak seperti riset yang sangat bagus, jadi saya menambahkannya ke daftar bacaan saya
Terima kasih telah membagikannya di Hacker News