Prinsip Model Difusi

Model difusi adalah arsitektur model generatif yang mendefinisikan proses ketika data secara bertahap berubah menjadi noise, lalu memulihkannya secara terbalik untuk menghasilkan data dari noise
Inti model adalah mempelajari medan kecepatan (velocity field) yang berubah seiring waktu, sehingga membentuk jalur generasi kontinu yang mentransformasikan distribusi sederhana menjadi distribusi data
Tiga sudut pandang utama adalah pendekatan variational, score-based, dan flow-based, yang masing-masing dijelaskan melalui denoising, pembelajaran gradien probabilitas, dan transformasi kontinu
Di atas fondasi ini, dibahas pula riset lanjutan seperti generasi yang dapat dikendalikan, sampling yang efisien, dan pemetaan langsung antar waktu (flow-map)
Ditekankan pula pentingnya sebagai buku teori dasar untuk memahami secara terpadu prinsip matematis dan berbagai formulasi model difusi

Konsep dasar model difusi

Model difusi terdiri dari proses maju (forward process) yang secara bertahap mencemari data dengan noise, dan proses balik (reverse process) yang memulihkannya untuk menghasilkan data dari noise
- Proses maju mendefinisikan sekumpulan distribusi antara yang kontinu yang menghubungkan distribusi data dengan distribusi noise yang sederhana
- Proses balik memulihkan distribusi antara yang sama sambil mengubah noise menjadi data
Tujuan model adalah mempelajari proses balik ini agar dapat mereproduksi jalur transformasi dari noise ke data

Sudut pandang variational (Variational View)
- Terinspirasi dari variational autoencoder (VAE), pendekatan ini mempelajari tujuan pemulihan kecil (denoising objective) untuk menghilangkan noise secara bertahap
- Pemulihan di setiap tahap terakumulasi sehingga secara keseluruhan mengubah noise menjadi data
Sudut pandang score-based (Score-Based View)
- Berakar pada energy-based model (EBM), pendekatan ini mempelajari gradien (gradient) distribusi data
- Menghitung arah untuk memindahkan sampel ke wilayah dengan probabilitas yang lebih tinggi
Sudut pandang flow-based (Flow-Based View)
- Mirip dengan normalizing flow, proses generasi ditafsirkan sebagai jalur kontinu yang bergerak dari noise ke data mengikuti medan kecepatan (velocity field)

Ketiga sudut pandang memiliki kesamaan bahwa semuanya mempelajari medan kecepatan bergantung waktu (time-dependent velocity field)
- Medan kecepatan ini berperan membawa distribusi prior yang sederhana menuju distribusi data
- Sampling dinyatakan sebagai proses mengubah noise menjadi data dengan menyelesaikan persamaan diferensial (differential equation)
Di atas kerangka matematis ini, dibahas pula teknik analisis numerik untuk sampling yang efisien, generasi yang dapat dikendalikan (guidance), dan pemetaan langsung antar titik waktu sebarang (flow-map)

Pembacanya adalah peneliti, mahasiswa pascasarjana, dan praktisi yang memiliki pengetahuan dasar tentang deep learning dan pemodelan generatif
Tujuannya adalah membantu pembaca memahami dengan jelas fondasi teoretis model difusi dan hubungan antar berbagai formulasi
Dengan demikian, buku ini memberikan landasan untuk menerapkan model yang sudah ada dengan percaya diri serta mengeksplorasi arah riset baru

Model difusi telah menjadi paradigma generatif utama di berbagai bidang seperti machine learning, computer vision, dan pemrosesan bahasa alami
Buku ini menyusun riset yang sangat luas secara sistematis dari sisi prinsip teoretis, tujuan pelatihan, desain sampler, dan ide-ide matematis
Susunan utama
- Part A & B: merangkum dasar-dasar model difusi serta asal-usul dan hubungan tiga sudut pandang utama
- Bab-bab berikutnya membahas sampling yang efisien, generasi yang dapat dikendalikan, dan perluasan ke model generatif independen
Setiap bab dapat dibaca secara selektif, dan pembaca yang sudah familier dengan konsep dasar dapat melewati pengantar terkait VAE, EBM, Normalizing Flow

Profesor Dohyun Kwon dari University of Seoul dan KIAS meninjau sebagian Bab 7 serta berkontribusi pada peningkatan akurasi matematis dan perbaikan ekspresi
Umpan balik dan diskusinya membantu meningkatkan kualitas naskah akhir