- Model difusi adalah arsitektur model generatif yang mendefinisikan proses ketika data secara bertahap berubah menjadi noise, lalu memulihkannya secara terbalik untuk menghasilkan data dari noise
- Inti model adalah mempelajari medan kecepatan (velocity field) yang berubah seiring waktu, sehingga membentuk jalur generasi kontinu yang mentransformasikan distribusi sederhana menjadi distribusi data
- Tiga sudut pandang utama adalah pendekatan variational, score-based, dan flow-based, yang masing-masing dijelaskan melalui denoising, pembelajaran gradien probabilitas, dan transformasi kontinu
- Di atas fondasi ini, dibahas pula riset lanjutan seperti generasi yang dapat dikendalikan, sampling yang efisien, dan pemetaan langsung antar waktu (flow-map)
- Ditekankan pula pentingnya sebagai buku teori dasar untuk memahami secara terpadu prinsip matematis dan berbagai formulasi model difusi
Konsep dasar model difusi
- Model difusi terdiri dari proses maju (forward process) yang secara bertahap mencemari data dengan noise, dan proses balik (reverse process) yang memulihkannya untuk menghasilkan data dari noise
- Proses maju mendefinisikan sekumpulan distribusi antara yang kontinu yang menghubungkan distribusi data dengan distribusi noise yang sederhana
- Proses balik memulihkan distribusi antara yang sama sambil mengubah noise menjadi data
- Tujuan model adalah mempelajari proses balik ini agar dapat mereproduksi jalur transformasi dari noise ke data
Tiga sudut pandang matematis
- Sudut pandang variational (Variational View)
- Terinspirasi dari variational autoencoder (VAE), pendekatan ini mempelajari tujuan pemulihan kecil (denoising objective) untuk menghilangkan noise secara bertahap
- Pemulihan di setiap tahap terakumulasi sehingga secara keseluruhan mengubah noise menjadi data
- Sudut pandang score-based (Score-Based View)
- Berakar pada energy-based model (EBM), pendekatan ini mempelajari gradien (gradient) distribusi data
- Menghitung arah untuk memindahkan sampel ke wilayah dengan probabilitas yang lebih tinggi
- Sudut pandang flow-based (Flow-Based View)
- Mirip dengan normalizing flow, proses generasi ditafsirkan sebagai jalur kontinu yang bergerak dari noise ke data mengikuti medan kecepatan (velocity field)
Struktur bersama dan fondasi matematis
- Ketiga sudut pandang memiliki kesamaan bahwa semuanya mempelajari medan kecepatan bergantung waktu (time-dependent velocity field)
- Medan kecepatan ini berperan membawa distribusi prior yang sederhana menuju distribusi data
- Sampling dinyatakan sebagai proses mengubah noise menjadi data dengan menyelesaikan persamaan diferensial (differential equation)
- Di atas kerangka matematis ini, dibahas pula teknik analisis numerik untuk sampling yang efisien, generasi yang dapat dikendalikan (guidance), dan pemetaan langsung antar titik waktu sebarang (flow-map)
Target pembaca dan tujuan
- Pembacanya adalah peneliti, mahasiswa pascasarjana, dan praktisi yang memiliki pengetahuan dasar tentang deep learning dan pemodelan generatif
- Tujuannya adalah membantu pembaca memahami dengan jelas fondasi teoretis model difusi dan hubungan antar berbagai formulasi
- Dengan demikian, buku ini memberikan landasan untuk menerapkan model yang sudah ada dengan percaya diri serta mengeksplorasi arah riset baru
Gambaran kata pengantar dan susunan
- Model difusi telah menjadi paradigma generatif utama di berbagai bidang seperti machine learning, computer vision, dan pemrosesan bahasa alami
- Buku ini menyusun riset yang sangat luas secara sistematis dari sisi prinsip teoretis, tujuan pelatihan, desain sampler, dan ide-ide matematis
- Susunan utama
- Part A & B: merangkum dasar-dasar model difusi serta asal-usul dan hubungan tiga sudut pandang utama
- Bab-bab berikutnya membahas sampling yang efisien, generasi yang dapat dikendalikan, dan perluasan ke model generatif independen
- Setiap bab dapat dibaca secara selektif, dan pembaca yang sudah familier dengan konsep dasar dapat melewati pengantar terkait VAE, EBM, Normalizing Flow
Ucapan terima kasih
- Profesor Dohyun Kwon dari University of Seoul dan KIAS meninjau sebagian Bab 7 serta berkontribusi pada peningkatan akurasi matematis dan perbaikan ekspresi
- Umpan balik dan diskusinya membantu meningkatkan kualitas naskah akhir
Belum ada komentar.