Prinsip Model Difusi
(arxiv.org)- Model difusi adalah arsitektur model generatif yang mendefinisikan proses ketika data secara bertahap berubah menjadi noise, lalu memulihkannya secara terbalik untuk menghasilkan data dari noise
- Inti model adalah mempelajari medan kecepatan (velocity field) yang berubah seiring waktu, sehingga membentuk jalur generasi kontinu yang mentransformasikan distribusi sederhana menjadi distribusi data
- Tiga sudut pandang utama adalah pendekatan variational, score-based, dan flow-based, yang masing-masing dijelaskan melalui denoising, pembelajaran gradien probabilitas, dan transformasi kontinu
- Di atas fondasi ini, dibahas pula riset lanjutan seperti generasi yang dapat dikendalikan, sampling yang efisien, dan pemetaan langsung antar waktu (flow-map)
- Ditekankan pula pentingnya sebagai buku teori dasar untuk memahami secara terpadu prinsip matematis dan berbagai formulasi model difusi
Konsep dasar model difusi
- Model difusi terdiri dari proses maju (forward process) yang secara bertahap mencemari data dengan noise, dan proses balik (reverse process) yang memulihkannya untuk menghasilkan data dari noise
- Proses maju mendefinisikan sekumpulan distribusi antara yang kontinu yang menghubungkan distribusi data dengan distribusi noise yang sederhana
- Proses balik memulihkan distribusi antara yang sama sambil mengubah noise menjadi data
- Tujuan model adalah mempelajari proses balik ini agar dapat mereproduksi jalur transformasi dari noise ke data
Tiga sudut pandang matematis
- Sudut pandang variational (Variational View)
- Terinspirasi dari variational autoencoder (VAE), pendekatan ini mempelajari tujuan pemulihan kecil (denoising objective) untuk menghilangkan noise secara bertahap
- Pemulihan di setiap tahap terakumulasi sehingga secara keseluruhan mengubah noise menjadi data
- Sudut pandang score-based (Score-Based View)
- Berakar pada energy-based model (EBM), pendekatan ini mempelajari gradien (gradient) distribusi data
- Menghitung arah untuk memindahkan sampel ke wilayah dengan probabilitas yang lebih tinggi
- Sudut pandang flow-based (Flow-Based View)
- Mirip dengan normalizing flow, proses generasi ditafsirkan sebagai jalur kontinu yang bergerak dari noise ke data mengikuti medan kecepatan (velocity field)
Struktur bersama dan fondasi matematis
- Ketiga sudut pandang memiliki kesamaan bahwa semuanya mempelajari medan kecepatan bergantung waktu (time-dependent velocity field)
- Medan kecepatan ini berperan membawa distribusi prior yang sederhana menuju distribusi data
- Sampling dinyatakan sebagai proses mengubah noise menjadi data dengan menyelesaikan persamaan diferensial (differential equation)
- Di atas kerangka matematis ini, dibahas pula teknik analisis numerik untuk sampling yang efisien, generasi yang dapat dikendalikan (guidance), dan pemetaan langsung antar titik waktu sebarang (flow-map)
Target pembaca dan tujuan
- Pembacanya adalah peneliti, mahasiswa pascasarjana, dan praktisi yang memiliki pengetahuan dasar tentang deep learning dan pemodelan generatif
- Tujuannya adalah membantu pembaca memahami dengan jelas fondasi teoretis model difusi dan hubungan antar berbagai formulasi
- Dengan demikian, buku ini memberikan landasan untuk menerapkan model yang sudah ada dengan percaya diri serta mengeksplorasi arah riset baru
Gambaran kata pengantar dan susunan
- Model difusi telah menjadi paradigma generatif utama di berbagai bidang seperti machine learning, computer vision, dan pemrosesan bahasa alami
- Buku ini menyusun riset yang sangat luas secara sistematis dari sisi prinsip teoretis, tujuan pelatihan, desain sampler, dan ide-ide matematis
- Susunan utama
- Part A & B: merangkum dasar-dasar model difusi serta asal-usul dan hubungan tiga sudut pandang utama
- Bab-bab berikutnya membahas sampling yang efisien, generasi yang dapat dikendalikan, dan perluasan ke model generatif independen
- Setiap bab dapat dibaca secara selektif, dan pembaca yang sudah familier dengan konsep dasar dapat melewati pengantar terkait VAE, EBM, Normalizing Flow
Ucapan terima kasih
- Profesor Dohyun Kwon dari University of Seoul dan KIAS meninjau sebagian Bab 7 serta berkontribusi pada peningkatan akurasi matematis dan perbaikan ekspresi
- Umpan balik dan diskusinya membantu meningkatkan kualitas naskah akhir
1 komentar
Opini Hacker News
Jika lebih suka belajar lewat video, saya merekomendasikan kuliah CS236 Deep Generative Models oleh Stefano Ermon
Semua kuliah bisa ditonton di playlist YouTube, dan materi kuliahnya dirangkum di situs resmi
Saya bertanya-tanya apakah ini postingan duplikat dari postingan yang saya unggah beberapa hari lalu
Tautan postingan sebelumnya
Menurut HN FAQ, artikel yang tidak mendapat perhatian selama lebih dari 1 tahun boleh diposting ulang dalam jumlah terbatas
Selain itu, pertanyaan terkait moderasi sebaiknya dikirim ke hn@ycombinator.com alih-alih lewat komentar
Saya mencari "Fokker-Planck" di dokumen itu dan menemukannya muncul sampai 97 kali
Menurut saya itu saja sudah cukup membuatnya layak dibaca
Saya penasaran apakah ada materi tentang transformer yang membahas dengan cakupan dan kedalaman seperti ini
Terlalu banyak matematika, jujur saja saya agak ciut
Saat membaca ini, saya merasa AI masa kini sebenarnya lebih mirip brute force daripada benar-benar cerdas
Mungkin otak manusia juga hanyalah mesin yang melakukan brute force sepanjang hidupnya
Tetapi kecerdasan buatan pada akhirnya terasa seperti hasil tanpa jiwa, seperti perasa buatan
Kekuatan statistik bertumpu pada struktur dan seleksi yang mendalam
Manusia tidak melakukan brute force sepanjang hidupnya, tetapi evolusi telah membangun struktur itu selama miliaran tahun
lalu memampatkan algoritme meta-pembelajaran ke atasnya selama jutaan tahun
470 halaman?! Kebanyakan sekali, sampai sempat blank 😆