4 poin oleh GN⁺ 2025-11-11 | 1 komentar | Bagikan ke WhatsApp
  • Model difusi adalah arsitektur model generatif yang mendefinisikan proses ketika data secara bertahap berubah menjadi noise, lalu memulihkannya secara terbalik untuk menghasilkan data dari noise
  • Inti model adalah mempelajari medan kecepatan (velocity field) yang berubah seiring waktu, sehingga membentuk jalur generasi kontinu yang mentransformasikan distribusi sederhana menjadi distribusi data
  • Tiga sudut pandang utama adalah pendekatan variational, score-based, dan flow-based, yang masing-masing dijelaskan melalui denoising, pembelajaran gradien probabilitas, dan transformasi kontinu
  • Di atas fondasi ini, dibahas pula riset lanjutan seperti generasi yang dapat dikendalikan, sampling yang efisien, dan pemetaan langsung antar waktu (flow-map)
  • Ditekankan pula pentingnya sebagai buku teori dasar untuk memahami secara terpadu prinsip matematis dan berbagai formulasi model difusi

Konsep dasar model difusi

  • Model difusi terdiri dari proses maju (forward process) yang secara bertahap mencemari data dengan noise, dan proses balik (reverse process) yang memulihkannya untuk menghasilkan data dari noise
    • Proses maju mendefinisikan sekumpulan distribusi antara yang kontinu yang menghubungkan distribusi data dengan distribusi noise yang sederhana
    • Proses balik memulihkan distribusi antara yang sama sambil mengubah noise menjadi data
  • Tujuan model adalah mempelajari proses balik ini agar dapat mereproduksi jalur transformasi dari noise ke data

Tiga sudut pandang matematis

  • Sudut pandang variational (Variational View)
    • Terinspirasi dari variational autoencoder (VAE), pendekatan ini mempelajari tujuan pemulihan kecil (denoising objective) untuk menghilangkan noise secara bertahap
    • Pemulihan di setiap tahap terakumulasi sehingga secara keseluruhan mengubah noise menjadi data
    Iklan
  • Sudut pandang score-based (Score-Based View)
    • Berakar pada energy-based model (EBM), pendekatan ini mempelajari gradien (gradient) distribusi data
    • Menghitung arah untuk memindahkan sampel ke wilayah dengan probabilitas yang lebih tinggi
  • Sudut pandang flow-based (Flow-Based View)
    • Mirip dengan normalizing flow, proses generasi ditafsirkan sebagai jalur kontinu yang bergerak dari noise ke data mengikuti medan kecepatan (velocity field)

Struktur bersama dan fondasi matematis

  • Ketiga sudut pandang memiliki kesamaan bahwa semuanya mempelajari medan kecepatan bergantung waktu (time-dependent velocity field)
    • Medan kecepatan ini berperan membawa distribusi prior yang sederhana menuju distribusi data
    • Sampling dinyatakan sebagai proses mengubah noise menjadi data dengan menyelesaikan persamaan diferensial (differential equation)
  • Di atas kerangka matematis ini, dibahas pula teknik analisis numerik untuk sampling yang efisien, generasi yang dapat dikendalikan (guidance), dan pemetaan langsung antar titik waktu sebarang (flow-map)
Iklan

Target pembaca dan tujuan

  • Pembacanya adalah peneliti, mahasiswa pascasarjana, dan praktisi yang memiliki pengetahuan dasar tentang deep learning dan pemodelan generatif
  • Tujuannya adalah membantu pembaca memahami dengan jelas fondasi teoretis model difusi dan hubungan antar berbagai formulasi
  • Dengan demikian, buku ini memberikan landasan untuk menerapkan model yang sudah ada dengan percaya diri serta mengeksplorasi arah riset baru

Gambaran kata pengantar dan susunan

  • Model difusi telah menjadi paradigma generatif utama di berbagai bidang seperti machine learning, computer vision, dan pemrosesan bahasa alami
  • Buku ini menyusun riset yang sangat luas secara sistematis dari sisi prinsip teoretis, tujuan pelatihan, desain sampler, dan ide-ide matematis
  • Susunan utama
    • Part A & B: merangkum dasar-dasar model difusi serta asal-usul dan hubungan tiga sudut pandang utama
    • Bab-bab berikutnya membahas sampling yang efisien, generasi yang dapat dikendalikan, dan perluasan ke model generatif independen
  • Setiap bab dapat dibaca secara selektif, dan pembaca yang sudah familier dengan konsep dasar dapat melewati pengantar terkait VAE, EBM, Normalizing Flow

Ucapan terima kasih

  • Profesor Dohyun Kwon dari University of Seoul dan KIAS meninjau sebagian Bab 7 serta berkontribusi pada peningkatan akurasi matematis dan perbaikan ekspresi
  • Umpan balik dan diskusinya membantu meningkatkan kualitas naskah akhir

1 komentar

 
GN⁺ 2025-11-11
Opini Hacker News
  • Jika lebih suka belajar lewat video, saya merekomendasikan kuliah CS236 Deep Generative Models oleh Stefano Ermon
    Semua kuliah bisa ditonton di playlist YouTube, dan materi kuliahnya dirangkum di situs resmi

    • Sayang sekali Stanford sudah tidak lagi membuka mata kuliah CS236 ini. Sudah 2 tahun tidak diadakan
  • Saya bertanya-tanya apakah ini postingan duplikat dari postingan yang saya unggah beberapa hari lalu
    Tautan postingan sebelumnya

    • Ya, memang duplikat, tetapi dalam kondisi tertentu diperbolehkan
      Menurut HN FAQ, artikel yang tidak mendapat perhatian selama lebih dari 1 tahun boleh diposting ulang dalam jumlah terbatas
      Selain itu, pertanyaan terkait moderasi sebaiknya dikirim ke hn@ycombinator.com alih-alih lewat komentar
  • Saya mencari "Fokker-Planck" di dokumen itu dan menemukannya muncul sampai 97 kali
    Menurut saya itu saja sudah cukup membuatnya layak dibaca

    • Tapi di saya cuma ketemu 26 kali. Patokannya apa ya? Lucu juga :D
  • Saya penasaran apakah ada materi tentang transformer yang membahas dengan cakupan dan kedalaman seperti ini

  • Terlalu banyak matematika, jujur saja saya agak ciut

    • Melempar candaan, mungkin bukan “scared” tapi “scated”
  • Saat membaca ini, saya merasa AI masa kini sebenarnya lebih mirip brute force daripada benar-benar cerdas
    Mungkin otak manusia juga hanyalah mesin yang melakukan brute force sepanjang hidupnya
    Tetapi kecerdasan buatan pada akhirnya terasa seperti hasil tanpa jiwa, seperti perasa buatan

    • Rasanya seperti komentar dari seorang fisikawan. Menurut saya juga ada keindahan tersendiri dalam proses menjalankan RG flow secara terbalik
      Kekuatan statistik bertumpu pada struktur dan seleksi yang mendalam
    • Kata “selalu” terlalu mutlak. Suatu hari nanti mungkin bisa menjadi lebih baik
    • Saya menganggap kecerdasan sebagai manifold yang dipelajari oleh algoritme brute-force semacam ini
      Manusia tidak melakukan brute force sepanjang hidupnya, tetapi evolusi telah membangun struktur itu selama miliaran tahun
      lalu memampatkan algoritme meta-pembelajaran ke atasnya selama jutaan tahun
  • 470 halaman?! Kebanyakan sekali, sampai sempat blank 😆