4 poin oleh GN⁺ 2024-05-27 | 1 komentar | Bagikan ke WhatsApp

Pemodelan generatif

  • Masalah dasar dalam pemodelan generatif adalah, ketika diberikan sekumpulan sampel dari distribusi yang tidak diketahui x∼p(x), menghasilkan sampel baru dari distribusi tersebut.

1.1 Model difusi denoising

  • Alih-alih memetakan titik data secara deterministik ke distribusi normal, metode ini menggunakan cara memetakan titik secara probabilistik dengan mencampurkan noise acak.
  • Metode ini mungkin tampak aneh pada awalnya, tetapi dengan mencampurkan sedikit noise ke titik data yang bersih selama beberapa tahap, data tersebut dibuat tampak seperti noise murni.
  • Dengan melihat titik data yang telah dicampuri noise di setiap tahap, kita dapat secara kasar mengetahui di mana titik data berada pada tahap sebelumnya.
  • Dengan mempelajari proses ini secara terbalik, kita dapat menghasilkan sampel dari distribusi p(x).
  • Ini mirip dengan proses difusi fisik.

Model DDP

  • Model DDP adalah singkatan dari Denoising Diffusion Probabilistic Models.
  • Perkembangan baru dibangun berdasarkan bahasa dan matematika dari makalah ini.

2.1 Penambahan dan penghilangan noise

  • Untuk memetakan gambar masukan x0 ke titik dalam distribusi normal standar, digunakan proses difusi maju yang secara bertahap menambahkan noise selama langkah waktu t=1,2,…,T.
  • Setiap langkah waktu mencampurkan sedikit noise acak ke gambar sebelumnya untuk menghasilkan gambar baru.
  • Proses ini bersifat iteratif; setiap tahap hanya bergantung pada tahap waktu sebelumnya, dan noise yang ditambahkan independen dari sampel noise sebelumnya.
  • Dengan mempelajari proses kebalikannya, kita memprediksi distribusi versi yang kurang berisik pada tahap sebelumnya, xt-1, dari gambar yang telah diberi noise xt.

2.2 Pelatihan denoising

  • q(xt−1∣xt) secara kasar berbentuk Gaussian untuk jumlah noise yang sangat kecil.
  • Ini adalah hasil lama dari fisika statistik.
  • Hal ini memungkinkan kita mempelajari distribusi balik.
  • Dengan menggunakan divergensi KL, perbedaan antara q(xt−1∣xt,x0) dan pθ(xt−1∣xt) diminimalkan untuk semua contoh pelatihan x0.
  • Fungsi loss akhir disederhanakan menjadi masalah prediksi noise.

2.3 Sampling

  • Setelah melatih model estimasi noise ϵθ(xt,t), kita dapat menggunakannya untuk melakukan sampling gambar x0.
  • Kita mengambil sampel gambar noise murni xT∼N(0,I), lalu untuk langkah waktu dari T hingga 1 memprediksi noise, dan menggunakan noise yang diprediksi itu untuk melakukan sampling gambar yang telah didenoising.

2.4 Ringkasan dan contoh

  • Model ini mempelajari distribusi dasar dari dataset gambar, lalu mendefinisikan proses penambahan noise maju untuk secara bertahap mengubah gambar x0 menjadi noise murni xT.
  • Model kemudian mempelajari proses balik untuk memprediksi distribusi xt-1 dari xt.
  • Dengan menggunakan divergensi KL, dipastikan bahwa distribusi yang dipelajari sedekat mungkin dengan distribusi yang diketahui dari dataset.
  • Pada akhirnya, proses ini disederhanakan menjadi masalah prediksi noise.

Perkembangan

3.1 Generasi cepat

  • Kelemahan utama model difusi awal adalah kecepatan generasinya.
  • Setelah itu, banyak teknik dikembangkan untuk meningkatkan kecepatan generasi; beberapa dapat langsung digunakan pada model yang sudah dipra-latih, sementara yang lain memerlukan pelatihan model baru.

Score matching dan sampler cepat

  • Model difusi memiliki keterkaitan yang menarik dengan persamaan diferensial, dan dari sini banyak sampler cepat dikembangkan.
  • Memprediksi arah noise setara dengan gradien log-likelihood dari proses maju.
  • Ini membentuk dasar model berbasis score, yang mempelajari score dari dataset yang telah diberi noise dan menghasilkan sampel baru dengan mengikuti medan score.

Opini GN⁺

  1. Memahami model difusi: Model difusi dapat diterapkan tidak hanya pada generasi gambar, tetapi juga di berbagai bidang seperti animasi, pembuatan video, pemodelan 3D, prediksi struktur protein, dan perencanaan jalur robot.
  2. Kompleksitas proses pelatihan: Proses pelatihan model difusi memang kompleks, tetapi memungkinkan pembuatan gambar yang sangat canggih.
  3. Teknologi generasi cepat: Teknik generasi cepat sangat meningkatkan kepraktisan model difusi.
  4. Model berbasis score: Model berbasis score bekerja dengan cara yang mirip dengan model difusi dan berkontribusi pada peningkatan kecepatan sampling.
  5. Hal yang perlu dipertimbangkan saat mengadopsi teknologi: Saat mengadopsi model difusi, perlu mempertimbangkan waktu pelatihan, sumber daya komputasi, dan kompleksitas model.

1 komentar

 
GN⁺ 2024-05-27

Pendapat Hacker News

  • Baru mengetahui bahwa model difusi muncul lebih dulu daripada teori score matching. Saat OpenAI melatih 250 juta gambar, itu merupakan upaya yang berani meski penjelasan teoretisnya masih kurang.
  • Loop pelatihannya tampak salah. Karena x0 dan eps tidak digunakan dalam representasi xt, ini terlihat seperti memprediksi noise acak.
  • Sedang mencari library Python berlisensi Apache atau MIT terbaik untuk diffusion transformer.
  • Terima kasih sudah membagikannya. Mendapat wawasan tentang cara kerja model difusi. Keacakan itu kuat. Sekarang saatnya mencoba coding dengan bahasa yang tidak semestinya.
  • Tidak banyak yang bisa dirangkum untuk orang-orang yang membaca komentar. Postingan ini adalah ringkasan dari Stable Diffusion.
  • Pada 2022, saat belajar menggambar, saya terkejut dengan kemunculan model seni AI seperti Stable Diffusion. Komputer telah menjadi seniman yang lebih baik daripada dirinya. Semakin AI masuk ke pekerjaan kreatif, semakin ingin menghapus semuanya.