1 poin oleh GN⁺ 2024-07-06 | 1 komentar | Bagikan ke WhatsApp

Diffusion Forcing

Pengenalan Diffusion Forcing

  • "Diffusion Forcing" adalah nama yang berasal dari "teacher forcing" dan "diffusion models"
  • Diffusion Forcing dapat memanfaatkan kekuatan utama dari model prediksi next-token dan model difusi seluruh sekuens sekaligus
  • Dengan satu kali pelatihan, metode ini dapat bekerja secara fleksibel pada berbagai waktu sampling

Cara Kerja Diffusion Forcing

  • Melatih difusi sekuens sambil menerapkan tingkat noise yang berbeda pada setiap token
  • Noise dalam difusi dapat dipandang sebagai masking dengan berbagai tingkat
  • Pada waktu sampling, perilaku yang fleksibel dapat dicapai dengan menggunakan tingkat noise yang berbeda di seluruh sekuens

Prediksi Video

  • Prediksi video dengan Diffusion Forcing memberikan hasil yang stabil dan konsisten
  • Pada dataset DMLab dan Minecraft, Diffusion Forcing menunjukkan performa yang lebih unggul dibanding metode sebelumnya

Stabilisasi rollout tak terbatas tanpa sliding window

  • Diffusion Forcing dapat melakukan rollout video yang jauh lebih panjang daripada panjang sekuens maksimum saat pelatihan
  • Dapat melakukan rollout RNN tanpa sliding window
  • Pada dataset DMLab dan Minecraft, rollout lebih dari 2000 frame dimungkinkan

Diffusion Planning

  • Diffusion Forcing dapat digunakan sebagai planner dengan memanfaatkan guidance saat pengujian
  • Dengan mendefinisikan setiap token sebagai [a_t, o_{t+1}], hubungan kausal dimodelkan secara eksplisit
  • Dapat diperbarui melalui posterior inference setelah observasi baru diperoleh

Pembelajaran imitasi jangka panjang

  • Banyak tugas di dunia nyata tidak memiliki sifat Markov dan memerlukan memori jangka panjang
  • Menunjukkan hasil yang sukses pada tugas lengan robot yang menukar dua slot buah
  • Diffusion Forcing dapat bekerja dengan tangguh terhadap gangguan yang tidak terlihat saat pengujian

Opini GN⁺

  • Diffusion Forcing menggabungkan keunggulan model prediksi next-token dan model difusi seluruh sekuens, sehingga memungkinkan sampling yang fleksibel
  • Menunjukkan performa yang lebih unggul dibanding metode sebelumnya dalam prediksi video dan rollout, yang meningkatkan potensi aplikasi praktisnya
  • Keberhasilan dalam pembelajaran imitasi jangka panjang menunjukkan kemampuan kontrol umpan balik yang kuat dari Diffusion Forcing
  • Efek stabilisasi dari Diffusion Forcing meningkatkan kemungkinan pemanfaatannya pada berbagai panjang sekuens
  • Saat mengadopsi teknologi baru, kompleksitas model dan biaya komputasi perlu dipertimbangkan

1 komentar

 
GN⁺ 2024-07-06
Pendapat Hacker News
  • Mengusulkan pendekatan baru yang menggabungkan ide sequence masking dan model diffusion

    • Melacak tingkat 'ketidakpastian' tiap piksel dan menggunakannya sebagai tingkat 'noise' pada model diffusion
    • Bagian tertentu dari gambar bisa dipastikan lebih dulu, sehingga dapat dimanfaatkan untuk menyelesaikan labirin dan sebagainya
    • Juga digunakan untuk mengendalikan lengan robot
    • Judulnya meremehkan idenya; ini adalah cara untuk melakukan 'fractional masking'
    • Banyak rasa penasaran tentang codebase-nya; seperti bagaimana tugas pelacakan labirin dan perluasan video disiapkan, bagaimana lengan robot dihubungkan, dan sebagainya
    • Arsitekturnya sendiri memerlukan riset dan penjelasan tambahan
  • Penasaran apakah ada riset atau alat yang dapat menggabungkan LLM pembangkit teks yang sudah ada dengan teknik diffusion tanpa pra-pelatihan baru

    • Ada pendekatan serupa seperti Tree of Thoughts dan MCTS, tetapi sedang mencari sesuatu yang lebih dekat ke generasi pada level token
    • Penasaran apakah ini bisa bekerja dengan model kecil GPT / Phi 3 / Gwen
  • Russ sedang meneliti diffusion; rasanya ini akan sangat aplikatif untuk robotika

  • Sebagai orang yang bekerja di bidang ini, risetnya disajikan dengan sangat sulit dipahami

    • Penasaran masalah apa yang sebenarnya ingin diselesaikan, dan apakah ini mengusulkan model generatif baru
  • Penasaran apakah ada bagian tentang waktu pelatihan yang terlewat; apakah penambahan noise per token membuat pelatihan jauh lebih lambat

    • Makalah yang keren
  • Riset yang sangat keren, tetapi penasaran kenapa ini disebut 'Diffusion Forcing'