Diffusion Forcing
Pengenalan Diffusion Forcing
- "Diffusion Forcing" adalah nama yang berasal dari "teacher forcing" dan "diffusion models"
- Diffusion Forcing dapat memanfaatkan kekuatan utama dari model prediksi next-token dan model difusi seluruh sekuens sekaligus
- Dengan satu kali pelatihan, metode ini dapat bekerja secara fleksibel pada berbagai waktu sampling
Cara Kerja Diffusion Forcing
- Melatih difusi sekuens sambil menerapkan tingkat noise yang berbeda pada setiap token
- Noise dalam difusi dapat dipandang sebagai masking dengan berbagai tingkat
- Pada waktu sampling, perilaku yang fleksibel dapat dicapai dengan menggunakan tingkat noise yang berbeda di seluruh sekuens
Prediksi Video
- Prediksi video dengan Diffusion Forcing memberikan hasil yang stabil dan konsisten
- Pada dataset DMLab dan Minecraft, Diffusion Forcing menunjukkan performa yang lebih unggul dibanding metode sebelumnya
Stabilisasi rollout tak terbatas tanpa sliding window
- Diffusion Forcing dapat melakukan rollout video yang jauh lebih panjang daripada panjang sekuens maksimum saat pelatihan
- Dapat melakukan rollout RNN tanpa sliding window
- Pada dataset DMLab dan Minecraft, rollout lebih dari 2000 frame dimungkinkan
Diffusion Planning
- Diffusion Forcing dapat digunakan sebagai planner dengan memanfaatkan guidance saat pengujian
- Dengan mendefinisikan setiap token sebagai [a_t, o_{t+1}], hubungan kausal dimodelkan secara eksplisit
- Dapat diperbarui melalui posterior inference setelah observasi baru diperoleh
Pembelajaran imitasi jangka panjang
- Banyak tugas di dunia nyata tidak memiliki sifat Markov dan memerlukan memori jangka panjang
- Menunjukkan hasil yang sukses pada tugas lengan robot yang menukar dua slot buah
- Diffusion Forcing dapat bekerja dengan tangguh terhadap gangguan yang tidak terlihat saat pengujian
Opini GN⁺
- Diffusion Forcing menggabungkan keunggulan model prediksi next-token dan model difusi seluruh sekuens, sehingga memungkinkan sampling yang fleksibel
- Menunjukkan performa yang lebih unggul dibanding metode sebelumnya dalam prediksi video dan rollout, yang meningkatkan potensi aplikasi praktisnya
- Keberhasilan dalam pembelajaran imitasi jangka panjang menunjukkan kemampuan kontrol umpan balik yang kuat dari Diffusion Forcing
- Efek stabilisasi dari Diffusion Forcing meningkatkan kemungkinan pemanfaatannya pada berbagai panjang sekuens
- Saat mengadopsi teknologi baru, kompleksitas model dan biaya komputasi perlu dipertimbangkan
1 komentar
Pendapat Hacker News
Mengusulkan pendekatan baru yang menggabungkan ide sequence masking dan model diffusion
Penasaran apakah ada riset atau alat yang dapat menggabungkan LLM pembangkit teks yang sudah ada dengan teknik diffusion tanpa pra-pelatihan baru
Russ sedang meneliti diffusion; rasanya ini akan sangat aplikatif untuk robotika
Sebagai orang yang bekerja di bidang ini, risetnya disajikan dengan sangat sulit dipahami
Penasaran apakah ada bagian tentang waktu pelatihan yang terlewat; apakah penambahan noise per token membuat pelatihan jauh lebih lambat
Riset yang sangat keren, tetapi penasaran kenapa ini disebut 'Diffusion Forcing'