Vision Transformer (ViT) Memerlukan Register
(openreview.net)Vision Transformer memerlukan register
- Penulis: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
- Presentasi lisan ICLR 2024
- Dipublikasikan pada 16 Januari 2024, revisi final 12 April 2024
Ringkasan
- Menemukan dan mengarakterisasi artefak pada feature map model Vision Transformer (ViT) yang dilatih dengan supervised learning maupun self-supervised learning
- Artefak tersebut berkaitan dengan token bernorm tinggi yang terutama muncul pada area latar belakang dengan informasi rendah selama inferensi, dan digunakan kembali untuk komputasi internal
- Mengusulkan solusi yang sederhana namun efektif dengan menyediakan token tambahan (disebut "register") pada sekuens input ViT
- Sepenuhnya menyelesaikan masalah ini pada model supervised maupun self-supervised, menetapkan SOTA baru untuk model visual self-supervised pada tugas prediksi visual padat, memungkinkan metode deteksi objek dengan model yang lebih besar, dan yang terpenting menghasilkan feature map dan attention map yang lebih halus untuk pemrosesan visual downstream
Eksperimen dan analisis
- Investigasi terhadap artefak sangat orisinal dan menyeluruh. Grafik dan penjelasannya sangat memberi wawasan, dan eksperimennya komprehensif
- Penyertaan token register yang diusulkan sangat sederhana dan elegan, serta memberikan attention mask yang lebih mudah diinterpretasikan
- Pernyataan mengenai keterbatasan sangat diapresiasi
- Makalah ini mudah diikuti, dan visualisasinya membantu memberikan intuisi
Hal yang perlu diperbaiki
- Kurang eksperimen yang menunjukkan bahwa perilaku token outlier benar-benar hilang setelah menambahkan token register. Akan menarik untuk memeriksa apakah informasi dialihkan ke token gambar/register pada model yang diusulkan
- Pembahasan performa model untuk deteksi objek tak terawasi terbatas dan tidak sepenuhnya selaras dengan hasil
- Keuntungan DINOv2+reg mengesankan, tetapi perlu lebih banyak diskusi atau contoh kualitatif mengenai mengapa hasilnya tidak konsisten dengan DINO
- Disebutkan bahwa register meningkatkan performa deteksi objek tak terawasi pada semua model, tetapi performa OpenCLIP justru menurun
Opini GN⁺
-
Mungkin ada cara lain selain register untuk mengurangi redundansi terbatas pada level patch. Menarik untuk mengetahui apakah efek serupa juga diamati pada model self-supervised lain seperti MAE, di mana rekonstruksi level patch seharusnya mengurangi redundansi representasi
-
Tampaknya diperlukan penjelasan tambahan mengenai penurunan performa OpenCLIP. Selain itu, masih kurang penjelasan mengapa performa LOST pada DINO lebih baik daripada DINOv2
-
Cukup mengejutkan bahwa DINOv2 menunjukkan perilaku ini meskipun menggunakan objective function dense masked-image-modeling. Menarik untuk mengetahui mengapa objective gambar termask ini tidak mampu mencegah perilaku tersebut, padahal seharusnya menuntut preservasi informasi pada fitur patch
-
Tampaknya perlu dibedakan antara bias pada dataset itu sendiri dan bias pada label. SSL kurang terpengaruh oleh bias label, tetapi bias dari sumber data seperti Instagram vs iNaturalist masih dapat tetap ada
-
Disebutkan bahwa token outlier muncul pada model yang lebih besar, tetapi hal itu tidak terlihat pada model base CLIP/DEIT. Akan baik jika ada komentar tentang ini di akhir bagian 2.2
-
Menarik untuk mengetahui bagaimana performa deteksi objek tak terawasi dari model DINO yang ditambahkan register dibandingkan model lain dengan fungsi serupa seperti CLIP dari OpenAI atau LiT dari Google
-
Akan menarik untuk menganalisis apakah fenomena token outlier yang diamati pada model berbasis ViT juga muncul pada model berbasis CNN, atau memang merupakan karakteristik khusus arsitektur transformer
-
Dalam aplikasi nyata, pedoman mengenai apakah penggunaan token register menimbulkan penurunan performa akibat peningkatan komputasi, serta bagaimana menentukan jumlah register yang optimal, akan sangat membantu
Belum ada komentar.