- "ConvNets Match Vision Transformers at Scale"
- Ada persepsi umum bahwa ConvNet berkinerja baik pada set data kecil hingga menengah, tetapi pada set data yang sangat besar, performanya tertinggal dari transformer, khususnya vision transformer (ViT)
- Riset terbaru dari DeepMind menantang anggapan ini
- Skalabilitas transformer selama ini dianggap melampaui skalabilitas ConvNet, tetapi bukti yang mendukung hal itu masih kurang
- Para penulis menggunakan keluarga NFNet (Normalizer-Free ResNets) untuk secara bertahap meningkatkan lebar/kedalaman jaringan
- Melakukan pra-pelatihan di JFT-4B, lalu fine-tuning di ImageNet menggunakan SAM (Sharpness-Aware Minimization)
- Hasilnya menunjukkan performa yang setara dengan model ViT
- Semua model terus membaik seiring tambahan kemampuan komputasi
Belum ada komentar.