6 poin oleh xguru 2023-10-31 | Belum ada komentar. | Bagikan ke WhatsApp
  • "ConvNets Match Vision Transformers at Scale"
  • Ada persepsi umum bahwa ConvNet berkinerja baik pada set data kecil hingga menengah, tetapi pada set data yang sangat besar, performanya tertinggal dari transformer, khususnya vision transformer (ViT)
  • Riset terbaru dari DeepMind menantang anggapan ini
    • Skalabilitas transformer selama ini dianggap melampaui skalabilitas ConvNet, tetapi bukti yang mendukung hal itu masih kurang
    • Para penulis menggunakan keluarga NFNet (Normalizer-Free ResNets) untuk secara bertahap meningkatkan lebar/kedalaman jaringan
    • Melakukan pra-pelatihan di JFT-4B, lalu fine-tuning di ImageNet menggunakan SAM (Sharpness-Aware Minimization)
    • Hasilnya menunjukkan performa yang setara dengan model ViT
    • Semua model terus membaik seiring tambahan kemampuan komputasi

Belum ada komentar.

Belum ada komentar.