- Belajar dengan membangun model internal yang membandingkan representasi abstrak gambar, alih-alih membandingkan piksel secara langsung
- Memberikan performa kuat pada tugas computer vision dan jauh lebih efisien. Dapat dimanfaatkan di berbagai bidang tanpa fine-tuning ekstensif
- Model visual transformer berparameter 632M dapat dilatih dalam 72 jam hanya dengan 16 GPU A100
- Menunjukkan performa SOTA pada klasifikasi low-shot ImageNet hanya dengan 12 contoh berlabel per kelas
- Makalahnya akan dipresentasikan di CVPR 2023, dan kode pelatihan serta checkpoint model juga akan dirilis sebagai open source
- Image Joint Embedding Predictive Architecture
1 komentar
Sepertinya kata 'luas' tidak tertulis dengan benar karena typo.