5 poin oleh xguru 2023-06-16 | 1 komentar | Bagikan ke WhatsApp
  • Belajar dengan membangun model internal yang membandingkan representasi abstrak gambar, alih-alih membandingkan piksel secara langsung
  • Memberikan performa kuat pada tugas computer vision dan jauh lebih efisien. Dapat dimanfaatkan di berbagai bidang tanpa fine-tuning ekstensif
  • Model visual transformer berparameter 632M dapat dilatih dalam 72 jam hanya dengan 16 GPU A100
    • Menunjukkan performa SOTA pada klasifikasi low-shot ImageNet hanya dengan 12 contoh berlabel per kelas
  • Makalahnya akan dipresentasikan di CVPR 2023, dan kode pelatihan serta checkpoint model juga akan dirilis sebagai open source
  • Image Joint Embedding Predictive Architecture

1 komentar

 
libner 2023-06-16

Sepertinya kata 'luas' tidak tertulis dengan benar karena typo.