Gambaran umum model Ferret
- Model Ferret memungkinkan referensi dan penentuan posisi yang presisi dengan kosakata yang rinci dan terbuka melalui representasi wilayah hibrida dan sampler visual yang sadar spasial.
- Dataset GRIT (~1.1M) adalah dataset tuning instruksi berskala besar, hierarkis, dan tangguh.
- Ferret-Bench adalah benchmark evaluasi multimodal yang secara bersamaan menuntut referensi/penentuan posisi, semantik, pengetahuan, dan penalaran.
Rilis model Ferret
- [12/14] Checkpoint 7B dan 13B dirilis.
- [10/30] Kode model FERRET dan Ferret-Bench dirilis.
- Data dan kode hanya digunakan untuk tujuan penelitian, dan mengikuti perjanjian lisensi LLaMA, Vicuna, dan GPT-4.
- Dataset berlisensi CC BY NC 4.0 (hanya mengizinkan penggunaan nonkomersial), dan model yang dilatih menggunakan dataset ini tidak boleh digunakan selain untuk tujuan penelitian.
Instalasi dan cara penggunaan
- Kloning repositori FERRET, pindah ke folder terkait, lalu instal paket yang diperlukan.
- Instalasi paket tambahan diperlukan untuk kasus pelatihan tertentu.
Pelatihan
- FERRET dilatih pada 8 GPU A100 (masing-masing dengan memori 80GB).
- Saat melatih dengan jumlah GPU yang lebih sedikit,
per_device_train_batch_size harus dikurangi dan gradient_accumulation_steps harus ditingkatkan.
- Perlu menyiapkan checkpoint Vicuna dan proyektor LLaVA.
- Skrip pelatihan disediakan.
Evaluasi
- Lihat dokumentasi untuk detailnya.
Checkpoint
- Ekstrak
delta antara model yang telah dipra-latih dan Vicuna.
- Unduh bobot Vicuna, lalu unduh dan terapkan offset bobot yang telah disiapkan.
Demo
- Setelah melatih FERRET, jalankan demo secara lokal menggunakan checkpoint.
- Menggunakan web UI Gradio.
- Jalankan controller, server web Gradio, dan model worker secara berurutan.
Sitasi
- Jika Ferret bermanfaat bagi Anda, sitasikan dengan BibTeX berikut.
Ucapan terima kasih
- LLaVA: codebase dasar.
- Vicuna: codebase LLM.
Opini GN⁺
- Teknologi inovatif: Model Ferret menghadirkan teknologi inovatif yang memungkinkan referensi dan penentuan posisi yang presisi dengan menggunakan kosakata yang beragam.
- Pentingnya penelitian: Model dan dataset ini merupakan sumber daya penting yang dapat mendorong penelitian tentang tugas referensi dan penentuan posisi di bidang kecerdasan buatan.
- Beragam kemungkinan aplikasi: Teknologi ini dapat dimanfaatkan dalam berbagai aplikasi yang menggabungkan gambar dan teks, yang dapat membawa pemahaman visual dan interaksi AI ke tingkat berikutnya.
Belum ada komentar.