2 poin oleh GN⁺ 2023-12-24 | Belum ada komentar. | Bagikan ke WhatsApp

Gambaran umum model Ferret

  • Model Ferret memungkinkan referensi dan penentuan posisi yang presisi dengan kosakata yang rinci dan terbuka melalui representasi wilayah hibrida dan sampler visual yang sadar spasial.
  • Dataset GRIT (~1.1M) adalah dataset tuning instruksi berskala besar, hierarkis, dan tangguh.
  • Ferret-Bench adalah benchmark evaluasi multimodal yang secara bersamaan menuntut referensi/penentuan posisi, semantik, pengetahuan, dan penalaran.

Rilis model Ferret

  • [12/14] Checkpoint 7B dan 13B dirilis.
  • [10/30] Kode model FERRET dan Ferret-Bench dirilis.
  • Data dan kode hanya digunakan untuk tujuan penelitian, dan mengikuti perjanjian lisensi LLaMA, Vicuna, dan GPT-4.
  • Dataset berlisensi CC BY NC 4.0 (hanya mengizinkan penggunaan nonkomersial), dan model yang dilatih menggunakan dataset ini tidak boleh digunakan selain untuk tujuan penelitian.

Instalasi dan cara penggunaan

  • Kloning repositori FERRET, pindah ke folder terkait, lalu instal paket yang diperlukan.
  • Instalasi paket tambahan diperlukan untuk kasus pelatihan tertentu.

Pelatihan

  • FERRET dilatih pada 8 GPU A100 (masing-masing dengan memori 80GB).
  • Saat melatih dengan jumlah GPU yang lebih sedikit, per_device_train_batch_size harus dikurangi dan gradient_accumulation_steps harus ditingkatkan.
  • Perlu menyiapkan checkpoint Vicuna dan proyektor LLaVA.
  • Skrip pelatihan disediakan.

Evaluasi

  • Lihat dokumentasi untuk detailnya.

Checkpoint

  • Ekstrak delta antara model yang telah dipra-latih dan Vicuna.
  • Unduh bobot Vicuna, lalu unduh dan terapkan offset bobot yang telah disiapkan.

Demo

  • Setelah melatih FERRET, jalankan demo secara lokal menggunakan checkpoint.
  • Menggunakan web UI Gradio.
  • Jalankan controller, server web Gradio, dan model worker secara berurutan.

Sitasi

  • Jika Ferret bermanfaat bagi Anda, sitasikan dengan BibTeX berikut.

Ucapan terima kasih

  • LLaVA: codebase dasar.
  • Vicuna: codebase LLM.

Opini GN⁺

  • Teknologi inovatif: Model Ferret menghadirkan teknologi inovatif yang memungkinkan referensi dan penentuan posisi yang presisi dengan menggunakan kosakata yang beragam.
  • Pentingnya penelitian: Model dan dataset ini merupakan sumber daya penting yang dapat mendorong penelitian tentang tugas referensi dan penentuan posisi di bidang kecerdasan buatan.
  • Beragam kemungkinan aplikasi: Teknologi ini dapat dimanfaatkan dalam berbagai aplikasi yang menggabungkan gambar dan teks, yang dapat membawa pemahaman visual dan interaksi AI ke tingkat berikutnya.

Belum ada komentar.

Belum ada komentar.