- Model arsitektur vision-language yang memungkinkan pemahaman dan penalaran detail dengan menganalisis gambar beresolusi tinggi yang dibagi menjadi banyak area kecil
- Merilis 2 model open source, termasuk Llama-3-8b-Dragonfly-v1 (domain umum) dan Llama-3-8b-Dragonfly-Med-v1 (domain medis)
- Llama-3-8b-Dragonfly-v1 dilatih dengan 5,5 juta pasangan gambar-instruksi, dan Llama-3-8b-Dragonfly-Med-v1 kemudian di-fine-tune lagi dengan tambahan 1,4 juta gambar medis-instruksi
- Dragonfly menunjukkan kinerja unggul pada benchmark seperti penalaran akal sehat visual dan image captioning
- Dragonfly-Med melampaui model-model sebelumnya seperti Med-Gemini dalam bidang pemahaman citra medis
Arsitektur Dragonfly
-
Pengodean visual multi-resolusi (Multi-resolution Visual Encoding):
- Memproses gambar pada resolusi rendah/sedang/tinggi
- Setiap gambar dibagi menjadi beberapa sub-gambar sesuai resolusinya, lalu dienkode menjadi token visual
- Token yang telah dienkode diproyeksikan ke language space lalu rangkaian hasil concatenation dimasukkan ke LLM sebagai input
- Dengan cara ini, gambar berukuran besar dapat diproses secara efisien sekaligus meningkatkan granularity pemrosesan data visual
-
Zoom-in Patch Selection:
- Pendekatan selektif untuk berfokus pada detail visual penting dalam gambar beresolusi tinggi
- Menggunakan strategi zoom-in patch selection yang baru untuk memilih hanya sub-gambar resolusi tinggi yang paling penting
- Hanya patch yang paling relevan yang dipilih dengan membandingkan summary embedding dari sub-gambar resolusi sedang/tinggi
- Dengan demikian, redundansi dikurangi dan fokus diarahkan ke area konten inti, sehingga meningkatkan efisiensi model secara keseluruhan dan pemahaman pada area detail
-
Melalui dua strategi ini, model dapat lebih fokus pada detail area gambar dan meningkatkan kemampuan penalaran berbasis akal sehat.
-
Meski dioptimalkan untuk menangkap detail, model ini tetap menunjukkan kinerja zero-shot yang baik pada benchmark pemahaman gambar umum seperti VQA dan image captioning.
Evaluasi performa model Dragonfly
- Dievaluasi pada 5 benchmark vision-language, termasuk AI2D, ScienceQA, MMMU, MMVet, dan POPE
- AI2D, ScienceQA: evaluasi penalaran akal sehat visual di domain sains
- MMMU, MMVet: evaluasi komprehensif kemampuan vision-language
- POPE: evaluasi hallucination pada level objek
- Menunjukkan performa unggul yang sebanding dengan model-model vision-language terkenal lainnya
Performa Dragonfly-Med
- Versi Dragonfly yang dilatih lebih lanjut melalui kolaborasi dengan Stanford Medicine menggunakan 1,4 juta gambar medis-instruksi
- Melampaui performa model sebelumnya seperti Med-Gemini pada benchmark visual question answering seperti VQA-RAD, SLAKE, dan Path-VQA
- Juga menunjukkan performa setara SOTA pada benchmark image captioning medis seperti IU X-Ray, Peir Gross, ROCO, dan MIMIC CXR
Rencana ke depan
- Berencana mengeksplorasi arsitektur baru dan strategi pengodean visual dengan LLaMA3-8B-Instruct sebagai backbone
- Ingin memperluas cakupan penerapan ke lebih banyak bidang sains dan berkontribusi pada riset multimodal open source
Belum ada komentar.