Dragonfly - Model vision-language skala besar dengan zoom multi-resolusi

xguru · 2024-06-10T10:10:02+09:00

Model arsitektur vision-language yang memungkinkan pemahaman dan penalaran detail dengan menganalisis gambar beresolusi tinggi yang dibagi menjadi banyak area kecil Merilis 2 model open source, termasuk Llama-3-8b-Dragonfly-v1 (domain umum) dan Llama-3-8b-Dragonfly-Med-v1 (domain medis) Llama-3-8b-Dragonfly-v1 dilatih dengan 5,5 juta pasangan gambar-instruksi, dan Llama-3-8b-Dragonfly-Med-v1 kemudian di-fine-tune lagi dengan tambahan 1,4 juta gambar medis-instruksi Dragonfly menunjukkan kinerja unggul pada benchmark seperti penalaran akal sehat visual dan image captioning Dragonfly-Med melampaui model-model sebelumnya seperti Med-Gemini dalam bidang pemahaman citra medis Arsitektur Dragonfly Pengodean visual multi-resolusi (Multi-resolution Visual Encoding): Memproses gambar pada resolusi rendah/sedang/tinggi Setiap gambar dibagi menjadi beberapa sub-gambar sesuai resolusinya, lalu dienkode menjadi token visual Token yang telah dienkode diproyeksikan ke language space lalu rangkaian hasil concatenation dimasukkan ke LLM sebagai input Dengan cara ini, gambar berukuran besar dapat diproses secara efisien sekaligus meningkatkan granularity pemrosesan data visual Zoom-in Patch Selection: Pendekatan selektif untuk berfokus pada detail visual penting dalam gambar beresolusi tinggi Menggunakan strategi zoom-in patch selection yang baru untuk memilih hanya sub-gambar resolusi tinggi yang paling penting Hanya patch yang paling relevan yang dipilih dengan membandingkan summary embedding dari sub-gambar resolusi sedang/tinggi Dengan demikian, redundansi dikurangi dan fokus diarahkan ke area konten inti, sehingga meningkatkan efisiensi model secara keseluruhan dan pemahaman pada area detail Melalui dua strategi ini, model dapat lebih fokus pada detail area gambar dan meningkatkan kemampuan penalaran berbasis akal sehat. Meski dioptimalkan untuk menangkap detail, model ini tetap menunjukkan kinerja zero-shot yang baik pada benchmark pemahaman gambar umum seperti VQA dan image captioning. Evaluasi performa model Dragonfly Dievaluasi pada 5 benchmark vision-language, termasuk AI2D, ScienceQA, MMMU, MMVet, dan POPE AI2D, ScienceQA: evaluasi penalaran akal sehat visual di domain sains MMMU, MMVet: evaluasi komprehensif kemampuan vision-language POPE: evaluasi hallucination pada level objek Menunjukkan performa unggul yang sebanding dengan model-model vision-language terkenal lainnya Performa Dragonfly-Med Versi Dragonfly yang dilatih lebih lanjut melalui kolaborasi dengan Stanford Medicine menggunakan 1,4 juta gambar medis-instruksi Melampaui performa model sebelumnya seperti Med-Gemini pada benchmark visual question answering seperti VQA-RAD, SLAKE, dan Path-VQA Juga menunjukkan performa setara SOTA pada benchmark image captioning medis seperti IU X-Ray, Peir Gross, ROCO, dan MIMIC CXR Rencana ke depan Berencana mengeksplorasi arsitektur baru dan strategi pengodean visual dengan LLaMA3-8B-Instruct sebagai backbone Ingin memperluas cakupan penerapan ke lebih banyak bidang sains dan berkontribusi pada riset multimodal open source

(together.ai)

4 poin oleh xguru 2024-06-10 | Belum ada komentar. | Bagikan ke WhatsApp

Model arsitektur vision-language yang memungkinkan pemahaman dan penalaran detail dengan menganalisis gambar beresolusi tinggi yang dibagi menjadi banyak area kecil
Merilis 2 model open source, termasuk Llama-3-8b-Dragonfly-v1 (domain umum) dan Llama-3-8b-Dragonfly-Med-v1 (domain medis)
Llama-3-8b-Dragonfly-v1 dilatih dengan 5,5 juta pasangan gambar-instruksi, dan Llama-3-8b-Dragonfly-Med-v1 kemudian di-fine-tune lagi dengan tambahan 1,4 juta gambar medis-instruksi
Dragonfly menunjukkan kinerja unggul pada benchmark seperti penalaran akal sehat visual dan image captioning
Dragonfly-Med melampaui model-model sebelumnya seperti Med-Gemini dalam bidang pemahaman citra medis

Arsitektur Dragonfly

Pengodean visual multi-resolusi (Multi-resolution Visual Encoding):
- Memproses gambar pada resolusi rendah/sedang/tinggi
- Setiap gambar dibagi menjadi beberapa sub-gambar sesuai resolusinya, lalu dienkode menjadi token visual
- Token yang telah dienkode diproyeksikan ke language space lalu rangkaian hasil concatenation dimasukkan ke LLM sebagai input
- Dengan cara ini, gambar berukuran besar dapat diproses secara efisien sekaligus meningkatkan granularity pemrosesan data visual
Zoom-in Patch Selection:
- Pendekatan selektif untuk berfokus pada detail visual penting dalam gambar beresolusi tinggi
- Menggunakan strategi zoom-in patch selection yang baru untuk memilih hanya sub-gambar resolusi tinggi yang paling penting
- Hanya patch yang paling relevan yang dipilih dengan membandingkan summary embedding dari sub-gambar resolusi sedang/tinggi
- Dengan demikian, redundansi dikurangi dan fokus diarahkan ke area konten inti, sehingga meningkatkan efisiensi model secara keseluruhan dan pemahaman pada area detail
Melalui dua strategi ini, model dapat lebih fokus pada detail area gambar dan meningkatkan kemampuan penalaran berbasis akal sehat.
Meski dioptimalkan untuk menangkap detail, model ini tetap menunjukkan kinerja zero-shot yang baik pada benchmark pemahaman gambar umum seperti VQA dan image captioning.

Evaluasi performa model Dragonfly

Dievaluasi pada 5 benchmark vision-language, termasuk AI2D, ScienceQA, MMMU, MMVet, dan POPE
- AI2D, ScienceQA: evaluasi penalaran akal sehat visual di domain sains
- MMMU, MMVet: evaluasi komprehensif kemampuan vision-language
- POPE: evaluasi hallucination pada level objek
Menunjukkan performa unggul yang sebanding dengan model-model vision-language terkenal lainnya

Performa Dragonfly-Med

Versi Dragonfly yang dilatih lebih lanjut melalui kolaborasi dengan Stanford Medicine menggunakan 1,4 juta gambar medis-instruksi
Melampaui performa model sebelumnya seperti Med-Gemini pada benchmark visual question answering seperti VQA-RAD, SLAKE, dan Path-VQA
Juga menunjukkan performa setara SOTA pada benchmark image captioning medis seperti IU X-Ray, Peir Gross, ROCO, dan MIMIC CXR

Rencana ke depan

Berencana mengeksplorasi arsitektur baru dan strategi pengodean visual dengan LLaMA3-8B-Instruct sebagai backbone
Ingin memperluas cakupan penerapan ke lebih banyak bidang sains dan berkontribusi pada riset multimodal open source