4 poin oleh xguru 2024-06-10 | Belum ada komentar. | Bagikan ke WhatsApp
  • Model arsitektur vision-language yang memungkinkan pemahaman dan penalaran detail dengan menganalisis gambar beresolusi tinggi yang dibagi menjadi banyak area kecil
  • Merilis 2 model open source, termasuk Llama-3-8b-Dragonfly-v1 (domain umum) dan Llama-3-8b-Dragonfly-Med-v1 (domain medis)
  • Llama-3-8b-Dragonfly-v1 dilatih dengan 5,5 juta pasangan gambar-instruksi, dan Llama-3-8b-Dragonfly-Med-v1 kemudian di-fine-tune lagi dengan tambahan 1,4 juta gambar medis-instruksi
  • Dragonfly menunjukkan kinerja unggul pada benchmark seperti penalaran akal sehat visual dan image captioning
  • Dragonfly-Med melampaui model-model sebelumnya seperti Med-Gemini dalam bidang pemahaman citra medis

Arsitektur Dragonfly

  • Pengodean visual multi-resolusi (Multi-resolution Visual Encoding):

    • Memproses gambar pada resolusi rendah/sedang/tinggi
    • Setiap gambar dibagi menjadi beberapa sub-gambar sesuai resolusinya, lalu dienkode menjadi token visual
    • Token yang telah dienkode diproyeksikan ke language space lalu rangkaian hasil concatenation dimasukkan ke LLM sebagai input
    • Dengan cara ini, gambar berukuran besar dapat diproses secara efisien sekaligus meningkatkan granularity pemrosesan data visual
  • Zoom-in Patch Selection:

    • Pendekatan selektif untuk berfokus pada detail visual penting dalam gambar beresolusi tinggi
    • Menggunakan strategi zoom-in patch selection yang baru untuk memilih hanya sub-gambar resolusi tinggi yang paling penting
    • Hanya patch yang paling relevan yang dipilih dengan membandingkan summary embedding dari sub-gambar resolusi sedang/tinggi
    • Dengan demikian, redundansi dikurangi dan fokus diarahkan ke area konten inti, sehingga meningkatkan efisiensi model secara keseluruhan dan pemahaman pada area detail
  • Melalui dua strategi ini, model dapat lebih fokus pada detail area gambar dan meningkatkan kemampuan penalaran berbasis akal sehat.

  • Meski dioptimalkan untuk menangkap detail, model ini tetap menunjukkan kinerja zero-shot yang baik pada benchmark pemahaman gambar umum seperti VQA dan image captioning.

Evaluasi performa model Dragonfly

  • Dievaluasi pada 5 benchmark vision-language, termasuk AI2D, ScienceQA, MMMU, MMVet, dan POPE
    • AI2D, ScienceQA: evaluasi penalaran akal sehat visual di domain sains
    • MMMU, MMVet: evaluasi komprehensif kemampuan vision-language
    • POPE: evaluasi hallucination pada level objek
  • Menunjukkan performa unggul yang sebanding dengan model-model vision-language terkenal lainnya

Performa Dragonfly-Med

  • Versi Dragonfly yang dilatih lebih lanjut melalui kolaborasi dengan Stanford Medicine menggunakan 1,4 juta gambar medis-instruksi
  • Melampaui performa model sebelumnya seperti Med-Gemini pada benchmark visual question answering seperti VQA-RAD, SLAKE, dan Path-VQA
  • Juga menunjukkan performa setara SOTA pada benchmark image captioning medis seperti IU X-Ray, Peir Gross, ROCO, dan MIMIC CXR

Rencana ke depan

  • Berencana mengeksplorasi arsitektur baru dan strategi pengodean visual dengan LLaMA3-8B-Instruct sebagai backbone
  • Ingin memperluas cakupan penerapan ke lebih banyak bidang sains dan berkontribusi pada riset multimodal open source

Belum ada komentar.

Belum ada komentar.