LLaVA: Visual Instruction Tuning

xguru · 2023-04-22T10:32:01+09:00

"LLaVA: Large Language and Vision Assistant" Model multimodal skala besar yang menggabungkan vision encoder dan Vicuna untuk pemahaman visual dan bahasa yang bersifat umum Menargetkan kemampuan setara GPT-4 multimodal serta akurasi SOTA dalam tanya jawab ilmiah Makalah, kode, dan demo telah dirilis

(llava-vl.github.io)

6 poin oleh xguru 2023-04-22 | Belum ada komentar. | Bagikan ke WhatsApp

"LLaVA: Large Language and Vision Assistant"
Model multimodal skala besar yang menggabungkan vision encoder dan Vicuna untuk pemahaman visual dan bahasa yang bersifat umum
Menargetkan kemampuan setara GPT-4 multimodal serta akurasi SOTA dalam tanya jawab ilmiah
Makalah, kode, dan demo telah dirilis

LLaVA: Visual Instruction Tuning

Bacaan terkait

Belum ada komentar.