LLaVA: Visual Instruction Tuning
(llava-vl.github.io)- "LLaVA: Large Language and Vision Assistant"
- Model multimodal skala besar yang menggabungkan vision encoder dan Vicuna untuk pemahaman visual dan bahasa yang bersifat umum
- Menargetkan kemampuan setara GPT-4 multimodal serta akurasi SOTA dalam tanya jawab ilmiah
- Makalah, kode, dan demo telah dirilis
Belum ada komentar.