6 poin oleh xguru 2023-04-22 | Belum ada komentar. | Bagikan ke WhatsApp
  • "LLaVA: Large Language and Vision Assistant"
  • Model multimodal skala besar yang menggabungkan vision encoder dan Vicuna untuk pemahaman visual dan bahasa yang bersifat umum
  • Menargetkan kemampuan setara GPT-4 multimodal serta akurasi SOTA dalam tanya jawab ilmiah
  • Makalah, kode, dan demo telah dirilis

Belum ada komentar.

Belum ada komentar.