6 poin oleh xguru 2023-06-14 | Belum ada komentar. | Bagikan ke WhatsApp
  • Agar performa zero-shot LLM bagus, set instruksi berkualitas tinggi sangat penting, dan hal yang sama juga berlaku untuk VLM (model vision-language)
  • Namun saat ini, set instruksi vision-language masih sangat terbatas dari sisi jumlah/keragaman/kreativitas
  • Mengusulkan MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
  • Dataset yang terdiri dari 2,2 juta instruksi unik yang diambil dari gambar & video, serta 2,8 juta pasangan instruksi-jawaban multimodal
  • Otter adalah VLM skala besar yang dilatih dengan dataset MIMIC-IT
  • Mendukung 8 bahasa: Inggris, Tionghoa, Korea, Jepang, Jerman, Prancis, Spanyol, Arab

Belum ada komentar.

Belum ada komentar.