- Agar performa zero-shot LLM bagus, set instruksi berkualitas tinggi sangat penting, dan hal yang sama juga berlaku untuk VLM (model vision-language)
- Namun saat ini, set instruksi vision-language masih sangat terbatas dari sisi jumlah/keragaman/kreativitas
- Mengusulkan MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
- Dataset yang terdiri dari 2,2 juta instruksi unik yang diambil dari gambar & video, serta 2,8 juta pasangan instruksi-jawaban multimodal
- Otter adalah VLM skala besar yang dilatih dengan dataset MIMIC-IT
- Mendukung 8 bahasa: Inggris, Tionghoa, Korea, Jepang, Jerman, Prancis, Spanyol, Arab
Belum ada komentar.