Otter: model multimodal dengan instruction tuning dalam konteks

xguru · 2023-06-14T10:16:01+09:00

Agar performa zero-shot LLM bagus, set instruksi berkualitas tinggi sangat penting, dan hal yang sama juga berlaku untuk VLM (model vision-language) Namun saat ini, set instruksi vision-language masih sangat terbatas dari sisi jumlah/keragaman/kreativitas Mengusulkan MIMIC-IT (MultI-Modal In-Context Instruction Tuning) Dataset yang terdiri dari 2,2 juta instruksi unik yang diambil dari gambar & video, serta 2,8 juta pasangan instruksi-jawaban multimodal Otter adalah VLM skala besar yang dilatih dengan dataset MIMIC-IT Mendukung 8 bahasa: Inggris, Tionghoa, Korea, Jepang, Jerman, Prancis, Spanyol, Arab

(github.com/Luodian)

6 poin oleh xguru 2023-06-14 | Belum ada komentar. | Bagikan ke WhatsApp

Agar performa zero-shot LLM bagus, set instruksi berkualitas tinggi sangat penting, dan hal yang sama juga berlaku untuk VLM (model vision-language)
Namun saat ini, set instruksi vision-language masih sangat terbatas dari sisi jumlah/keragaman/kreativitas
Mengusulkan MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
Dataset yang terdiri dari 2,2 juta instruksi unik yang diambil dari gambar & video, serta 2,8 juta pasangan instruksi-jawaban multimodal
Otter adalah VLM skala besar yang dilatih dengan dataset MIMIC-IT
Mendukung 8 bahasa: Inggris, Tionghoa, Korea, Jepang, Jerman, Prancis, Spanyol, Arab

Otter: model multimodal dengan instruction tuning dalam konteks

Bacaan terkait

Belum ada komentar.