- Bertujuan mengembangkan sistem multimodal yang dapat memproses input gambar/teks secara bersamaan seperti GPT-4
- Untuk itu, model Flamingo dari DeepMind, yaitu LMM (Large Multimodal Model) yang memproses dan melakukan inferensi pada gambar/video/teks, diimplementasikan sebagai open source
- Yang termasuk dalam rilis pertama
- Framework Python untuk melatih LMM bergaya Flamingo
- Dataset multimodal skala besar dengan gambar/teks yang saling terinterleaving
- Benchmark evaluasi pembelajaran in-context untuk tugas vision-language
- Model OpenFlamingo-9B berbasis LLaMA
- Karena dataset pelatihan Flamingo tidak dipublikasikan, pelatihan dilakukan dengan dataset Multimodal C4 dari LAION-2B serta 5 juta sampel yang diekstrak dari 10 juta sampel
1 komentar
Flamingo: Model Bahasa Visual untuk Few-Shot Learning