11 poin oleh xguru 2023-03-31 | 1 komentar | Bagikan ke WhatsApp
  • Bertujuan mengembangkan sistem multimodal yang dapat memproses input gambar/teks secara bersamaan seperti GPT-4
  • Untuk itu, model Flamingo dari DeepMind, yaitu LMM (Large Multimodal Model) yang memproses dan melakukan inferensi pada gambar/video/teks, diimplementasikan sebagai open source
  • Yang termasuk dalam rilis pertama
    • Framework Python untuk melatih LMM bergaya Flamingo
    • Dataset multimodal skala besar dengan gambar/teks yang saling terinterleaving
    • Benchmark evaluasi pembelajaran in-context untuk tugas vision-language
    • Model OpenFlamingo-9B berbasis LLaMA
  • Karena dataset pelatihan Flamingo tidak dipublikasikan, pelatihan dilakukan dengan dataset Multimodal C4 dari LAION-2B serta 5 juta sampel yang diekstrak dari 10 juta sampel