9 poin oleh xguru 2023-03-02 | 1 komentar | Bagikan ke WhatsApp
  • Model Multimodal Large Language Model (MLLM) yang mengenali format umum, belajar dari konteks (few-shot), dan mengikuti instruksi (zero-shot)
  • Model yang dilatih dengan teks, gambar, dan pasangan caption gambar, serta menunjukkan kinerja yang mengesankan pada tugas-tugas berikut
    1. Pemahaman dan generasi bahasa, serta NLP tanpa memerlukan OCR (mengenali langsung dari gambar dokumen)
    2. Dialog multimodal, pembuatan caption gambar, dan visual question answering
    3. Tugas visi seperti pengenalan gambar dengan deskripsi yang disertakan (penentuan klasifikasi melalui instruksi teks)
  • MLLM dapat memperoleh keuntungan melalui transfer lintas modal (mentransfer pengetahuan dari bahasa ke multimodal, dan dari multimodal ke bahasa)