- Model Multimodal Large Language Model (MLLM) yang mengenali format umum, belajar dari konteks (few-shot), dan mengikuti instruksi (zero-shot)
- Model yang dilatih dengan teks, gambar, dan pasangan caption gambar, serta menunjukkan kinerja yang mengesankan pada tugas-tugas berikut
- Pemahaman dan generasi bahasa, serta NLP tanpa memerlukan OCR (mengenali langsung dari gambar dokumen)
- Dialog multimodal, pembuatan caption gambar, dan visual question answering
- Tugas visi seperti pengenalan gambar dengan deskripsi yang disertakan (penentuan klasifikasi melalui instruksi teks)
- MLLM dapat memperoleh keuntungan melalui transfer lintas modal (mentransfer pengetahuan dari bahasa ke multimodal, dan dari multimodal ke bahasa)
1 komentar
Repo: https://github.com/microsoft/unilm