Microsoft Kosmos-1: LLM Multimodal (MLLM)

xguru · 2023-03-02T09:56:41+09:00

Model Multimodal Large Language Model (MLLM) yang mengenali format umum, belajar dari konteks (few-shot), dan mengikuti instruksi (zero-shot) Model yang dilatih dengan teks, gambar, dan pasangan caption gambar, serta menunjukkan kinerja yang mengesankan pada tugas-tugas berikut Pemahaman dan generasi bahasa, serta NLP tanpa memerlukan OCR (mengenali langsung dari gambar dokumen) Dialog multimodal, pembuatan caption gambar, dan visual question answering Tugas visi seperti pengenalan gambar dengan deskripsi yang disertakan (penentuan klasifikasi melalui instruksi teks) MLLM dapat memperoleh keuntungan melalui transfer lintas modal (mentransfer pengetahuan dari bahasa ke multimodal, dan dari multimodal ke bahasa)

(arxiv.org)

9 poin oleh xguru 2023-03-02 | 1 komentar | Bagikan ke WhatsApp

Model Multimodal Large Language Model (MLLM) yang mengenali format umum, belajar dari konteks (few-shot), dan mengikuti instruksi (zero-shot)
Model yang dilatih dengan teks, gambar, dan pasangan caption gambar, serta menunjukkan kinerja yang mengesankan pada tugas-tugas berikut
1. Pemahaman dan generasi bahasa, serta NLP tanpa memerlukan OCR (mengenali langsung dari gambar dokumen)
2. Dialog multimodal, pembuatan caption gambar, dan visual question answering
3. Tugas visi seperti pengenalan gambar dengan deskripsi yang disertakan (penentuan klasifikasi melalui instruksi teks)
MLLM dapat memperoleh keuntungan melalui transfer lintas modal (mentransfer pengetahuan dari bahasa ke multimodal, dan dari multimodal ke bahasa)

1 komentar

xguru 2023-03-02

Repo: https://github.com/microsoft/unilm

Microsoft Kosmos-1: LLM Multimodal (MLLM)

Bacaan terkait

1 komentar