Magma - Model dasar untuk agen AI multimodal
(microsoft.github.io)- Magma adalah model dasar pertama yang dapat menafsirkan input multimodal dan menghubungkannya di dalam lingkungan, sehingga mampu menangani interaksi kompleks di dunia virtual maupun nyata
- Tidak hanya memahami gambar dan video sederhana, tetapi juga menghasilkan perencanaan visual dan eksekusi yang berorientasi tujuan untuk menjalankan berbagai tugas agen AI
- Mencapai kinerja mutakhir pada berbagai tugas multimodal seperti navigasi UI, manipulasi robot, serta pemahaman gambar·video, terutama dalam pemahaman dan penalaran spasial
- Metode pra-pelatihan yang dapat diskalakan: dilatih menggunakan data video tanpa label bersama data agen yang sudah ada untuk memperoleh kemampuan generalisasi yang kuat, sehingga cocok untuk aplikasi nyata
- Kode, model, dan demo navigasi UI akan dipublikasikan di MSR Forum (2025.02.25).
Tujuan Magma
- Kecerdasan bahasa dan spatio-temporal:
- Kemampuan untuk memahami gambar dan video secara akurat, lalu mengubahnya menjadi rencana tindakan dan eksekusi berdasarkan tujuan
- Beroperasi di lingkungan digital dan fisik:
- Dapat melakukan navigasi web (manipulasi UI) maupun manipulasi robot
- AI yang dapat berpindah bebas antara lingkungan digital dan fisik seperti manusia
- Untuk itu, Magma dilatih dengan mengembangkan dataset pelatihan baru yang memanfaatkan data video tanpa label dan data agen yang sudah ada, serta kerangka pra-pelatihan yang mempelajari teks·gambar·tindakan secara terpadu
Metode pra-pelatihan Magma
- Magma dilatih melalui dua pendekatan inti.
- 1️⃣ Pemanfaatan data pelatihan heterogen berskala besar
- Selain data multimodal yang sudah ada, data navigasi UI, dan data manipulasi robot, model ini juga dilatih dengan mengumpulkan data video tanpa label dalam jumlah besar.
- Dengan menghilangkan pergerakan kamera dan mengekstrak data tindakan nyata, model dapat mempelajari prediksi dan perencanaan tindakan jangka panjang.
- 2️⃣ Penetapan tujuan pra-pelatihan terpadu
- Teks dan tindakan pada dasarnya berbeda, dan tantangannya adalah menghubungkan keduanya secara efektif
- Dengan memperkenalkan teknik pelatihan baru seperti Set-of-Mark dan Trace-of-Mark, dibangun struktur alignment yang kuat antara teks·gambar·tindakan
- Set-of-Mark (SoM): memungkinkan landasan tindakan yang efektif pada gambar, dengan memprediksi tanda angka untuk tombol yang dapat diklik pada tangkapan layar UI, serta untuk lengan robot dalam manipulasi robot dan video manusia.
- Trace-of-Mark (ToM): memberikan supervisi untuk manipulasi robot dan tindakan manusia, sehingga model dapat memahami dinamika video temporal dan memprediksi keadaan masa depan sebelum bertindak.
Cara menggunakan model
Penggunaan langsung (dapat digunakan tanpa fine-tuning)
Magma dirancang untuk keperluan riset dan dapat digunakan dengan cara berikut.
- Generasi teks berbasis gambar/video: dapat menghasilkan deskripsi dan jawaban berdasarkan gambar·teks yang diberikan.
- Perencanaan visual (Visual Planning): dapat memprediksi jalur tindakan di masa depan untuk mencapai tujuan seperti memindahkan objek.
- Fungsi agen:
- Navigasi UI: misalnya memprediksi manipulasi UI seperti "klik tombol pencarian"
- Manipulasi robot: prediksi manipulasi robot 7 derajat kebebasan (7 DoF)
Tugas downstream (menggunakan fine-tuning)
Magma dapat dilatih lebih lanjut agar sesuai dengan tugas tertentu.
- Image captioning dan QA: dilatih dengan pendekatan model bahasa besar multimodal (LLM) yang sudah ada untuk memperkuat kemampuan pemahaman dan penalaran spasial.
- Video captioning dan QA: dapat meningkatkan kemampuan pemahaman dan penalaran temporal terhadap data video.
- Navigasi UI: dapat mencapai kinerja tinggi dengan dioptimalkan untuk tugas navigasi UI web dan seluler.
- Manipulasi robot: melalui pelatihan tambahan untuk kontrol robot, menunjukkan kinerja yang melampaui model manipulasi robot yang sudah ada seperti OpenVLA.
Bias, risiko, dan keterbatasan
- Model ini tidak dirancang untuk semua tugas downstream.
- Sebelum diterapkan pada kasus penggunaan tertentu, akurasi, keamanan, dan keadilan harus dievaluasi dan disesuaikan.
- Terutama pada skenario berisiko tinggi, hukum dan regulasi yang berlaku harus dipatuhi.
1 komentar
Opini Hacker News