Magma - Model dasar untuk agen AI multimodal

(microsoft.github.io)

3 poin oleh GN⁺ 2025-02-21 | 1 komentar | Bagikan ke WhatsApp

Magma adalah model dasar pertama yang dapat menafsirkan input multimodal dan menghubungkannya di dalam lingkungan, sehingga mampu menangani interaksi kompleks di dunia virtual maupun nyata
Tidak hanya memahami gambar dan video sederhana, tetapi juga menghasilkan perencanaan visual dan eksekusi yang berorientasi tujuan untuk menjalankan berbagai tugas agen AI
Mencapai kinerja mutakhir pada berbagai tugas multimodal seperti navigasi UI, manipulasi robot, serta pemahaman gambar·video, terutama dalam pemahaman dan penalaran spasial
Metode pra-pelatihan yang dapat diskalakan: dilatih menggunakan data video tanpa label bersama data agen yang sudah ada untuk memperoleh kemampuan generalisasi yang kuat, sehingga cocok untuk aplikasi nyata
Kode, model, dan demo navigasi UI akan dipublikasikan di MSR Forum (2025.02.25).

Tujuan Magma

Kecerdasan bahasa dan spatio-temporal:
- Kemampuan untuk memahami gambar dan video secara akurat, lalu mengubahnya menjadi rencana tindakan dan eksekusi berdasarkan tujuan
Beroperasi di lingkungan digital dan fisik:
- Dapat melakukan navigasi web (manipulasi UI) maupun manipulasi robot
- AI yang dapat berpindah bebas antara lingkungan digital dan fisik seperti manusia
Untuk itu, Magma dilatih dengan mengembangkan dataset pelatihan baru yang memanfaatkan data video tanpa label dan data agen yang sudah ada, serta kerangka pra-pelatihan yang mempelajari teks·gambar·tindakan secara terpadu

Metode pra-pelatihan Magma

Magma dilatih melalui dua pendekatan inti.
1️⃣ Pemanfaatan data pelatihan heterogen berskala besar
- Selain data multimodal yang sudah ada, data navigasi UI, dan data manipulasi robot, model ini juga dilatih dengan mengumpulkan data video tanpa label dalam jumlah besar.
- Dengan menghilangkan pergerakan kamera dan mengekstrak data tindakan nyata, model dapat mempelajari prediksi dan perencanaan tindakan jangka panjang.
2️⃣ Penetapan tujuan pra-pelatihan terpadu
- Teks dan tindakan pada dasarnya berbeda, dan tantangannya adalah menghubungkan keduanya secara efektif
- Dengan memperkenalkan teknik pelatihan baru seperti Set-of-Mark dan Trace-of-Mark, dibangun struktur alignment yang kuat antara teks·gambar·tindakan
  - Set-of-Mark (SoM): memungkinkan landasan tindakan yang efektif pada gambar, dengan memprediksi tanda angka untuk tombol yang dapat diklik pada tangkapan layar UI, serta untuk lengan robot dalam manipulasi robot dan video manusia.
  - Trace-of-Mark (ToM): memberikan supervisi untuk manipulasi robot dan tindakan manusia, sehingga model dapat memahami dinamika video temporal dan memprediksi keadaan masa depan sebelum bertindak.

Cara menggunakan model

Penggunaan langsung (dapat digunakan tanpa fine-tuning)

Magma dirancang untuk keperluan riset dan dapat digunakan dengan cara berikut.

Generasi teks berbasis gambar/video: dapat menghasilkan deskripsi dan jawaban berdasarkan gambar·teks yang diberikan.
Perencanaan visual (Visual Planning): dapat memprediksi jalur tindakan di masa depan untuk mencapai tujuan seperti memindahkan objek.
Fungsi agen:
- Navigasi UI: misalnya memprediksi manipulasi UI seperti "klik tombol pencarian"
- Manipulasi robot: prediksi manipulasi robot 7 derajat kebebasan (7 DoF)

Tugas downstream (menggunakan fine-tuning)

Magma dapat dilatih lebih lanjut agar sesuai dengan tugas tertentu.

Image captioning dan QA: dilatih dengan pendekatan model bahasa besar multimodal (LLM) yang sudah ada untuk memperkuat kemampuan pemahaman dan penalaran spasial.
Video captioning dan QA: dapat meningkatkan kemampuan pemahaman dan penalaran temporal terhadap data video.
Navigasi UI: dapat mencapai kinerja tinggi dengan dioptimalkan untuk tugas navigasi UI web dan seluler.
Manipulasi robot: melalui pelatihan tambahan untuk kontrol robot, menunjukkan kinerja yang melampaui model manipulasi robot yang sudah ada seperti OpenVLA.

Bias, risiko, dan keterbatasan

Model ini tidak dirancang untuk semua tugas downstream.
Sebelum diterapkan pada kasus penggunaan tertentu, akurasi, keamanan, dan keadilan harus dievaluasi dan disesuaikan.
Terutama pada skenario berisiko tinggi, hukum dan regulasi yang berlaku harus dipatuhi.

1 komentar

GN⁺ 2025-02-21

Opini Hacker News

Terima kasih atas minat terhadap proyek Magma. Kami akan merilis kode inferensi, pelatihan, evaluasi, dan prapemrosesan data secara bertahap, dan itu akan selesai paling lambat Selasa depan
Kecepatan perkembangan agen multimodal sangat mengesankan. OpenVLA dirilis pada Juni 2024 dan saat itu merupakan yang tercanggih. Delapan bulan kemudian, tingkat keberhasilan pada tugas seperti "Pick Place Hotdog Sausage" meningkat dari 2/10 menjadi 6/10
Robot industri efisien karena tidak meniru perilaku manusia. Karena itu, sulit memahami apa makna usulan untuk mengajarkan perilaku manusia kepada robot. Robot rumah tangga akan membutuhkan alat yang efisien. Mereka akan memerlukan mesin baru yang berbeda dari mesin cuci, oven, dan mesin pencuci piring yang digunakan saat ini
Kemampuan multimodal, khususnya prediksi tindakan berikutnya, sangat mengesankan. Saya menunggu untuk melihat apakah fitur ini akan dirilis sebagai open source di GitHub. Saya penasaran mengapa namanya Magma
Ini benar-benar model yang menarik. Saya menantikan untuk mencobanya. Namun, yang saya inginkan adalah model agen multimodal yang dapat menghasilkan embedding untuk model kontrol humanoid seperti Meta motivo. Meta motivo adalah model mainan yang dilatih dengan skeleton SMPL dan memiliki keterbatasan fungsi karena tidak memiliki jari. Mereka bisa saja menggunakan model yang lebih maju seperti SMPL-X, tetapi kurangnya data gerak terbuka yang mencakup gerakan jari yang presisi membuat sulit melatih model manipulasi yang kuat
Sebagian besar dataset gerak yang ada berasal dari pengaturan motion capture akademis dan tidak berfokus pada tugas manipulasi. Saya percaya kemajuan 3D HPE dari video 2D akan menutup kesenjangan ini. Jika kita memiliki akses ke ribuan jam video, kita dapat membangun dataset gerak berskala besar yang mencakup beragam interaksi dunia nyata
Ini akan memungkinkan dua komponen yang dibutuhkan untuk melatih model agen yang menghasilkan embedding yang dapat dibaca oleh model kontrol yang memodelkan pergerakan tangan dan sendi jari secara akurat. Mengingat pesatnya kemajuan SoTA 3D HPE dari video 2D dan besarnya jumlah video online, saya berharap kita akan melihat robot humanoid dengan kemampuan manipulasi yang baik dalam waktu dekat
Dalam video membersihkan mug, orang itu tampak berpura-pura mencuci cangkir sambil seolah tidak ingin tangannya basah. Saya penasaran kapan model akan bisa menangkap hal-hal subtil seperti ini
Saya penasaran mengapa model multimodal tidak menghasilkan gambar secara fleksibel. Tampaknya mereka menyerahkannya ke model lain untuk membuat gambar. Mereka sepertinya tidak benar-benar tahu apa yang ada di dalam gambar yang mereka buat, dan hanya bisa mengedit gambar
Agen multimodal terkenal gagal pada tugas jangka panjang. Saya penasaran bagaimana performa Magma
Saya penasaran apakah ada model multimodal yang dilatih untuk penalaran
Saya penasaran apakah ada penelitian tentang pelatihan bertahap. Ini bisa digunakan pada robot sebagai alternatif untuk RAG