- Meta merilis model Video Joint Embedding Predictive Architecture (V-JEPA), sebuah langkah penting untuk memajukan kecerdasan mesin berdasarkan pemahaman dunia yang lebih realistis
- Model awal dari world model fisik ini sangat unggul dalam mendeteksi dan memahami interaksi antarsesama objek secara detail
- Dengan semangat open science yang bertanggung jawab, model ini dibagikan dengan lisensi Creative Commons NonCommercial agar para peneliti dapat mengeksplorasinya lebih lanjut
Video JEPA
- V-JEPA adalah model non-generatif yang mempelajari video dengan memprediksi bagian-bagian yang hilang atau tersembunyi dalam ruang representasi abstrak
- Model ini memiliki fleksibilitas untuk membuang informasi yang tidak dapat diprediksi, yang meningkatkan efisiensi pelatihan dan sampel sebesar 1,5 hingga 6 kali
- V-JEPA hanya pra-dilatih menggunakan data tanpa label, dan label hanya digunakan saat menerapkan model ke tugas tertentu setelah pra-pelatihan
Metodologi Masking
- V-JEPA bukan dilatih untuk memahami jenis gerakan tertentu; ia mempelajari banyak hal tentang cara kerja dunia melalui pembelajaran self-supervised di berbagai video
- Strategi masking-nya tidak memblokir area besar di video atau mengambil patch secara acak dari berbagai lokasi; sebaliknya, memasker bagian-bagian video di ruang dan waktu agar model dapat memahami dan mempelajari adegan
Prediksi yang Efisien
- Melakukan prediksi di ruang representasi abstrak memungkinkan model memusatkan perhatian pada informasi konsep berdimensi tinggi yang terkandung dalam video, tanpa perlu khawatir terhadap detail yang umumnya tidak penting untuk tugas downstream
- V-JEPA adalah model video pertama yang berkinerja sangat baik pada "frozen evaluation" dan, saat mempelajari keterampilan baru, secara efisien serta cepat melatih lapisan khusus atau jaringan kecil tanpa memodifikasi encoder dan prediktor hasil pra-pelatihan self-supervised
Jalan untuk Riset Masa Depan
- Meskipun "V" berarti video, model V-JEPA saat ini hanya mempertimbangkan konten visual
- Sebagai langkah berikutnya, pendekatan multi-modal yang lebih terpadu sedang dipertimbangkan untuk menyertakan audio bersama konten visual
- V-JEPA unggul dalam membedakan interaksi objek yang halus dan mengenali interaksi antarbenda rinci yang terjadi dari waktu ke waktu
Jalan Menuju AMI
- Sejauh ini, pekerjaan seputar V-JEPA lebih banyak berfokus pada persepsi—memahami konten dari berbagai aliran video untuk memperoleh sebagian konteks tentang dunia sekitar
- Ke depannya, tujuannya adalah menunjukkan cara menggunakan prediktor atau world model semacam ini untuk perencanaan atau pengambilan keputusan sekuensial
- V-JEPA adalah model riset, dan penggunaannya di berbagai aplikasi masih dieksplorasi. Sebagai contoh, konteks yang disediakan V-JEPA dapat berguna dalam membangun asisten AI kontekstual untuk tugas AI nyata dan untuk kacamata AR masa depan
- Karena yakin akan nilai open science yang bertanggung jawab, Meta merilis model V-JEPA di bawah lisensi CC BY-NC agar peneliti lain dapat memperluas pekerjaan ini
1 komentar
OpenAI Sora juga begitu... AI video juga tiba-tiba berkembang pesat sekali.
Bahasa model juga terus berkembang, dan saat momen seperti ketika ChatGPT muncul tiba-tiba datang, menurutku akan seru kalau di AI video juga ada momen seperti itu.