Meta V-JEPA: Langkah Selanjutnya Menuju Kecerdasan Mesin Lanjutan (AMI) ala Yann LeCun

xguru · 2024-02-20T11:36:01+09:00

Meta merilis model Video Joint Embedding Predictive Architecture (V-JEPA), sebuah langkah penting untuk memajukan kecerdasan mesin berdasarkan pemahaman dunia yang lebih realistis Model awal dari world model fisik ini sangat unggul dalam mendeteksi dan memahami interaksi antarsesama objek secara detail Dengan semangat open science yang bertanggung jawab, model ini dibagikan dengan lisensi Creative Commons NonCommercial agar para peneliti dapat mengeksplorasinya lebih lanjut Video JEPA V-JEPA adalah model non-generatif yang mempelajari video dengan memprediksi bagian-bagian yang hilang atau tersembunyi dalam ruang representasi abstrak Model ini memiliki fleksibilitas untuk membuang informasi yang tidak dapat diprediksi, yang meningkatkan efisiensi pelatihan dan sampel sebesar 1,5 hingga 6 kali V-JEPA hanya pra-dilatih menggunakan data tanpa label, dan label hanya digunakan saat menerapkan model ke tugas tertentu setelah pra-pelatihan Metodologi Masking V-JEPA bukan dilatih untuk memahami jenis gerakan tertentu; ia mempelajari banyak hal tentang cara kerja dunia melalui pembelajaran self-supervised di berbagai video Strategi masking-nya tidak memblokir area besar di video atau mengambil patch secara acak dari berbagai lokasi; sebaliknya, memasker bagian-bagian video di ruang dan waktu agar model dapat memahami dan mempelajari adegan Prediksi yang Efisien Melakukan prediksi di ruang representasi abstrak memungkinkan model memusatkan perhatian pada informasi konsep berdimensi tinggi yang terkandung dalam video, tanpa perlu khawatir terhadap detail yang umumnya tidak penting untuk tugas downstream V-JEPA adalah model video pertama yang berkinerja sangat baik pada "frozen evaluation" dan, saat mempelajari keterampilan baru, secara efisien serta cepat melatih lapisan khusus atau jaringan kecil tanpa memodifikasi encoder dan prediktor hasil pra-pelatihan self-supervised Jalan untuk Riset Masa Depan Meskipun "V" berarti video, model V-JEPA saat ini hanya mempertimbangkan konten visual Sebagai langkah berikutnya, pendekatan multi-modal yang lebih terpadu sedang dipertimbangkan untuk menyertakan audio bersama konten visual V-JEPA unggul dalam membedakan interaksi objek yang halus dan mengenali interaksi antarbenda rinci yang terjadi dari waktu ke waktu Jalan Menuju AMI Sejauh ini, pekerjaan seputar V-JEPA lebih banyak berfokus pada persepsi—memahami konten dari berbagai aliran video untuk memperoleh sebagian konteks tentang dunia sekitar Ke depannya, tujuannya adalah menunjukkan cara menggunakan prediktor atau world model semacam ini untuk perencanaan atau pengambilan keputusan sekuensial V-JEPA adalah model riset, dan penggunaannya di berbagai aplikasi masih dieksplorasi. Sebagai contoh, konteks yang disediakan V-JEPA dapat berguna dalam membangun asisten AI kontekstual untuk tugas AI nyata dan untuk kacamata AR masa depan Karena yakin akan nilai open science yang bertanggung jawab, Meta merilis model V-JEPA di bawah lisensi CC BY-NC agar peneliti lain dapat memperluas pekerjaan ini

(ai.meta.com)

9 poin oleh xguru 2024-02-20 | 1 komentar | Bagikan ke WhatsApp

Meta merilis model Video Joint Embedding Predictive Architecture (V-JEPA), sebuah langkah penting untuk memajukan kecerdasan mesin berdasarkan pemahaman dunia yang lebih realistis
Model awal dari world model fisik ini sangat unggul dalam mendeteksi dan memahami interaksi antarsesama objek secara detail
Dengan semangat open science yang bertanggung jawab, model ini dibagikan dengan lisensi Creative Commons NonCommercial agar para peneliti dapat mengeksplorasinya lebih lanjut

Video JEPA

V-JEPA adalah model non-generatif yang mempelajari video dengan memprediksi bagian-bagian yang hilang atau tersembunyi dalam ruang representasi abstrak
Model ini memiliki fleksibilitas untuk membuang informasi yang tidak dapat diprediksi, yang meningkatkan efisiensi pelatihan dan sampel sebesar 1,5 hingga 6 kali
V-JEPA hanya pra-dilatih menggunakan data tanpa label, dan label hanya digunakan saat menerapkan model ke tugas tertentu setelah pra-pelatihan

Metodologi Masking

V-JEPA bukan dilatih untuk memahami jenis gerakan tertentu; ia mempelajari banyak hal tentang cara kerja dunia melalui pembelajaran self-supervised di berbagai video
Strategi masking-nya tidak memblokir area besar di video atau mengambil patch secara acak dari berbagai lokasi; sebaliknya, memasker bagian-bagian video di ruang dan waktu agar model dapat memahami dan mempelajari adegan

Prediksi yang Efisien

Melakukan prediksi di ruang representasi abstrak memungkinkan model memusatkan perhatian pada informasi konsep berdimensi tinggi yang terkandung dalam video, tanpa perlu khawatir terhadap detail yang umumnya tidak penting untuk tugas downstream
V-JEPA adalah model video pertama yang berkinerja sangat baik pada "frozen evaluation" dan, saat mempelajari keterampilan baru, secara efisien serta cepat melatih lapisan khusus atau jaringan kecil tanpa memodifikasi encoder dan prediktor hasil pra-pelatihan self-supervised

Jalan untuk Riset Masa Depan

Meskipun "V" berarti video, model V-JEPA saat ini hanya mempertimbangkan konten visual
Sebagai langkah berikutnya, pendekatan multi-modal yang lebih terpadu sedang dipertimbangkan untuk menyertakan audio bersama konten visual
V-JEPA unggul dalam membedakan interaksi objek yang halus dan mengenali interaksi antarbenda rinci yang terjadi dari waktu ke waktu

Jalan Menuju AMI

Sejauh ini, pekerjaan seputar V-JEPA lebih banyak berfokus pada persepsi—memahami konten dari berbagai aliran video untuk memperoleh sebagian konteks tentang dunia sekitar
Ke depannya, tujuannya adalah menunjukkan cara menggunakan prediktor atau world model semacam ini untuk perencanaan atau pengambilan keputusan sekuensial
V-JEPA adalah model riset, dan penggunaannya di berbagai aplikasi masih dieksplorasi. Sebagai contoh, konteks yang disediakan V-JEPA dapat berguna dalam membangun asisten AI kontekstual untuk tugas AI nyata dan untuk kacamata AR masa depan
Karena yakin akan nilai open science yang bertanggung jawab, Meta merilis model V-JEPA di bawah lisensi CC BY-NC agar peneliti lain dapat memperluas pekerjaan ini

1 komentar

kuroneko 2024-02-20

OpenAI Sora juga begitu... AI video juga tiba-tiba berkembang pesat sekali.

Bahasa model juga terus berkembang, dan saat momen seperti ketika ChatGPT muncul tiba-tiba datang, menurutku akan seru kalau di AI video juga ada momen seperti itu.