- Dataset dasar dan benchmark untuk mendukung riset pembelajaran video dan pengenalan multimodal
- Secara bersamaan menangkap sudut pandang orang pertama "Egocentric" melalui kamera wearable peserta dan berbagai sudut pandang "Exocentric" dari kamera yang mengelilingi peserta
- Kedua sudut pandang ini saling melengkapi: Ego mengungkap apa yang dilihat dan didengar peserta, sementara Exo menunjukkan adegan sekitar dan konteksnya
- Dengan menggunakan kedua perspektif ini bersama-sama, model AI dapat memperoleh sudut pandang baru terhadap keterampilan manusia yang kompleks
- Upaya selama 2 tahun oleh FAIR (Fundamental Artificial Intelligence Research) dan Project Aria milik Meta, bersama 15 mitra universitas
- Pengambilan data dilakukan dengan bantuan lebih dari 800 peserta terampil di Amerika Serikat, Jepang, Kolombia, Singapura, India, dan Kanada
- Data yang mencakup lebih dari 1.400 jam video serta anotasi untuk tugas benchmark baru dirilis sebagai open source
- Ego-Exo4D berfokus pada aktivitas manusia terampil seperti olahraga, musik, memasak, menari, dan perbaikan sepeda
- Kemajuan kemampuan AI untuk memahami keterampilan manusia dari video dapat membuka banyak aplikasi
- Misalnya, dalam sistem AR, seseorang yang memakai kacamata pintar dapat mempelajari keterampilan baru dengan cepat melalui panduan dari pelatih AI virtual
- Ego-Exo4D adalah dataset publik terbesar untuk video orang pertama dan orang ketiga yang tersinkronisasi secara waktu
- Untuk membangun dataset ini, para ahli dari berbagai bidang direkrut, dan para praktisi ahli di dunia nyata ikut berpartisipasi
- Ego-Exo4D bukan hanya dataset multi-view tetapi juga multimodal; semua video ego yang direkam dengan kacamata Aria milik Meta mencakup audio 7 kanal yang disejajarkan secara waktu, unit pengukuran inersia (IMU), dua kamera monokrom wide-angle, dan lainnya
Belum ada komentar.