Meta merilis Ego-Exo4D, dataset video sudut pandang orang pertama berskala besar

xguru · 2023-12-19T10:56:02+09:00

Dataset dasar dan benchmark untuk mendukung riset pembelajaran video dan pengenalan multimodal Secara bersamaan menangkap sudut pandang orang pertama "Egocentric" melalui kamera wearable peserta dan berbagai sudut pandang "Exocentric" dari kamera yang mengelilingi peserta Kedua sudut pandang ini saling melengkapi: Ego mengungkap apa yang dilihat dan didengar peserta, sementara Exo menunjukkan adegan sekitar dan konteksnya Dengan menggunakan kedua perspektif ini bersama-sama, model AI dapat memperoleh sudut pandang baru terhadap keterampilan manusia yang kompleks Upaya selama 2 tahun oleh FAIR (Fundamental Artificial Intelligence Research) dan Project Aria milik Meta, bersama 15 mitra universitas Pengambilan data dilakukan dengan bantuan lebih dari 800 peserta terampil di Amerika Serikat, Jepang, Kolombia, Singapura, India, dan Kanada Data yang mencakup lebih dari 1.400 jam video serta anotasi untuk tugas benchmark baru dirilis sebagai open source Ego-Exo4D berfokus pada aktivitas manusia terampil seperti olahraga, musik, memasak, menari, dan perbaikan sepeda Kemajuan kemampuan AI untuk memahami keterampilan manusia dari video dapat membuka banyak aplikasi Misalnya, dalam sistem AR, seseorang yang memakai kacamata pintar dapat mempelajari keterampilan baru dengan cepat melalui panduan dari pelatih AI virtual Ego-Exo4D adalah dataset publik terbesar untuk video orang pertama dan orang ketiga yang tersinkronisasi secara waktu Untuk membangun dataset ini, para ahli dari berbagai bidang direkrut, dan para praktisi ahli di dunia nyata ikut berpartisipasi Ego-Exo4D bukan hanya dataset multi-view tetapi juga multimodal; semua video ego yang direkam dengan kacamata Aria milik Meta mencakup audio 7 kanal yang disejajarkan secara waktu, unit pengukuran inersia (IMU), dua kamera monokrom wide-angle, dan lainnya

(ai.meta.com)

7 poin oleh xguru 2023-12-19 | Belum ada komentar. | Bagikan ke WhatsApp

Dataset dasar dan benchmark untuk mendukung riset pembelajaran video dan pengenalan multimodal
Secara bersamaan menangkap sudut pandang orang pertama "Egocentric" melalui kamera wearable peserta dan berbagai sudut pandang "Exocentric" dari kamera yang mengelilingi peserta
Kedua sudut pandang ini saling melengkapi: Ego mengungkap apa yang dilihat dan didengar peserta, sementara Exo menunjukkan adegan sekitar dan konteksnya
- Dengan menggunakan kedua perspektif ini bersama-sama, model AI dapat memperoleh sudut pandang baru terhadap keterampilan manusia yang kompleks
Upaya selama 2 tahun oleh FAIR (Fundamental Artificial Intelligence Research) dan Project Aria milik Meta, bersama 15 mitra universitas
- Pengambilan data dilakukan dengan bantuan lebih dari 800 peserta terampil di Amerika Serikat, Jepang, Kolombia, Singapura, India, dan Kanada
Data yang mencakup lebih dari 1.400 jam video serta anotasi untuk tugas benchmark baru dirilis sebagai open source
Ego-Exo4D berfokus pada aktivitas manusia terampil seperti olahraga, musik, memasak, menari, dan perbaikan sepeda
- Kemajuan kemampuan AI untuk memahami keterampilan manusia dari video dapat membuka banyak aplikasi
- Misalnya, dalam sistem AR, seseorang yang memakai kacamata pintar dapat mempelajari keterampilan baru dengan cepat melalui panduan dari pelatih AI virtual
Ego-Exo4D adalah dataset publik terbesar untuk video orang pertama dan orang ketiga yang tersinkronisasi secara waktu
- Untuk membangun dataset ini, para ahli dari berbagai bidang direkrut, dan para praktisi ahli di dunia nyata ikut berpartisipasi
- Ego-Exo4D bukan hanya dataset multi-view tetapi juga multimodal; semua video ego yang direkam dengan kacamata Aria milik Meta mencakup audio 7 kanal yang disejajarkan secara waktu, unit pengukuran inersia (IMU), dua kamera monokrom wide-angle, dan lainnya

Meta merilis Ego-Exo4D, dataset video sudut pandang orang pertama berskala besar

Bacaan terkait

Belum ada komentar.