7 poin oleh xguru 2023-12-19 | Belum ada komentar. | Bagikan ke WhatsApp
  • Dataset dasar dan benchmark untuk mendukung riset pembelajaran video dan pengenalan multimodal
  • Secara bersamaan menangkap sudut pandang orang pertama "Egocentric" melalui kamera wearable peserta dan berbagai sudut pandang "Exocentric" dari kamera yang mengelilingi peserta
  • Kedua sudut pandang ini saling melengkapi: Ego mengungkap apa yang dilihat dan didengar peserta, sementara Exo menunjukkan adegan sekitar dan konteksnya
    • Dengan menggunakan kedua perspektif ini bersama-sama, model AI dapat memperoleh sudut pandang baru terhadap keterampilan manusia yang kompleks
  • Upaya selama 2 tahun oleh FAIR (Fundamental Artificial Intelligence Research) dan Project Aria milik Meta, bersama 15 mitra universitas
    • Pengambilan data dilakukan dengan bantuan lebih dari 800 peserta terampil di Amerika Serikat, Jepang, Kolombia, Singapura, India, dan Kanada
  • Data yang mencakup lebih dari 1.400 jam video serta anotasi untuk tugas benchmark baru dirilis sebagai open source
  • Ego-Exo4D berfokus pada aktivitas manusia terampil seperti olahraga, musik, memasak, menari, dan perbaikan sepeda
    • Kemajuan kemampuan AI untuk memahami keterampilan manusia dari video dapat membuka banyak aplikasi
    • Misalnya, dalam sistem AR, seseorang yang memakai kacamata pintar dapat mempelajari keterampilan baru dengan cepat melalui panduan dari pelatih AI virtual
  • Ego-Exo4D adalah dataset publik terbesar untuk video orang pertama dan orang ketiga yang tersinkronisasi secara waktu
    • Untuk membangun dataset ini, para ahli dari berbagai bidang direkrut, dan para praktisi ahli di dunia nyata ikut berpartisipasi
    • Ego-Exo4D bukan hanya dataset multi-view tetapi juga multimodal; semua video ego yang direkam dengan kacamata Aria milik Meta mencakup audio 7 kanal yang disejajarkan secara waktu, unit pengukuran inersia (IMU), dua kamera monokrom wide-angle, dan lainnya

Belum ada komentar.

Belum ada komentar.