- EMMA: End-to-End Multimodal Model for Autonomous Driving
- Dengan memanfaatkan LLM multimodal Gemini dari Google, model ini menghasilkan lintasan masa depan kendaraan langsung dari data sensor
- Melalui pelatihan dan fine-tuning yang dikhususkan untuk kendaraan otonom, model ini meningkatkan pemahaman terhadap situasi di jalan
Isi utama riset
- Menunjukkan bagaimana model multimodal dapat diterapkan pada kendaraan otonom
- Mengeksplorasi kelebihan dan kekurangan pendekatan end-to-end
- Menekankan manfaat pemanfaatan pengetahuan dunia multimodal
- Ini juga membantu pada tugas kendaraan otonom yang membutuhkan pemahaman spasial dan kemampuan penalaran
- Membuktikan efek transfer learning yang positif untuk beberapa tugas utama kendaraan otonom
- Jika perencanaan jalur, pengenalan objek, dan pemahaman road graph dipelajari bersama, performanya meningkat dibanding pembelajaran terpisah
- Ini mengindikasikan bahwa mengintegrasikan lebih banyak tugas inti kendaraan otonom dengan cara serupa adalah arah riset yang menjanjikan
Pengenalan EMMA
- EMMA mencerminkan tren riset AI yang berupaya mengintegrasikan model dan teknik pembelajaran multimodal berskala besar ke lebih banyak domain
- Berbasis Gemini, model ini dibuat khusus untuk tugas kendaraan otonom seperti perencanaan jalur dan pengenalan objek 3D
Fitur utama:
- Pembelajaran end-to-end
- Memproses input kamera dan data teks untuk menghasilkan berbagai keluaran seperti jalur, objek yang dikenali, dan elemen road graph
- Ruang bahasa yang terintegrasi
- Input-output non-sensor direpresentasikan sebagai teks bahasa alami agar pengetahuan dunia Gemini bisa dimanfaatkan semaksimal mungkin
- Penalaran chain-of-thought
- Dengan penalaran chain-of-thought, proses pengambilan keputusan ditingkatkan sehingga performa perencanaan end-to-end naik 6,7% dan menyediakan dasar yang dapat diinterpretasikan untuk keputusan berkendara
Hasil utama
- Mencapai performa terbaik di benchmark publik maupun internal
- Termasuk perencanaan jalur end-to-end, pengenalan objek 3D berbasis kamera, prediksi road graph, dan pemahaman adegan
- Performa meningkat melalui joint learning
- Satu model EMMA dapat menghasilkan keluaran untuk beberapa tugas sekaligus sambil menunjukkan performa yang setara atau lebih baik dibanding model yang dilatih secara terpisah
- Menunjukkan potensinya sebagai model umum yang dapat dimanfaatkan untuk banyak aplikasi kendaraan otonom
Keterbatasan
- Ada keterbatasan dalam memproses urutan video jangka panjang sehingga sulit melakukan penalaran dalam situasi berkendara real-time
- Memori jangka panjang sangat penting
- Tidak memanfaatkan input LiDAR dan radar
- Diperlukan integrasi encoder penginderaan 3D yang lebih canggih
- Masih ada tantangan seperti metode simulasi yang efisien, waktu inferensi model yang dioptimalkan, dan verifikasi tahap pengambilan keputusan antara
Prospek ke depan
- Meski EMMA memiliki keterbatasan sebagai model berkendara yang berdiri sendiri, model ini menunjukkan bahwa teknologi multimodal dapat meningkatkan performa dan kemampuan generalisasi sistem kendaraan otonom
- Dengan menerapkan teknologi AI canggih ke tugas nyata, kemampuan AI diperluas ke lingkungan yang kompleks dan dinamis
- AI juga dapat membantu di bidang penting lain yang membutuhkan pengambilan keputusan cepat dan akurat berdasarkan beragam input dalam situasi yang tidak pasti
- Dengan mengeksplorasi pemanfaatan large language model multimodal untuk kendaraan otonom, riset ini bertujuan berkontribusi pada peningkatan keselamatan dan aksesibilitas di jalan
- Diharapkan dapat berkontribusi pada kemajuan AI yang mampu menavigasi dan bernalar lebih efektif di lingkungan nyata yang kompleks
Opini GN⁺
- EMMA adalah riset yang bisa menjadi tonggak penting dalam perkembangan teknologi kendaraan otonom
- Ini adalah contoh yang menunjukkan dengan baik kekuatan pembelajaran multimodal
- Membuktikan bahwa mengintegrasikan beberapa tugas inti kendaraan otonom membantu meningkatkan performa
- Meski masih ada keterbatasan untuk langsung diterapkan pada berkendara nyata, riset ini akan menjadi referensi yang baik untuk pengembangan teknologi terkait
- Khususnya memori jangka panjang, multimodal fusion, dan optimasi simulasi adalah bidang yang perlu menjadi fokus riset selanjutnya
- Teknologi AI multimodal diharapkan dapat dimanfaatkan tidak hanya untuk kendaraan otonom, tetapi juga di berbagai bidang seperti medis, manufaktur, dan respons bencana
- Ini akan sangat membantu terutama di area yang memiliki bentuk data beragam dan pengambilan keputusan yang penting
- Namun, karena sifat black box dari model multimodal, isu explainability dan etika dapat mengemuka
- Penting untuk meminimalkan bias model dan menyajikan dasar atas hasil output yang diberikan
- Riset serupa mencakup NVIDIA DriveNet, Wayve AV2.0, dan Tesla FSD
- Setiap perusahaan mengambil pendekatan yang sedikit berbeda, tetapi sama-sama memanfaatkan pembelajaran multimodal
- Diharapkan teknologi kendaraan otonom akan semakin berkembang melalui kompetisi dan kolaborasi antarperusahaan
Belum ada komentar.