Waymo merilis EMMA, model multimodal end-to-end untuk kendaraan otonom

(waymo.com)

5 poin oleh GN⁺ 2024-11-06 | Belum ada komentar. | Bagikan ke WhatsApp

EMMA: End-to-End Multimodal Model for Autonomous Driving
Dengan memanfaatkan LLM multimodal Gemini dari Google, model ini menghasilkan lintasan masa depan kendaraan langsung dari data sensor
Melalui pelatihan dan fine-tuning yang dikhususkan untuk kendaraan otonom, model ini meningkatkan pemahaman terhadap situasi di jalan

Isi utama riset

Menunjukkan bagaimana model multimodal dapat diterapkan pada kendaraan otonom
Mengeksplorasi kelebihan dan kekurangan pendekatan end-to-end
Menekankan manfaat pemanfaatan pengetahuan dunia multimodal
- Ini juga membantu pada tugas kendaraan otonom yang membutuhkan pemahaman spasial dan kemampuan penalaran
Membuktikan efek transfer learning yang positif untuk beberapa tugas utama kendaraan otonom
- Jika perencanaan jalur, pengenalan objek, dan pemahaman road graph dipelajari bersama, performanya meningkat dibanding pembelajaran terpisah
- Ini mengindikasikan bahwa mengintegrasikan lebih banyak tugas inti kendaraan otonom dengan cara serupa adalah arah riset yang menjanjikan

EMMA mencerminkan tren riset AI yang berupaya mengintegrasikan model dan teknik pembelajaran multimodal berskala besar ke lebih banyak domain
Berbasis Gemini, model ini dibuat khusus untuk tugas kendaraan otonom seperti perencanaan jalur dan pengenalan objek 3D

Fitur utama:

Pembelajaran end-to-end
- Memproses input kamera dan data teks untuk menghasilkan berbagai keluaran seperti jalur, objek yang dikenali, dan elemen road graph
Ruang bahasa yang terintegrasi
- Input-output non-sensor direpresentasikan sebagai teks bahasa alami agar pengetahuan dunia Gemini bisa dimanfaatkan semaksimal mungkin
Penalaran chain-of-thought
- Dengan penalaran chain-of-thought, proses pengambilan keputusan ditingkatkan sehingga performa perencanaan end-to-end naik 6,7% dan menyediakan dasar yang dapat diinterpretasikan untuk keputusan berkendara

Mencapai performa terbaik di benchmark publik maupun internal
- Termasuk perencanaan jalur end-to-end, pengenalan objek 3D berbasis kamera, prediksi road graph, dan pemahaman adegan
Performa meningkat melalui joint learning
- Satu model EMMA dapat menghasilkan keluaran untuk beberapa tugas sekaligus sambil menunjukkan performa yang setara atau lebih baik dibanding model yang dilatih secara terpisah
- Menunjukkan potensinya sebagai model umum yang dapat dimanfaatkan untuk banyak aplikasi kendaraan otonom

Ada keterbatasan dalam memproses urutan video jangka panjang sehingga sulit melakukan penalaran dalam situasi berkendara real-time
- Memori jangka panjang sangat penting
Tidak memanfaatkan input LiDAR dan radar
- Diperlukan integrasi encoder penginderaan 3D yang lebih canggih
Masih ada tantangan seperti metode simulasi yang efisien, waktu inferensi model yang dioptimalkan, dan verifikasi tahap pengambilan keputusan antara

Meski EMMA memiliki keterbatasan sebagai model berkendara yang berdiri sendiri, model ini menunjukkan bahwa teknologi multimodal dapat meningkatkan performa dan kemampuan generalisasi sistem kendaraan otonom
Dengan menerapkan teknologi AI canggih ke tugas nyata, kemampuan AI diperluas ke lingkungan yang kompleks dan dinamis
AI juga dapat membantu di bidang penting lain yang membutuhkan pengambilan keputusan cepat dan akurat berdasarkan beragam input dalam situasi yang tidak pasti
Dengan mengeksplorasi pemanfaatan large language model multimodal untuk kendaraan otonom, riset ini bertujuan berkontribusi pada peningkatan keselamatan dan aksesibilitas di jalan
Diharapkan dapat berkontribusi pada kemajuan AI yang mampu menavigasi dan bernalar lebih efektif di lingkungan nyata yang kompleks

EMMA adalah riset yang bisa menjadi tonggak penting dalam perkembangan teknologi kendaraan otonom
- Ini adalah contoh yang menunjukkan dengan baik kekuatan pembelajaran multimodal
- Membuktikan bahwa mengintegrasikan beberapa tugas inti kendaraan otonom membantu meningkatkan performa
Meski masih ada keterbatasan untuk langsung diterapkan pada berkendara nyata, riset ini akan menjadi referensi yang baik untuk pengembangan teknologi terkait
- Khususnya memori jangka panjang, multimodal fusion, dan optimasi simulasi adalah bidang yang perlu menjadi fokus riset selanjutnya
Teknologi AI multimodal diharapkan dapat dimanfaatkan tidak hanya untuk kendaraan otonom, tetapi juga di berbagai bidang seperti medis, manufaktur, dan respons bencana
- Ini akan sangat membantu terutama di area yang memiliki bentuk data beragam dan pengambilan keputusan yang penting
Namun, karena sifat black box dari model multimodal, isu explainability dan etika dapat mengemuka
- Penting untuk meminimalkan bias model dan menyajikan dasar atas hasil output yang diberikan
Riset serupa mencakup NVIDIA DriveNet, Wayve AV2.0, dan Tesla FSD
- Setiap perusahaan mengambil pendekatan yang sedikit berbeda, tetapi sama-sama memanfaatkan pembelajaran multimodal
- Diharapkan teknologi kendaraan otonom akan semakin berkembang melalui kompetisi dan kolaborasi antarperusahaan