5 poin oleh GN⁺ 2024-11-06 | Belum ada komentar. | Bagikan ke WhatsApp
  • EMMA: End-to-End Multimodal Model for Autonomous Driving
  • Dengan memanfaatkan LLM multimodal Gemini dari Google, model ini menghasilkan lintasan masa depan kendaraan langsung dari data sensor
  • Melalui pelatihan dan fine-tuning yang dikhususkan untuk kendaraan otonom, model ini meningkatkan pemahaman terhadap situasi di jalan

Isi utama riset

  • Menunjukkan bagaimana model multimodal dapat diterapkan pada kendaraan otonom
  • Mengeksplorasi kelebihan dan kekurangan pendekatan end-to-end
  • Menekankan manfaat pemanfaatan pengetahuan dunia multimodal
    • Ini juga membantu pada tugas kendaraan otonom yang membutuhkan pemahaman spasial dan kemampuan penalaran
  • Membuktikan efek transfer learning yang positif untuk beberapa tugas utama kendaraan otonom
    • Jika perencanaan jalur, pengenalan objek, dan pemahaman road graph dipelajari bersama, performanya meningkat dibanding pembelajaran terpisah
    • Ini mengindikasikan bahwa mengintegrasikan lebih banyak tugas inti kendaraan otonom dengan cara serupa adalah arah riset yang menjanjikan

Pengenalan EMMA

  • EMMA mencerminkan tren riset AI yang berupaya mengintegrasikan model dan teknik pembelajaran multimodal berskala besar ke lebih banyak domain
  • Berbasis Gemini, model ini dibuat khusus untuk tugas kendaraan otonom seperti perencanaan jalur dan pengenalan objek 3D

Fitur utama:

  1. Pembelajaran end-to-end
    • Memproses input kamera dan data teks untuk menghasilkan berbagai keluaran seperti jalur, objek yang dikenali, dan elemen road graph
  2. Ruang bahasa yang terintegrasi
    • Input-output non-sensor direpresentasikan sebagai teks bahasa alami agar pengetahuan dunia Gemini bisa dimanfaatkan semaksimal mungkin
  3. Penalaran chain-of-thought
    • Dengan penalaran chain-of-thought, proses pengambilan keputusan ditingkatkan sehingga performa perencanaan end-to-end naik 6,7% dan menyediakan dasar yang dapat diinterpretasikan untuk keputusan berkendara

Hasil utama

  • Mencapai performa terbaik di benchmark publik maupun internal
    • Termasuk perencanaan jalur end-to-end, pengenalan objek 3D berbasis kamera, prediksi road graph, dan pemahaman adegan
  • Performa meningkat melalui joint learning
    • Satu model EMMA dapat menghasilkan keluaran untuk beberapa tugas sekaligus sambil menunjukkan performa yang setara atau lebih baik dibanding model yang dilatih secara terpisah
    • Menunjukkan potensinya sebagai model umum yang dapat dimanfaatkan untuk banyak aplikasi kendaraan otonom

Keterbatasan

  • Ada keterbatasan dalam memproses urutan video jangka panjang sehingga sulit melakukan penalaran dalam situasi berkendara real-time
    • Memori jangka panjang sangat penting
  • Tidak memanfaatkan input LiDAR dan radar
    • Diperlukan integrasi encoder penginderaan 3D yang lebih canggih
  • Masih ada tantangan seperti metode simulasi yang efisien, waktu inferensi model yang dioptimalkan, dan verifikasi tahap pengambilan keputusan antara

Prospek ke depan

  • Meski EMMA memiliki keterbatasan sebagai model berkendara yang berdiri sendiri, model ini menunjukkan bahwa teknologi multimodal dapat meningkatkan performa dan kemampuan generalisasi sistem kendaraan otonom
  • Dengan menerapkan teknologi AI canggih ke tugas nyata, kemampuan AI diperluas ke lingkungan yang kompleks dan dinamis
  • AI juga dapat membantu di bidang penting lain yang membutuhkan pengambilan keputusan cepat dan akurat berdasarkan beragam input dalam situasi yang tidak pasti
  • Dengan mengeksplorasi pemanfaatan large language model multimodal untuk kendaraan otonom, riset ini bertujuan berkontribusi pada peningkatan keselamatan dan aksesibilitas di jalan
  • Diharapkan dapat berkontribusi pada kemajuan AI yang mampu menavigasi dan bernalar lebih efektif di lingkungan nyata yang kompleks

Opini GN⁺

  • EMMA adalah riset yang bisa menjadi tonggak penting dalam perkembangan teknologi kendaraan otonom
    • Ini adalah contoh yang menunjukkan dengan baik kekuatan pembelajaran multimodal
    • Membuktikan bahwa mengintegrasikan beberapa tugas inti kendaraan otonom membantu meningkatkan performa
  • Meski masih ada keterbatasan untuk langsung diterapkan pada berkendara nyata, riset ini akan menjadi referensi yang baik untuk pengembangan teknologi terkait
    • Khususnya memori jangka panjang, multimodal fusion, dan optimasi simulasi adalah bidang yang perlu menjadi fokus riset selanjutnya
  • Teknologi AI multimodal diharapkan dapat dimanfaatkan tidak hanya untuk kendaraan otonom, tetapi juga di berbagai bidang seperti medis, manufaktur, dan respons bencana
    • Ini akan sangat membantu terutama di area yang memiliki bentuk data beragam dan pengambilan keputusan yang penting
  • Namun, karena sifat black box dari model multimodal, isu explainability dan etika dapat mengemuka
    • Penting untuk meminimalkan bias model dan menyajikan dasar atas hasil output yang diberikan
  • Riset serupa mencakup NVIDIA DriveNet, Wayve AV2.0, dan Tesla FSD
    • Setiap perusahaan mengambil pendekatan yang sedikit berbeda, tetapi sama-sama memanfaatkan pembelajaran multimodal
    • Diharapkan teknologi kendaraan otonom akan semakin berkembang melalui kompetisi dan kolaborasi antarperusahaan

Belum ada komentar.

Belum ada komentar.