Model Dunia Waymo: Batas Baru Simulasi Mengemudi Otonom

(waymo.com)

6 poin oleh GN⁺ 2026-02-07 | 1 komentar | Bagikan ke WhatsApp

Model dunia generatif untuk simulasi mengemudi otonom skala besar, yang mereproduksi lingkungan mirip dunia nyata secara real-time
Dibangun di atas Genie 3, sehingga mampu merekonstruksi situasi langka atau ekstrem (tornado, banjir, kemunculan hewan, dll.) secara realistis
Simulasi dapat diatur secara rinci melalui kontrol mengemudi, komposisi adegan, dan kontrol bahasa, serta menghasilkan data kamera dan LiDAR secara bersamaan
Mengubah video biasa atau rekaman dashcam menjadi simulasi multi-sensor untuk mereproduksi adegan berkendara nyata apa adanya
Model ini adalah alat inti untuk verifikasi keselamatan dan perluasan layanan, yang memungkinkan persiapan bahkan untuk situasi yang hampir mustahil dihadapi di dunia nyata

Ikhtisar Model Dunia Waymo

Waymo Driver telah menempuh sekitar 200 juta mil secara sepenuhnya otonom di kota-kota besar di AS, dan selain itu juga menempuh miliaran mil di lingkungan virtual
- Dirancang agar dapat mempelajari lebih dulu situasi kompleks yang sulit ditemui di jalan nyata
Waymo World Model adalah sistem pembangkitan simulasi hiperrealistis untuk perjalanan virtual semacam ini
- Berperan sebagai salah satu dari tiga pilar utama ekosistem AI Waymo dan menjadi fondasi untuk membuktikan keselamatan

Arsitektur dan fungsi berbasis Genie 3

Dibangun di atas Genie 3 dari Google DeepMind dan disesuaikan khusus untuk lingkungan berkendara
- Genie 3 adalah model dunia umum yang menghasilkan lingkungan 3D yang realistis dan interaktif
Dengan memanfaatkan pengetahuan dunia yang luas milik Genie, sistem ini dapat mensimulasikan bahkan kejadian yang hampir mustahil terjadi di dunia nyata, seperti bertemu tornado atau gajah
Simulasi dapat dikendalikan secara rinci melalui prompt bahasa, input berkendara, dan penataan adegan
Mendukung output multi-sensor yang menghasilkan data kamera dan LiDAR sekaligus

Pengetahuan dunia multimodal

Simulator mengemudi otonom konvensional dilatih hanya dengan data yang mereka kumpulkan sendiri, tetapi model Waymo memanfaatkan data video luas yang sudah dipra-latih dari Genie 3
Mentransfer pengetahuan video 2D menjadi output 3D untuk sistem LiDAR Waymo
- Kamera unggul dalam detail visual, sementara LiDAR unggul dalam informasi kedalaman yang akurat
Dapat menghasilkan beragam adegan, mulai dari berkendara sehari-hari hingga situasi long-tail yang langka
Simulasi cuaca ekstrem dan bencana alam
- Menghasilkan adegan seperti melaju di Golden Gate Bridge yang tertutup salju, berhadapan dengan tornado, wilayah pinggiran yang terendam banjir, jalan bersalju di kota tropis, dan melarikan diri di tengah kebakaran
Kejadian langka yang penting bagi keselamatan
- Mereproduksi skenario terkait keselamatan seperti pengemudi agresif, kendaraan yang menabrak dahan pohon, kendaraan dengan muatan tidak stabil, dan truk yang melaju berlawanan arah
Objek long-tail dan situasi tidak biasa
- Menyediakan simulasi pertemuan dengan objek tidak lazim seperti gajah, Texas longhorn, singa, pejalan kaki berkostum dinosaurus, dan kincir angin raksasa

Fitur kontrol simulasi

Dapat diatur melalui tiga pendekatan: kontrol tindakan mengemudi, kontrol komposisi adegan, dan kontrol bahasa
Kontrol tindakan mengemudi
- Menghadirkan simulator interaktif yang merespons input mengemudi tertentu
  - Contoh: menguji hasil jika kendaraan dikemudikan lebih agresif dalam situasi tertentu
- Menjaga konsistensi visual dan realisme lebih baik daripada metode 3DGS (3D Gaussian Splats) yang ada
Kontrol komposisi adegan
- Memungkinkan modifikasi bebas terhadap struktur jalan, status sinyal, dan perilaku kendaraan sekitar
  - Mendukung pembuatan skenario khusus dan perubahan lingkungan jalan
Kontrol bahasa
- Waktu, cuaca, dan keseluruhan adegan dapat diubah dengan perintah teks
  - Contoh: pergantian waktu ke dini hari, pagi, siang, sore, atau malam
  - Perubahan kondisi cuaca seperti mendung, berkabut, hujan, salju, atau cerah

Konversi simulasi berbasis video

Menerima video dari kamera biasa atau dashcam sebagai input, lalu mengubahnya menjadi simulasi multi-sensor dari sudut pandang Waymo Driver
- Karena berbasis video nyata, realisme dan akurasinya tinggi
Contoh: konversi video dari lokasi nyata seperti Norwegia, Arches National Park di Utah, dan Death Valley di California

Scalable Inference

Simulasi adegan panjang membutuhkan komputasi besar, tetapi dengan varian model yang dioptimalkan, sistem ini tetap menjaga kualitas tinggi sambil secara signifikan mengurangi beban komputasi
- Mendukung skenario berkendara jangka panjang seperti melewati jalur sempit, persimpangan kompleks, dan tanjakan
Contoh pemutaran 4x: menghindari kemacetan bottleneck di jalan tol, berkendara di area permukiman yang kompleks, menghindari sepeda motor di tanjakan, dan putar balik SUV

Keselamatan dan skalabilitas

Mereproduksi secara virtual situasi yang hampir mustahil di dunia nyata untuk persiapan sebelumnya
Memperkuat standar keselamatan Waymo Driver dan menyiapkan dasar untuk perluasan layanan ke wilayah dan lingkungan baru

Proyek ini melibatkan banyak peneliti dari Waymo dan Google DeepMind

1 komentar

GN⁺ 2026-02-07

Komentar Hacker News

Saya jadi paham kenapa DeepMind tiba-tiba fokus pada world model
Saya belum pernah memikirkan Waymo sebagai ‘robot’ seperti humanoid Boston Dynamics, tapi pada dasarnya memang robot
Google/Alphabet punya integrasi vertikal yang sangat lengkap di bidang AI — pembangkit listrik sendiri, chip, data center, Search·Gmail·YouTube·Gemini·Workspace·Wallet, miliaran pengguna Android·Chromebook, jaringan iklan, browser, Waymo, kolaborasi dengan Boston Dynamics, riset fusi nuklir, sampai pengembangan obat
Kalau melihat skala seperti ini, chatbot seperti ChatGPT atau Grok jadi tidak sebanding
- Google selama ini lebih fokus pada R&D internal dan penerapan sendiri daripada menjual AI sebagai produk
  Dulu saya kira riset mobil otonom hanya untuk Street View, tapi sekarang terlihat ada visi yang jauh lebih besar
- Google sudah meneliti world model sejak 2018
  Makalah terkait bisa dilihat di sini
- Tesla juga membuat sistem serupa untuk melatih FSD, tetapi sayang tidak diproduktisasi sebagai layanan peta
  Mereka sebenarnya bisa memperbarui kondisi jalan secara real-time dari kendaraan, tapi sekarang terasa sudah sangat tertinggal
- Saya juga jadi paham kenapa Tesla memulai robot humanoid
- Kalau baru sadar sudut pandang ini sekarang, berarti terlambat sekitar 3 tahun dibanding Tesla
  Video terkait bisa dilihat di sini
Katanya model Genie bisa mensimulasikan kejadian langka (tornado, bertemu gajah, dan sebagainya), tapi saya ragu apakah hasil yang dihasilkan benar-benar realistis
Misalnya, kalau model memprediksi situasi jalan dipenuhi bola baja 5 mm, kekhawatirannya adalah bagaimana kita bisa memverifikasi bahwa itu angka yang masuk akal
- Seiring waktu, kualitas world model akan membaik, sehingga sistem kendaraan otonom bisa dilatih dengan data sintetis yang ‘cukup realistis’
  Tidak harus sempurna; lewat penggunaan berulang dan verifikasi, bisa terbentuk siklus perbaikan yang terus berkembang
- Ini bukan untuk menyatakan “sekarang mobil aman bahkan terhadap bola baja”, melainkan digunakan seperti unit test untuk mengecek apakah sistem bereaksi sesuai harapan dalam situasi tertentu
  Misalnya, kasus ekstrem seperti sapi putih di tengah badai salju juga bisa ditangkap lewat simulasi
- Kalau bisa mensimulasikan “dari tornado sampai gajah”, game seperti The Sims juga sepertinya bakal keren
- Sebenarnya ketidakpastian seperti ini juga sama pada manusia
  Prediksi sempurna itu mustahil, tapi ini adalah proses perbaikan bertahap menuju penilaian terbaik berbasis pengetahuan
- Dibutuhkan pendekatan melatih lewat simulasi lalu memvalidasinya di dunia nyata
Waymo World Model katanya bisa mengubah video kamera biasa menjadi simulasi multimodal, yang berarti jika mau, Waymo bisa mengemudi hanya dengan kamera
- Tapi pada praktiknya, ini diubah menjadi representasi yang di-bootstrap dari LiDAR, video, dan sensor lain
  Tesla tidak melalui tahap LiDAR, jadi sulit mendapatkan hasil seperti ini
- LiDAR adalah perangkat untuk koreksi kesalahan saat akurasi kamera menurun
  Fungsinya melengkapi persepsi kedalaman seperti paralaks binokular pada manusia
- LiDAR juga tetap penting untuk menghadapi serangan jamming
- Konversi video → data sensor dan mengemudi menggunakan data tersebut adalah dua tahap yang berbeda
  Yang pertama untuk pelatihan, yang kedua untuk kendaraan sungguhan
- Mobil otonom harus jauh lebih aman daripada manusia agar bisa diterima secara sosial
  Karena itu, pendekatan yang hanya memakai kamera punya keterbatasan
Teknologinya mengesankan, tetapi saya pikir perbaikan infrastruktur kereta lebih mendesak
- Dari sudut pandang orang yang tinggal di Bay Area, kereta memang sudah ada, tetapi tarif, pengelolaan, dan ketertibannya kacau sampai biaya operasional pun tidak tertutup
  Penumpang gelap, kekerasan, dan kondisi tidak higienis membuat pengguna pergi
  Mengabaikan kenyataan ini sambil terus menyerukan transportasi umum terasa hampa
  Karena itu, kalau layanan seperti Waymo benar-benar memberikan kualitas yang dijanjikan, wajar jika lebih menarik perhatian
  Secara pribadi, saya melihat hanya sistem berbagi sepeda yang menjadi satu-satunya alternatif yang benar-benar menepati janji
- Pada akhirnya kereta bisa menjadi neraka jika norma perilaku masyarakat tidak terjaga
  Kebisingan, mengemis, masalah narkoba, dan sebagainya membuat transportasi umum dihindari
- Dalam kondisi apa pun, mobil tetap memiliki keunggulan absolut
  Melihat realitas infrastruktur Amerika, reformasi kereta skala besar tidak realistis
  Bahkan di Jepang yang perkeretaapiannya maju, tingkat kepemilikan kendaraan tidak berbeda jauh dengan AS
- Saya pikir kendaraan yang bisa membawa kita ke mana pun, aman, bersih, dan sesuai jadwal pribadi, itu lebih baik
- Meski begitu, Waymo tetap bisa menjadi titik balik untuk mengurangi pengemudi dan kepemilikan kendaraan
Inti pengumuman ini adalah teknologi untuk menghasilkan data LiDAR 3D dari video 2D
Akses DeepMind dan infrastruktur Google adalah keunggulan kompetitif yang luar biasa bagi Waymo
- Sebenarnya, teknologi memperkirakan 3D dari video 2D sudah ada sejak puluhan tahun lalu
- Ada juga pendekatan monodepth seperti Metric3D, tetapi hasil Waymo jelas berada di level mutakhir (SOTA)
Simulasi banjir, tornado, kebakaran hutan, dan sebagainya memang mengesankan, tetapi saya heran Waymo justru berhenti serentak dalam situasi yang umum seperti pemadaman listrik
Kalau skenario dasar seperti ini saja tidak bisa ditangani, makna simulasinya jadi lemah
- Simulasi meningkatkan performa masing-masing kendaraan, tetapi pemadaman listrik adalah masalah sistem secara keseluruhan akibat kelebihan beban pada staf dukungan jarak jauh
  Artinya, simulasi tetap bernilai, tetapi tidak bisa mencegah semua kegagalan
- Faktanya, ada juga kasus Waymo masuk ke area banjir
  Video terkait
Fakta bahwa Waymo menggunakan situasi kontrafaktual virtual (counterfactual) untuk pelatihan terlihat berbahaya
Karena akan ada lebih banyak video “berhasil menangani dengan baik” daripada tragedi nyata, hasil akhirnya bisa saja melatih kepercayaan diri berlebihan
- Namun sebenarnya ini bukan ‘kontrafaktual’, melainkan pembuatan data untuk melengkapi situasi langka
  Tujuannya agar Waymo bisa merespons tanpa hanya berhenti ketika menghadapi tornado atau gajah
- Mengemudi adalah soal keseimbangan antara kecepatan dan keselamatan
  Jika hanya mengejar keselamatan sempurna, mobil malah tidak akan bergerak sama sekali
- Tidak masuk persimpangan saat aman untuk masuk, atau hanya melaju 5 mph, juga merupakan perilaku mengemudi yang salah
  Pendekatan “asal lambat berarti aman” itu tidak tepat
world model bisa berbahaya dalam situasi keselamatan nyata karena data yang bias
Jika dilatih pada data yang nyaris tidak punya kasus gagal, model mungkin tidak bisa mereproduksi situasi kecelakaan nyata
- Namun Waymo sudah dilatih dengan lebih dari 100 juta mil data berkendara nyata
  Sebagai contoh, video yang ditunjukkan memperlihatkan kasus penghindaran tabrakan
- Tentu kemungkinan bias tetap ada, tetapi keberagaman bisa ditingkatkan lewat pembuatan skenario berbasis prompt dengan LLM
  Hanya saja, standar “cukup realistis” itu sendiri masih kabur
  Karena manusia juga tidak bisa dipercaya 100%, jika digabungkan antara tingkat keamanan 10x lebih baik dan pengaman berbasis kode yang dapat diverifikasi, penerimaan sosial kemungkinan akan lebih tinggi
Project Genie dari DeepMind tampaknya menjadi teknologi dasar Waymo
Artikel terkait: Genie 3: A new frontier for world models
Diskusi Hacker News: Genie 3, Project Genie
- DeepMind bukan sekadar anak perusahaan Alphabet, melainkan organisasi inti tempat Demis Hassabis memimpin seluruh AI Google
Ini mengingatkan saya pada meme bell curve pembelajaran kendaraan otonom
Awalnya dimulai dari simulator berbasis fisika, lalu mengumpulkan data nyata, dan kemudian kembali ke simulator deep learning yang mencerminkan informasi fisika
- Pada akhirnya ini berputar dari simulasi sederhana → data dunia nyata → simulasi untuk realitas yang langka
  Pola seperti ini tampak sebagai tahap perkembangan yang begitu alami sampai rasanya perlu diberi nama

Model Dunia Waymo: Batas Baru Simulasi Mengemudi Otonom

Ikhtisar Model Dunia Waymo

Arsitektur dan fungsi berbasis Genie 3

Pengetahuan dunia multimodal

Simulasi cuaca ekstrem dan bencana alam

Kejadian langka yang penting bagi keselamatan

Objek long-tail dan situasi tidak biasa

Fitur kontrol simulasi

Kontrol tindakan mengemudi

Kontrol komposisi adegan

Kontrol bahasa

Konversi simulasi berbasis video

Scalable Inference

Keselamatan dan skalabilitas

Bacaan terkait

1 komentar

Komentar Hacker News