6 poin oleh GN⁺ 2026-02-07 | 1 komentar | Bagikan ke WhatsApp
  • Model dunia generatif untuk simulasi mengemudi otonom skala besar, yang mereproduksi lingkungan mirip dunia nyata secara real-time
  • Dibangun di atas Genie 3, sehingga mampu merekonstruksi situasi langka atau ekstrem (tornado, banjir, kemunculan hewan, dll.) secara realistis
  • Simulasi dapat diatur secara rinci melalui kontrol mengemudi, komposisi adegan, dan kontrol bahasa, serta menghasilkan data kamera dan LiDAR secara bersamaan
  • Mengubah video biasa atau rekaman dashcam menjadi simulasi multi-sensor untuk mereproduksi adegan berkendara nyata apa adanya
  • Model ini adalah alat inti untuk verifikasi keselamatan dan perluasan layanan, yang memungkinkan persiapan bahkan untuk situasi yang hampir mustahil dihadapi di dunia nyata

Ikhtisar Model Dunia Waymo

  • Waymo Driver telah menempuh sekitar 200 juta mil secara sepenuhnya otonom di kota-kota besar di AS, dan selain itu juga menempuh miliaran mil di lingkungan virtual
    • Dirancang agar dapat mempelajari lebih dulu situasi kompleks yang sulit ditemui di jalan nyata
  • Waymo World Model adalah sistem pembangkitan simulasi hiperrealistis untuk perjalanan virtual semacam ini
    • Berperan sebagai salah satu dari tiga pilar utama ekosistem AI Waymo dan menjadi fondasi untuk membuktikan keselamatan

Arsitektur dan fungsi berbasis Genie 3

  • Dibangun di atas Genie 3 dari Google DeepMind dan disesuaikan khusus untuk lingkungan berkendara
    • Genie 3 adalah model dunia umum yang menghasilkan lingkungan 3D yang realistis dan interaktif
  • Dengan memanfaatkan pengetahuan dunia yang luas milik Genie, sistem ini dapat mensimulasikan bahkan kejadian yang hampir mustahil terjadi di dunia nyata, seperti bertemu tornado atau gajah
  • Simulasi dapat dikendalikan secara rinci melalui prompt bahasa, input berkendara, dan penataan adegan
  • Mendukung output multi-sensor yang menghasilkan data kamera dan LiDAR sekaligus

Pengetahuan dunia multimodal

  • Simulator mengemudi otonom konvensional dilatih hanya dengan data yang mereka kumpulkan sendiri, tetapi model Waymo memanfaatkan data video luas yang sudah dipra-latih dari Genie 3
  • Mentransfer pengetahuan video 2D menjadi output 3D untuk sistem LiDAR Waymo
    • Kamera unggul dalam detail visual, sementara LiDAR unggul dalam informasi kedalaman yang akurat
  • Dapat menghasilkan beragam adegan, mulai dari berkendara sehari-hari hingga situasi long-tail yang langka
  • Simulasi cuaca ekstrem dan bencana alam

    • Menghasilkan adegan seperti melaju di Golden Gate Bridge yang tertutup salju, berhadapan dengan tornado, wilayah pinggiran yang terendam banjir, jalan bersalju di kota tropis, dan melarikan diri di tengah kebakaran
  • Kejadian langka yang penting bagi keselamatan

    • Mereproduksi skenario terkait keselamatan seperti pengemudi agresif, kendaraan yang menabrak dahan pohon, kendaraan dengan muatan tidak stabil, dan truk yang melaju berlawanan arah
  • Objek long-tail dan situasi tidak biasa

    • Menyediakan simulasi pertemuan dengan objek tidak lazim seperti gajah, Texas longhorn, singa, pejalan kaki berkostum dinosaurus, dan kincir angin raksasa

Fitur kontrol simulasi

  • Dapat diatur melalui tiga pendekatan: kontrol tindakan mengemudi, kontrol komposisi adegan, dan kontrol bahasa
  • Kontrol tindakan mengemudi

    • Menghadirkan simulator interaktif yang merespons input mengemudi tertentu
      • Contoh: menguji hasil jika kendaraan dikemudikan lebih agresif dalam situasi tertentu
    • Menjaga konsistensi visual dan realisme lebih baik daripada metode 3DGS (3D Gaussian Splats) yang ada
  • Kontrol komposisi adegan

    • Memungkinkan modifikasi bebas terhadap struktur jalan, status sinyal, dan perilaku kendaraan sekitar
      • Mendukung pembuatan skenario khusus dan perubahan lingkungan jalan
  • Kontrol bahasa

    • Waktu, cuaca, dan keseluruhan adegan dapat diubah dengan perintah teks
      • Contoh: pergantian waktu ke dini hari, pagi, siang, sore, atau malam
      • Perubahan kondisi cuaca seperti mendung, berkabut, hujan, salju, atau cerah

Konversi simulasi berbasis video

  • Menerima video dari kamera biasa atau dashcam sebagai input, lalu mengubahnya menjadi simulasi multi-sensor dari sudut pandang Waymo Driver
    • Karena berbasis video nyata, realisme dan akurasinya tinggi
  • Contoh: konversi video dari lokasi nyata seperti Norwegia, Arches National Park di Utah, dan Death Valley di California

Scalable Inference

  • Simulasi adegan panjang membutuhkan komputasi besar, tetapi dengan varian model yang dioptimalkan, sistem ini tetap menjaga kualitas tinggi sambil secara signifikan mengurangi beban komputasi
    • Mendukung skenario berkendara jangka panjang seperti melewati jalur sempit, persimpangan kompleks, dan tanjakan
  • Contoh pemutaran 4x: menghindari kemacetan bottleneck di jalan tol, berkendara di area permukiman yang kompleks, menghindari sepeda motor di tanjakan, dan putar balik SUV

Keselamatan dan skalabilitas

  • Mereproduksi secara virtual situasi yang hampir mustahil di dunia nyata untuk persiapan sebelumnya
  • Memperkuat standar keselamatan Waymo Driver dan menyiapkan dasar untuk perluasan layanan ke wilayah dan lingkungan baru
  • Proyek ini melibatkan banyak peneliti dari Waymo dan Google DeepMind

1 komentar

 
GN⁺ 2026-02-07
Komentar Hacker News
  • Saya jadi paham kenapa DeepMind tiba-tiba fokus pada world model
    Saya belum pernah memikirkan Waymo sebagai ‘robot’ seperti humanoid Boston Dynamics, tapi pada dasarnya memang robot
    Google/Alphabet punya integrasi vertikal yang sangat lengkap di bidang AI — pembangkit listrik sendiri, chip, data center, Search·Gmail·YouTube·Gemini·Workspace·Wallet, miliaran pengguna Android·Chromebook, jaringan iklan, browser, Waymo, kolaborasi dengan Boston Dynamics, riset fusi nuklir, sampai pengembangan obat
    Kalau melihat skala seperti ini, chatbot seperti ChatGPT atau Grok jadi tidak sebanding

    • Google selama ini lebih fokus pada R&D internal dan penerapan sendiri daripada menjual AI sebagai produk
      Dulu saya kira riset mobil otonom hanya untuk Street View, tapi sekarang terlihat ada visi yang jauh lebih besar
    • Google sudah meneliti world model sejak 2018
      Makalah terkait bisa dilihat di sini
    • Tesla juga membuat sistem serupa untuk melatih FSD, tetapi sayang tidak diproduktisasi sebagai layanan peta
      Mereka sebenarnya bisa memperbarui kondisi jalan secara real-time dari kendaraan, tapi sekarang terasa sudah sangat tertinggal
    • Saya juga jadi paham kenapa Tesla memulai robot humanoid
    • Kalau baru sadar sudut pandang ini sekarang, berarti terlambat sekitar 3 tahun dibanding Tesla
      Video terkait bisa dilihat di sini
  • Katanya model Genie bisa mensimulasikan kejadian langka (tornado, bertemu gajah, dan sebagainya), tapi saya ragu apakah hasil yang dihasilkan benar-benar realistis
    Misalnya, kalau model memprediksi situasi jalan dipenuhi bola baja 5 mm, kekhawatirannya adalah bagaimana kita bisa memverifikasi bahwa itu angka yang masuk akal

    • Seiring waktu, kualitas world model akan membaik, sehingga sistem kendaraan otonom bisa dilatih dengan data sintetis yang ‘cukup realistis’
      Tidak harus sempurna; lewat penggunaan berulang dan verifikasi, bisa terbentuk siklus perbaikan yang terus berkembang
    • Ini bukan untuk menyatakan “sekarang mobil aman bahkan terhadap bola baja”, melainkan digunakan seperti unit test untuk mengecek apakah sistem bereaksi sesuai harapan dalam situasi tertentu
      Misalnya, kasus ekstrem seperti sapi putih di tengah badai salju juga bisa ditangkap lewat simulasi
    • Kalau bisa mensimulasikan “dari tornado sampai gajah”, game seperti The Sims juga sepertinya bakal keren
    • Sebenarnya ketidakpastian seperti ini juga sama pada manusia
      Prediksi sempurna itu mustahil, tapi ini adalah proses perbaikan bertahap menuju penilaian terbaik berbasis pengetahuan
    • Dibutuhkan pendekatan melatih lewat simulasi lalu memvalidasinya di dunia nyata
  • Waymo World Model katanya bisa mengubah video kamera biasa menjadi simulasi multimodal, yang berarti jika mau, Waymo bisa mengemudi hanya dengan kamera

    • Tapi pada praktiknya, ini diubah menjadi representasi yang di-bootstrap dari LiDAR, video, dan sensor lain
      Tesla tidak melalui tahap LiDAR, jadi sulit mendapatkan hasil seperti ini
    • LiDAR adalah perangkat untuk koreksi kesalahan saat akurasi kamera menurun
      Fungsinya melengkapi persepsi kedalaman seperti paralaks binokular pada manusia
    • LiDAR juga tetap penting untuk menghadapi serangan jamming
    • Konversi video → data sensor dan mengemudi menggunakan data tersebut adalah dua tahap yang berbeda
      Yang pertama untuk pelatihan, yang kedua untuk kendaraan sungguhan
    • Mobil otonom harus jauh lebih aman daripada manusia agar bisa diterima secara sosial
      Karena itu, pendekatan yang hanya memakai kamera punya keterbatasan
  • Teknologinya mengesankan, tetapi saya pikir perbaikan infrastruktur kereta lebih mendesak

    • Dari sudut pandang orang yang tinggal di Bay Area, kereta memang sudah ada, tetapi tarif, pengelolaan, dan ketertibannya kacau sampai biaya operasional pun tidak tertutup
      Penumpang gelap, kekerasan, dan kondisi tidak higienis membuat pengguna pergi
      Mengabaikan kenyataan ini sambil terus menyerukan transportasi umum terasa hampa
      Karena itu, kalau layanan seperti Waymo benar-benar memberikan kualitas yang dijanjikan, wajar jika lebih menarik perhatian
      Secara pribadi, saya melihat hanya sistem berbagi sepeda yang menjadi satu-satunya alternatif yang benar-benar menepati janji
    • Pada akhirnya kereta bisa menjadi neraka jika norma perilaku masyarakat tidak terjaga
      Kebisingan, mengemis, masalah narkoba, dan sebagainya membuat transportasi umum dihindari
    • Dalam kondisi apa pun, mobil tetap memiliki keunggulan absolut
      Melihat realitas infrastruktur Amerika, reformasi kereta skala besar tidak realistis
      Bahkan di Jepang yang perkeretaapiannya maju, tingkat kepemilikan kendaraan tidak berbeda jauh dengan AS
    • Saya pikir kendaraan yang bisa membawa kita ke mana pun, aman, bersih, dan sesuai jadwal pribadi, itu lebih baik
    • Meski begitu, Waymo tetap bisa menjadi titik balik untuk mengurangi pengemudi dan kepemilikan kendaraan
  • Inti pengumuman ini adalah teknologi untuk menghasilkan data LiDAR 3D dari video 2D
    Akses DeepMind dan infrastruktur Google adalah keunggulan kompetitif yang luar biasa bagi Waymo

    • Sebenarnya, teknologi memperkirakan 3D dari video 2D sudah ada sejak puluhan tahun lalu
    • Ada juga pendekatan monodepth seperti Metric3D, tetapi hasil Waymo jelas berada di level mutakhir (SOTA)
  • Simulasi banjir, tornado, kebakaran hutan, dan sebagainya memang mengesankan, tetapi saya heran Waymo justru berhenti serentak dalam situasi yang umum seperti pemadaman listrik
    Kalau skenario dasar seperti ini saja tidak bisa ditangani, makna simulasinya jadi lemah

    • Simulasi meningkatkan performa masing-masing kendaraan, tetapi pemadaman listrik adalah masalah sistem secara keseluruhan akibat kelebihan beban pada staf dukungan jarak jauh
      Artinya, simulasi tetap bernilai, tetapi tidak bisa mencegah semua kegagalan
    • Faktanya, ada juga kasus Waymo masuk ke area banjir
      Video terkait
  • Fakta bahwa Waymo menggunakan situasi kontrafaktual virtual (counterfactual) untuk pelatihan terlihat berbahaya
    Karena akan ada lebih banyak video “berhasil menangani dengan baik” daripada tragedi nyata, hasil akhirnya bisa saja melatih kepercayaan diri berlebihan

    • Namun sebenarnya ini bukan ‘kontrafaktual’, melainkan pembuatan data untuk melengkapi situasi langka
      Tujuannya agar Waymo bisa merespons tanpa hanya berhenti ketika menghadapi tornado atau gajah
    • Mengemudi adalah soal keseimbangan antara kecepatan dan keselamatan
      Jika hanya mengejar keselamatan sempurna, mobil malah tidak akan bergerak sama sekali
    • Tidak masuk persimpangan saat aman untuk masuk, atau hanya melaju 5 mph, juga merupakan perilaku mengemudi yang salah
      Pendekatan “asal lambat berarti aman” itu tidak tepat
  • world model bisa berbahaya dalam situasi keselamatan nyata karena data yang bias
    Jika dilatih pada data yang nyaris tidak punya kasus gagal, model mungkin tidak bisa mereproduksi situasi kecelakaan nyata

    • Namun Waymo sudah dilatih dengan lebih dari 100 juta mil data berkendara nyata
      Sebagai contoh, video yang ditunjukkan memperlihatkan kasus penghindaran tabrakan
    • Tentu kemungkinan bias tetap ada, tetapi keberagaman bisa ditingkatkan lewat pembuatan skenario berbasis prompt dengan LLM
      Hanya saja, standar “cukup realistis” itu sendiri masih kabur
      Karena manusia juga tidak bisa dipercaya 100%, jika digabungkan antara tingkat keamanan 10x lebih baik dan pengaman berbasis kode yang dapat diverifikasi, penerimaan sosial kemungkinan akan lebih tinggi
  • Project Genie dari DeepMind tampaknya menjadi teknologi dasar Waymo
    Artikel terkait: Genie 3: A new frontier for world models
    Diskusi Hacker News: Genie 3, Project Genie

    • DeepMind bukan sekadar anak perusahaan Alphabet, melainkan organisasi inti tempat Demis Hassabis memimpin seluruh AI Google
  • Ini mengingatkan saya pada meme bell curve pembelajaran kendaraan otonom
    Awalnya dimulai dari simulator berbasis fisika, lalu mengumpulkan data nyata, dan kemudian kembali ke simulator deep learning yang mencerminkan informasi fisika

    • Pada akhirnya ini berputar dari simulasi sederhana → data dunia nyata → simulasi untuk realitas yang langka
      Pola seperti ini tampak sebagai tahap perkembangan yang begitu alami sampai rasanya perlu diberi nama