14 poin oleh GN⁺ 2026-02-06 | Belum ada komentar. | Bagikan ke WhatsApp
  • Meskipun AI perangkat lunak telah berkembang pesat, robot di dunia fisik masih kesulitan bahkan pada tugas dasar seperti melipat cucian atau membereskan mesin pencuci piring
  • Dunia fisik penuh dengan gesekan, occlusion, dinamika yang tak dapat diprediksi, dan keacakan, sehingga secara mendasar berbeda dari lingkungan AI yang berpusat pada teks
  • World Model bekerja bukan dengan memprogram hukum fisika secara langsung, melainkan dengan belajar langsung dari pengalaman nyata untuk memprediksi keadaan masa depan berdasarkan tindakan
  • JEPA (Joint-Embedding Predictive Architecture) memprediksi representasi abstrak alih-alih prediksi tingkat piksel sehingga dapat menyaring noise, tetapi memiliki masalah collapse representasi
  • LeJEPA menyelesaikan masalah ini dengan teknik regularisasi matematis, sekaligus menawarkan landasan teoretis agar robotika beralih dari pendekatan berbasis aturan manual ke pendekatan berbasis pembelajaran

Kesenjangan antara AI digital dan robot fisik

  • LLM kini mampu menulis kode, merancang obat dan protein baru, merangkum dokumen hukum, menjadi tutor bagi siswa, menghasilkan musik dan seni, hingga menyelesaikan masalah penalaran matematika yang selama puluhan tahun tak mampu dipecahkan AI klasik
  • Sebaliknya, robot di dunia fisik, begitu keluar dari lingkungan gudang yang terkontrol, terus gagal pada tugas-tugas dasar seperti melipat cucian, membersihkan kamar berantakan, mengambil benda tak beraturan, membereskan mesin pencuci piring, memasak, atau menata meja makan
  • Robot asisten rumah tangga otonom, sistem yang dapat bergerak aman di lingkungan tak terduga, atau kemampuan manipulasi benda lentur setingkat balita masih belum terwujud; robot di pabrik dan laboratorium pun tetap mahal, rapuh, bergantung pada skrip, dan sangat terspesialisasi
  • Peneliti robotika seperti Rodney Brooks bersikap skeptis terhadap pendekatan “vision-only”; manipulasi sangat bergantung pada sinyal sentuhan, umpan balik gaya, dan proprioception, tetapi sinyal-sinyal ini dalam sistem saat ini tidak ada atau masih sangat kasar
  • Model bahasa beroperasi di dunia teks yang stabil dan memiliki struktur konsisten, dan tindakan digital dapat dibatalkan; sedangkan dunia fisik dipenuhi gesekan, occlusion, dinamika yang tak dapat diprediksi, dan keacakan yang terus-menerus

Definisi dan peran World Model

  • Saat manusia membuat keputusan dan menyusun rencana di dunia nyata, mereka mengandalkan representasi internal dari lingkungannya; merencanakan berarti membayangkan keadaan masa depan yang mungkin muncul dari suatu tindakan
  • Representasi internal ini hanya menyisakan informasi yang dibutuhkan untuk memecahkan masalah dan membuang detail yang tidak perlu; misalnya saat merencanakan rute ke kantor, kita mempertimbangkan jalan, waktu, dan kepadatan lalu lintas, tetapi tidak memasukkan informasi yang tidak relevan seperti suara spesifik dari setiap kendaraan
  • Pada tingkat yang lebih tinggi, representasi internal semacam ini mencerminkan struktur dunia sehingga situasi baru bisa cepat dicocokkan ke pola yang sudah familier
    • Contoh: bahkan saat berhadapan dengan pintu yang pegangannya belum pernah dilihat sebelumnya, kita dapat mengenali bahwa itu adalah pegangan dari bentuk dan posisinya, lalu menyimpulkan cara kerjanya berdasarkan pemahaman umum bahwa “pintu dibuka dengan memberi gaya pada pegangannya”
  • World Model berbeda dari policy yang langsung mengubah observasi menjadi tindakan; alih-alih mengambil keputusan sendiri, ia memprediksi bagaimana dunia akan berubah di bawah berbagai tindakan yang mungkin, lalu menghasilkan representasi terkompresi dari keadaan masa depan
  • Dengan model prediktif seperti ini, planner (atau policy tingkat bawah) dapat membandingkan dan mengevaluasi berbagai masa depan yang dibayangkan untuk memilih urutan tindakan yang mengarah pada hasil terbaik

4 sifat World Model yang berguna

  • Mencerminkan struktur dunia: harus memuat representasi yang menampakkan struktur dunia, bukan sekadar data sensor mentah
  • Generalisasi lintas tugas: harus bisa beradaptasi ke tugas baru tanpa perlu belajar ulang dari nol setiap saat
  • Menyaring detail yang tidak relevan: harus fokus hanya pada informasi yang memengaruhi hasil dan membuang elemen yang tak perlu
  • Memprediksi perubahan dunia akibat tindakan: harus dapat membayangkan lebih dulu hasil yang mungkin sebelum benar-benar bertindak

Sejarah pembelajaran representasi dunia yang bermakna

  • Terobosan besar di bidang perception berbasis deep learning, meski tidak diniatkan, ternyata membentuk representasi terstruktur tentang dunia di dalam model
  • Dalam computer vision, model yang dilatih untuk mengklasifikasikan gambar sebagai kucing, anjing, atau gajah membentuk representasi internal yang tertata rapi dan dapat digunakan ulang
  • Dalam proses mengoptimalkan tujuan sederhana berupa menebak isi gambar, fitur yang dipelajari secara alami mengodekan informasi seperti bentuk, tekstur, pose, dan semantik
  • Representasi yang diperoleh dengan cara ini dapat dipakai sebagai input state untuk tugas seperti deteksi objek, pelacakan, dan segmentasi tanpa perlu pelatihan tambahan terpisah
  • Setelah itu, pendekatan pembelajaran pun bergerak melampaui klasifikasi menuju rekonstruksi gambar, yaitu mengisi bagian yang hilang berdasarkan konteks yang diberikan, sehingga lahir representasi yang lebih kaya dan lebih umum
  • Namun keterbatasan mendasar juga muncul: input sensor selalu memuat detail yang tak relevan bagi tugas hilir dan pada dasarnya tak mungkin diprediksi
    • Contoh: pola riak halus di permukaan panci mendidih pada dasarnya acak dan hampir tidak berkontribusi pada pengambilan keputusan apa pun
    • Model berbasis rekonstruksi menjadikan detail semacam ini sebagai target prediksi juga, sehingga mencoba mengodekan keacakan yang tidak bermakna bagi World Model
    • Akibatnya, representasi dunia terbentuk dalam keadaan tercampur dengan noise, bukan berfokus pada struktur inti

Pendekatan JEPA

  • Jika rekonstruksi gambar adalah masalah pelengkapan pola dalam ruang (memprediksi piksel yang hilang saat sebagian gambar diberikan), maka World Model dapat dipandang sebagai masalah pelengkapan pola dalam waktu
    • Yakni memprediksi keadaan masa depan ketika kondisi dunia saat ini dan urutan tindakan diberikan
  • JEPA (Joint-Embedding Predictive Architecture) berfokus pada prediksi representasi abstrak masa depan yang dikondisikan pada variabel laten, bukan rekonstruksi gambar atau prediksi frame video masa depan pada tingkat piksel
  • Variabel laten dapat dipahami sebagai tindakan yang dilakukan robot, atau faktor-faktor independen yang memengaruhi perubahan di masa depan
  • Dengan dilatih untuk memprediksi keadaan abstrak suatu adegan, bukan penampilan visual yang tepat di tingkat piksel, model membentuk representasi yang terorganisasi dan dapat dijalankan tanpa membuang kapasitas model pada detail visual yang tidak relevan
  • JEPA membangun representasi yang menangkap elemen yang stabil dan bermakna, sambil secara alami menyingkirkan detail yang sangat acak
  • Tujuan pembelajarannya sendiri mendorong model agar tidak mengodekan bentuk persis uap dari ketel atau tekstur rinci kain kusut
    • Detail-detail seperti itu pada dasarnya tak dapat diprediksi dan justru membuat prediksi keadaan dunia masa depan semakin sulit
  • Untuk mencapai kinerja tinggi, model harus merepresentasikan aspek-aspek yang dapat diprediksi dan penting untuk memahami bagaimana dunia akan berubah
  • Inti dari pilihan arsitektur ini adalah menggeser tujuan model dari sekadar rekonstruksi menuju pembelajaran dinamika dunia yang dapat diprediksi

Keterbatasan JEPA dan masalah collapse representasi

  • Salah satu alasan JEPA belum menyebar luas dalam beberapa tahun terakhir adalah karena sulit membedakan secara jelas antara detail yang berisik dan tak dapat diprediksi dengan struktur yang bermakna
  • Tanpa batasan yang tepat, model cenderung runtuh ke representasi sepele
  • Ini mirip dengan sistem pengarsipan yang, demi mengatasi terlalu banyak informasi, malah membuang seluruh kategori dokumen
    • Model JEPA mengambil jalan pintas untuk menghindari noise yang tak dapat diprediksi, tetapi dalam prosesnya ikut membuang struktur yang berguna

LeJEPA: solusi matematis

  • Randall Balestriero dan Yann LeCun mengusulkan LeJEPA, yang menghadirkan regularizer yang berlandaskan matematis untuk mencegah collapse representasi yang muncul pada JEPA
  • Ide intinya adalah menjaga agar ruang representasi internal tidak menumpuk variasi terlalu besar hanya pada sebagian fitur sambil mengabaikan sisanya, melainkan mempertahankan resolusi yang seragam di semua arah
  • Untuk itu, distribusi embedding diarahkan ke bentuk isotropic Gaussian
  • Batasan ini mendorong model memakai kapasitasnya secara merata di seluruh dimensi representasi, sehingga representasi internal tetap kaya dan selaras dengan kondisi
  • Meski tampak seperti batasan geometris sederhana, efeknya sangat kuat
    • Meningkatkan stabilitas proses pelatihan
    • Mempertahankan struktur yang bermakna
    • Memungkinkan pembelajaran representasi yang kaya dan dapat diprediksi tanpa heuristik seperti augmentasi data atau contrastive negatives
  • Ini menandai pergeseran dari teknik sementara untuk mencegah collapse model menuju pendekatan teoretis yang mendorong model mempelajari struktur dunia itu sendiri tanpa terombang-ambing oleh noise

Jalur baru yang ditawarkan World Model

  • Gagasan-gagasan ini menunjukkan pergeseran mendasar dalam cara memandang robotika
  • Selama puluhan tahun, robotika terjebak dalam siklus berikut
    • Merancang solusi secara manual untuk tugas tertentu
    • Menemukan kegagalan di edge case
    • Terus menambahkan aturan dan pengecualian
  • World Model menawarkan jalan keluar dari siklus itu
    • Bukan dengan memprogram hukum fisika langsung ke mesin
    • Melainkan dengan beralih ke sistem yang belajar memprediksi keadaan dunia masa depan dan bernalar di atasnya

Pertanyaan terbuka yang masih tersisa

  • Cara mengarahkan model secara efisien agar mengeksplorasi tindakan yang bermakna dan berguna
  • Cara memperluas pendekatan ini hingga mencakup kompleksitas penuh dari lingkungan tak terstruktur
  • Cara menjaga keselamatan dan keselarasan dengan niat manusia ketika tingkat otonomi meningkat
  • Masalah-masalah ini sama sekali tidak sederhana, tetapi sifatnya berbeda secara kualitatif dari hambatan yang telah menahan robotika selama 50 tahun terakhir
  • Yang berubah adalah kini telah muncul kerangka teoretis yang sesuai dengan struktur masalah tersebut

Kesimpulan

  • LeJEPA dan pendekatan terkait bukan sekadar perbaikan bertahap, melainkan menghadirkan fondasi matematis untuk pembelajaran World Model yang mampu menangani ketidakpastian dunia nyata
  • Kesenjangan antara kecerdasan digital dan kemampuan fisik untuk pertama kalinya mulai tampak bukan sebagai fiksi ilmiah, melainkan tantangan yang bisa diatasi melalui riset

Belum ada komentar.

Belum ada komentar.