Potongan Puzzle yang Hilang dalam Robotika: World Model

Meskipun AI perangkat lunak telah berkembang pesat, robot di dunia fisik masih kesulitan bahkan pada tugas dasar seperti melipat cucian atau membereskan mesin pencuci piring
Dunia fisik penuh dengan gesekan, occlusion, dinamika yang tak dapat diprediksi, dan keacakan, sehingga secara mendasar berbeda dari lingkungan AI yang berpusat pada teks
World Model bekerja bukan dengan memprogram hukum fisika secara langsung, melainkan dengan belajar langsung dari pengalaman nyata untuk memprediksi keadaan masa depan berdasarkan tindakan
JEPA (Joint-Embedding Predictive Architecture) memprediksi representasi abstrak alih-alih prediksi tingkat piksel sehingga dapat menyaring noise, tetapi memiliki masalah collapse representasi
LeJEPA menyelesaikan masalah ini dengan teknik regularisasi matematis, sekaligus menawarkan landasan teoretis agar robotika beralih dari pendekatan berbasis aturan manual ke pendekatan berbasis pembelajaran

Kesenjangan antara AI digital dan robot fisik

LLM kini mampu menulis kode, merancang obat dan protein baru, merangkum dokumen hukum, menjadi tutor bagi siswa, menghasilkan musik dan seni, hingga menyelesaikan masalah penalaran matematika yang selama puluhan tahun tak mampu dipecahkan AI klasik
Sebaliknya, robot di dunia fisik, begitu keluar dari lingkungan gudang yang terkontrol, terus gagal pada tugas-tugas dasar seperti melipat cucian, membersihkan kamar berantakan, mengambil benda tak beraturan, membereskan mesin pencuci piring, memasak, atau menata meja makan
Robot asisten rumah tangga otonom, sistem yang dapat bergerak aman di lingkungan tak terduga, atau kemampuan manipulasi benda lentur setingkat balita masih belum terwujud; robot di pabrik dan laboratorium pun tetap mahal, rapuh, bergantung pada skrip, dan sangat terspesialisasi
Peneliti robotika seperti Rodney Brooks bersikap skeptis terhadap pendekatan “vision-only”; manipulasi sangat bergantung pada sinyal sentuhan, umpan balik gaya, dan proprioception, tetapi sinyal-sinyal ini dalam sistem saat ini tidak ada atau masih sangat kasar
Model bahasa beroperasi di dunia teks yang stabil dan memiliki struktur konsisten, dan tindakan digital dapat dibatalkan; sedangkan dunia fisik dipenuhi gesekan, occlusion, dinamika yang tak dapat diprediksi, dan keacakan yang terus-menerus

Definisi dan peran World Model

Saat manusia membuat keputusan dan menyusun rencana di dunia nyata, mereka mengandalkan representasi internal dari lingkungannya; merencanakan berarti membayangkan keadaan masa depan yang mungkin muncul dari suatu tindakan
Representasi internal ini hanya menyisakan informasi yang dibutuhkan untuk memecahkan masalah dan membuang detail yang tidak perlu; misalnya saat merencanakan rute ke kantor, kita mempertimbangkan jalan, waktu, dan kepadatan lalu lintas, tetapi tidak memasukkan informasi yang tidak relevan seperti suara spesifik dari setiap kendaraan
Pada tingkat yang lebih tinggi, representasi internal semacam ini mencerminkan struktur dunia sehingga situasi baru bisa cepat dicocokkan ke pola yang sudah familier
- Contoh: bahkan saat berhadapan dengan pintu yang pegangannya belum pernah dilihat sebelumnya, kita dapat mengenali bahwa itu adalah pegangan dari bentuk dan posisinya, lalu menyimpulkan cara kerjanya berdasarkan pemahaman umum bahwa “pintu dibuka dengan memberi gaya pada pegangannya”
World Model berbeda dari policy yang langsung mengubah observasi menjadi tindakan; alih-alih mengambil keputusan sendiri, ia memprediksi bagaimana dunia akan berubah di bawah berbagai tindakan yang mungkin, lalu menghasilkan representasi terkompresi dari keadaan masa depan
Dengan model prediktif seperti ini, planner (atau policy tingkat bawah) dapat membandingkan dan mengevaluasi berbagai masa depan yang dibayangkan untuk memilih urutan tindakan yang mengarah pada hasil terbaik

4 sifat World Model yang berguna

Mencerminkan struktur dunia: harus memuat representasi yang menampakkan struktur dunia, bukan sekadar data sensor mentah
Generalisasi lintas tugas: harus bisa beradaptasi ke tugas baru tanpa perlu belajar ulang dari nol setiap saat
Menyaring detail yang tidak relevan: harus fokus hanya pada informasi yang memengaruhi hasil dan membuang elemen yang tak perlu
Memprediksi perubahan dunia akibat tindakan: harus dapat membayangkan lebih dulu hasil yang mungkin sebelum benar-benar bertindak

Sejarah pembelajaran representasi dunia yang bermakna

Terobosan besar di bidang perception berbasis deep learning, meski tidak diniatkan, ternyata membentuk representasi terstruktur tentang dunia di dalam model
Dalam computer vision, model yang dilatih untuk mengklasifikasikan gambar sebagai kucing, anjing, atau gajah membentuk representasi internal yang tertata rapi dan dapat digunakan ulang
Dalam proses mengoptimalkan tujuan sederhana berupa menebak isi gambar, fitur yang dipelajari secara alami mengodekan informasi seperti bentuk, tekstur, pose, dan semantik
Representasi yang diperoleh dengan cara ini dapat dipakai sebagai input state untuk tugas seperti deteksi objek, pelacakan, dan segmentasi tanpa perlu pelatihan tambahan terpisah
Setelah itu, pendekatan pembelajaran pun bergerak melampaui klasifikasi menuju rekonstruksi gambar, yaitu mengisi bagian yang hilang berdasarkan konteks yang diberikan, sehingga lahir representasi yang lebih kaya dan lebih umum
Namun keterbatasan mendasar juga muncul: input sensor selalu memuat detail yang tak relevan bagi tugas hilir dan pada dasarnya tak mungkin diprediksi
- Contoh: pola riak halus di permukaan panci mendidih pada dasarnya acak dan hampir tidak berkontribusi pada pengambilan keputusan apa pun
- Model berbasis rekonstruksi menjadikan detail semacam ini sebagai target prediksi juga, sehingga mencoba mengodekan keacakan yang tidak bermakna bagi World Model
- Akibatnya, representasi dunia terbentuk dalam keadaan tercampur dengan noise, bukan berfokus pada struktur inti

Pendekatan JEPA

Jika rekonstruksi gambar adalah masalah pelengkapan pola dalam ruang (memprediksi piksel yang hilang saat sebagian gambar diberikan), maka World Model dapat dipandang sebagai masalah pelengkapan pola dalam waktu
- Yakni memprediksi keadaan masa depan ketika kondisi dunia saat ini dan urutan tindakan diberikan
JEPA (Joint-Embedding Predictive Architecture) berfokus pada prediksi representasi abstrak masa depan yang dikondisikan pada variabel laten, bukan rekonstruksi gambar atau prediksi frame video masa depan pada tingkat piksel
Variabel laten dapat dipahami sebagai tindakan yang dilakukan robot, atau faktor-faktor independen yang memengaruhi perubahan di masa depan
Dengan dilatih untuk memprediksi keadaan abstrak suatu adegan, bukan penampilan visual yang tepat di tingkat piksel, model membentuk representasi yang terorganisasi dan dapat dijalankan tanpa membuang kapasitas model pada detail visual yang tidak relevan
JEPA membangun representasi yang menangkap elemen yang stabil dan bermakna, sambil secara alami menyingkirkan detail yang sangat acak
Tujuan pembelajarannya sendiri mendorong model agar tidak mengodekan bentuk persis uap dari ketel atau tekstur rinci kain kusut
- Detail-detail seperti itu pada dasarnya tak dapat diprediksi dan justru membuat prediksi keadaan dunia masa depan semakin sulit
Untuk mencapai kinerja tinggi, model harus merepresentasikan aspek-aspek yang dapat diprediksi dan penting untuk memahami bagaimana dunia akan berubah
Inti dari pilihan arsitektur ini adalah menggeser tujuan model dari sekadar rekonstruksi menuju pembelajaran dinamika dunia yang dapat diprediksi

Keterbatasan JEPA dan masalah collapse representasi

Salah satu alasan JEPA belum menyebar luas dalam beberapa tahun terakhir adalah karena sulit membedakan secara jelas antara detail yang berisik dan tak dapat diprediksi dengan struktur yang bermakna
Tanpa batasan yang tepat, model cenderung runtuh ke representasi sepele
Ini mirip dengan sistem pengarsipan yang, demi mengatasi terlalu banyak informasi, malah membuang seluruh kategori dokumen
- Model JEPA mengambil jalan pintas untuk menghindari noise yang tak dapat diprediksi, tetapi dalam prosesnya ikut membuang struktur yang berguna

LeJEPA: solusi matematis

Randall Balestriero dan Yann LeCun mengusulkan LeJEPA, yang menghadirkan regularizer yang berlandaskan matematis untuk mencegah collapse representasi yang muncul pada JEPA
Ide intinya adalah menjaga agar ruang representasi internal tidak menumpuk variasi terlalu besar hanya pada sebagian fitur sambil mengabaikan sisanya, melainkan mempertahankan resolusi yang seragam di semua arah
Untuk itu, distribusi embedding diarahkan ke bentuk isotropic Gaussian
Batasan ini mendorong model memakai kapasitasnya secara merata di seluruh dimensi representasi, sehingga representasi internal tetap kaya dan selaras dengan kondisi
Meski tampak seperti batasan geometris sederhana, efeknya sangat kuat
- Meningkatkan stabilitas proses pelatihan
- Mempertahankan struktur yang bermakna
- Memungkinkan pembelajaran representasi yang kaya dan dapat diprediksi tanpa heuristik seperti augmentasi data atau contrastive negatives
Ini menandai pergeseran dari teknik sementara untuk mencegah collapse model menuju pendekatan teoretis yang mendorong model mempelajari struktur dunia itu sendiri tanpa terombang-ambing oleh noise

Jalur baru yang ditawarkan World Model

Gagasan-gagasan ini menunjukkan pergeseran mendasar dalam cara memandang robotika
Selama puluhan tahun, robotika terjebak dalam siklus berikut
- Merancang solusi secara manual untuk tugas tertentu
- Menemukan kegagalan di edge case
- Terus menambahkan aturan dan pengecualian
World Model menawarkan jalan keluar dari siklus itu
- Bukan dengan memprogram hukum fisika langsung ke mesin
- Melainkan dengan beralih ke sistem yang belajar memprediksi keadaan dunia masa depan dan bernalar di atasnya

Pertanyaan terbuka yang masih tersisa

Cara mengarahkan model secara efisien agar mengeksplorasi tindakan yang bermakna dan berguna
Cara memperluas pendekatan ini hingga mencakup kompleksitas penuh dari lingkungan tak terstruktur
Cara menjaga keselamatan dan keselarasan dengan niat manusia ketika tingkat otonomi meningkat
Masalah-masalah ini sama sekali tidak sederhana, tetapi sifatnya berbeda secara kualitatif dari hambatan yang telah menahan robotika selama 50 tahun terakhir
Yang berubah adalah kini telah muncul kerangka teoretis yang sesuai dengan struktur masalah tersebut

Kesimpulan

LeJEPA dan pendekatan terkait bukan sekadar perbaikan bertahap, melainkan menghadirkan fondasi matematis untuk pembelajaran World Model yang mampu menangani ketidakpastian dunia nyata
Kesenjangan antara kecerdasan digital dan kemampuan fisik untuk pertama kalinya mulai tampak bukan sebagai fiksi ilmiah, melainkan tantangan yang bisa diatasi melalui riset

Potongan Puzzle yang Hilang dalam Robotika: World Model

Kesenjangan antara AI digital dan robot fisik

Definisi dan peran World Model

4 sifat World Model yang berguna

Sejarah pembelajaran representasi dunia yang bermakna

Pendekatan JEPA

Keterbatasan JEPA dan masalah collapse representasi

LeJEPA: solusi matematis

Jalur baru yang ditawarkan World Model

Pertanyaan terbuka yang masih tersisa

Kesimpulan

Bacaan terkait

Belum ada komentar.