Kecerdasan spasial adalah frontier AI berikutnya
(drfeifei.substack.com)- Kecerdasan spasial (spatial intelligence) adalah bidang kunci yang secara fundamental mengubah cara AI memahami dan berinteraksi dengan dunia nyata maupun virtual
- Model bahasa skala besar (LLM) saat ini unggul dalam pemrosesan bahasa, tetapi kemampuan penalaran spasial seperti jarak, arah, dan konsistensi fisik masih belum setara dengan manusia
- Sebagai pendekatan baru untuk mengatasi hal ini, diajukan 'world model', yaitu arsitektur model generatif generasi berikutnya yang memiliki sifat generatif, multimodal, dan interaktif
- World Labs sedang mengembangkan model semacam ini, dan versi awal bernama 'Marble' mendemonstrasikan kemampuan untuk menghasilkan dan mempertahankan lingkungan 3D yang konsisten berdasarkan berbagai masukan
- Kecerdasan spasial adalah tahap berikutnya dalam perkembangan AI yang memperkuat kemampuan manusia di berbagai bidang seperti kreativitas, robotika, sains, medis, dan pendidikan
Konsep dan pentingnya kecerdasan spasial
- Kecerdasan manusia berevolusi berdasarkan perception-action loop (siklus persepsi-tindakan), dan kecerdasan spasial adalah elemen inti yang memungkinkan hal tersebut
- Tindakan sehari-hari seperti memarkir mobil, mengambil barang, dan bergerak di lingkungan kompleks semuanya bergantung pada penalaran spasial
- Dalam proses perkembangan anak sebelum bahasa pun, rasa spasial diperoleh melalui interaksi dengan lingkungan
- Kreativitas dan imajinasi juga berlandaskan kecerdasan spasial
- Dari lukisan gua hingga film, game, dan virtual reality (VR), manusia mengekspresikan dunia melalui pemikiran spasial
- Simulasi spasial juga memainkan peran penting dalam desain industri, digital twin, dan pelatihan robot
- Secara historis, kecerdasan spasial juga menjadi penggerak perkembangan peradaban
- Perhitungan keliling bumi oleh Eratosthenes, inovasi struktur Spinning Jenny, dan penemuan struktur DNA semuanya merupakan hasil pemikiran spasial
- AI saat ini telah maju dalam pengenalan visual dan kemampuan generasi, tetapi masih kurang dalam pemahaman jarak, arah, dan hukum fisika serta konsistensi spasial
- Bahkan model multimodal terbaru pun menunjukkan kinerja rendah dalam rotasi objek, penelusuran labirin, dan prediksi fisik
- Keterbatasan ini membatasi penerapan di dunia nyata seperti kontrol robot, kendaraan otonom, dan pembelajaran imersif
World model: arsitektur AI baru untuk mewujudkan kecerdasan spasial
- Untuk mewujudkan kecerdasan spasial, dibutuhkan world model yang lebih kompleks daripada LLM
- Model ini harus memahami, menghasilkan, dan berinteraksi secara terpadu dengan kompleksitas semantik, fisik, geometris, dan dinamis dari dunia nyata maupun virtual
- Tiga kemampuan inti world model
- Generatif (Generative): menghasilkan dunia yang konsisten secara perseptual, geometris, dan fisik
- Mensimulasikan ruang nyata atau virtual sambil mempertahankan kontinuitas antara keadaan saat ini dan keadaan sebelumnya
- Multimodal (Multimodal): memproses dan mengintegrasikan berbagai input seperti gambar, video, teks, dan gestur
- Harus memiliki fidelitas visual sekaligus kemampuan interpretasi semantik
- Interaktif (Interactive): memprediksi dan menghasilkan keadaan berikutnya sesuai tindakan yang diberikan
- Jika keadaan tujuan diberikan, model juga harus mampu memprediksi perubahan dunia dan tindakan yang sesuai
- Generatif (Generative): menghasilkan dunia yang konsisten secara perseptual, geometris, dan fisik
- Karena harus secara konsisten merefleksikan hukum fisika, struktur geometris, dan dinamika yang jauh lebih kompleks daripada generasi bahasa, tingkat kesulitan teknisnya sangat tinggi
Riset World Labs dan tantangan teknis
- World Labs didirikan pada awal 2024 dan sedang melakukan riset world model yang berpusat pada kecerdasan spasial
- Topik riset utama
- Definisi fungsi pembelajaran universal: menetapkan tujuan pembelajaran yang sesederhana 'prediksi token berikutnya' pada LLM, tetapi tetap mencerminkan hukum fisika dan geometri
- Data pelatihan berskala besar: memanfaatkan banyak sumber seperti gambar dan video internet, data sintetis, serta informasi kedalaman dan taktil
- Arsitektur model baru: meneliti tokenisasi dan struktur memori berbasis persepsi 3D dan 4D
- Contoh: RTFM (Real-Time Frame-based Model) menggunakan frame spasial sebagai memori untuk memungkinkan generasi real-time dan menjaga konsistensi
- Hasil awal bernama Marble menghasilkan dan mempertahankan lingkungan 3D yang konsisten dari berbagai input, dan telah didemonstrasikan kepada sebagian pengguna
- Saat ini masih dikembangkan dengan target rilis di masa mendatang
Bidang penerapan kecerdasan spasial
Kreativitas dan produksi konten
- Marble menyediakan kemampuan menciptakan dunia 3D yang sepenuhnya dapat dijelajahi bagi pembuat film, desainer game, arsitek, dan lainnya
- Berbagai adegan dan sudut pandang dapat diuji tanpa batasan anggaran maupun geografis
- Menciptakan pengalaman imersif dalam storytelling, seni, pendidikan, dan desain
- Perancangan naratif spasial dapat mempersingkat proses visualisasi dalam arsitektur, industri, dan desain fesyen
- Dengan perluasan pengalaman imersif berbasis VR dan XR, kreator individu pun dapat membangun dunia mereka sendiri
Robotika
- Hambatan utama dalam pembelajaran robot adalah kekurangan data pelatihan, dan world model dapat membantu mengatasinya
- Kesenjangan antara simulasi dan dunia nyata dapat diperkecil sehingga pelatihan di berbagai lingkungan menjadi memungkinkan
- Kecerdasan spasial sangat penting untuk mewujudkan robot kolaboratif dengan manusia
- Pengembangan robot yang dapat memahami tujuan dan tindakan manusia serta bekerja sama di laboratorium, rumah, dan lingkungan lain
- Juga dapat dimanfaatkan untuk membangun lingkungan pelatihan dan benchmark bagi berbagai bentuk robot—nanobot, robot lunak, robot laut dalam, dan robot untuk luar angkasa
Sains, medis, pendidikan
- Riset sains: mempercepat eksperimen melalui simulasi multidimensi dan menurunkan biaya komputasi dalam riset iklim, material, dan lainnya
- Medis: perluasan pemanfaatan AI berbasis kecerdasan spasial dalam penemuan obat, diagnosis berbasis pencitraan, dan pemantauan pasien
- Pendidikan: memvisualisasikan konsep yang kompleks dan menyediakan lingkungan belajar imersif yang dipersonalisasi untuk pelajar
- Siswa dapat menjelajahi struktur sel atau peristiwa sejarah, sementara para profesional dapat melatih keterampilan melalui simulasi yang realistis
Visi perkembangan AI yang berpusat pada manusia
- Tujuan pengembangan AI adalah memperkuat kemampuan manusia, bukan menggantikannya
- AI harus berkembang ke arah yang meningkatkan kreativitas, produktivitas, konektivitas, dan kepuasan hidup
- Kecerdasan spasial diposisikan sebagai teknologi yang memperluas imajinasi, kepedulian, dan kemampuan eksplorasi manusia
- Untuk mewujudkan visi ini, dibutuhkan kolaborasi seluruh ekosistem AI termasuk peneliti, perusahaan, dan pembuat kebijakan
Kesimpulan
- AI telah mengubah masyarakat secara luas, tetapi kecerdasan spasial diajukan sebagai inovasi tahap berikutnya
- Melalui world model, menjadi mungkin mengembangkan mesin yang cerdas secara spasial dan dapat berinteraksi secara selaras dengan dunia nyata
- Ini dinilai sebagai titik balik teknologi yang meningkatkan aktivitas inti manusia seperti riset penyakit, storytelling, dan perawatan
- Seperti evolusi kecerdasan manusia yang dimulai dari kecerdasan spasial, diajukan pula visi bahwa penyempurnaan AI juga akan tuntas melalui kecerdasan spasial
1 komentar
Opini Hacker News
Setelah membaca tulisannya, saya masih tidak begitu paham apa sebenarnya yang mereka mengerti
Catatannya hampir tidak punya informasi substantif, hanya sebatas “mengumpulkan data spasial seperti ImageNet”
Orang-orang yang meneliti kecerdasan spasial umumnya berada di ranah neurosains
Dalam makalah ringkasan yang saya tulis, saya menjelaskan bahwa entorhinal cortex, grid cell, dan transformasi koordinat mungkin merupakan inti utamanya
Semua hewan menavigasi dunia dengan mentransformasikan koordinat secara real-time, dan manusia memiliki representasi koordinat paling banyak di antara mereka
Saya pikir kecerdasan setingkat manusia berarti mengetahui kapan dan bagaimana mengubah sistem koordinat untuk mengekstrak informasi yang berguna
Tulisan itu dibuat sebelum ledakan LLM, tetapi saya masih percaya arah ini benar
Ini berlanjut ke riset deteksi tabrakan, animasi berbasis fisika, penyelesaian persamaan nonlinier, dan locomotion berkaki di medan kasar, tetapi itu bukan AI
Sekarang pendekatannya cenderung berharap bahwa dengan memasukkan komputasi dalam jumlah besar, sistem pembelajaran akan menemukan sendiri representasi internal dunia spasial
Berjalan pada robot sudah lumayan bagus, tetapi manipulasi di lingkungan tak terstruktur masih sangat buruk
Bahkan dibandingkan dengan video lab McCarthy di Stanford pada 1960-an pun tidak banyak berbeda
Dulu saya pikir kita harus lebih dulu mencapai kecerdasan setingkat tikus atau tupai sebelum level manusia, jadi saya terkejut justru AI abstrak yang muncul lebih dahulu
Belakangan ini saya tertarik pada riset generasi video yang memprediksi adegan berikutnya dari video pendek
Menurut saya inti dari common sense adalah kemampuan memprediksi “apa yang akan terjadi berikutnya” dalam waktu singkat
Siaran pers Nobel terkait juga layak dilihat
Terlalu banyak istilah tren ala VC seperti “transform”, “revolutionize”, “next frontier”, dan “North Star”, jadi kepercayaannya turun
"Vector-based navigation using grid-like representations in artificial agents" dari Nature 2018,
"Modeling hippocampal spatial cells in rodents navigating in 3D environments" dari Nature 2024,
dan simulasi grid-cell dari DeepMind juga layak dilihat bersama
Dalam neurosains, riset tentang persepsi spasial sudah dilakukan sejak lama
Menyalin sistem biologis secara mentah hampir selalu gagal
CNN memang terinspirasi dari otak, tetapi secara struktural berbeda, dan LLM hampir tidak mirip dengan otak manusia
Kemiripan fungsional LLM bukan berasal dari peniruan struktur otak, melainkan dari proses pelatihannya
Ini pada akhirnya hanya sistem simulasi yang bekerja di dunia virtual yang sempit
Sistem seperti ini hampir tidak membantu untuk mempelajari dinamika kompleks dunia nyata
Model dunia virtual hanyalah kasus khusus yang disederhanakan dari model dunia fisik, dan saya tidak melihat bukti bahwa perusahaan ini telah membuat kemajuan substantif di bidang kecerdasan spasial
Baru-baru ini saya menerapkan agentic coding ke CAD dan mendapat pengalaman yang luar biasa
Saya perlu menambahkan ulir ke model cetak 3D, dan menggunakan geometri komputasional agar agen bisa ‘merasakan’ model tersebut
Saya melakukan konvolusi radius bola ke seluruh model untuk menemukan lokasi port lalu menambahkan ulir
Setelah beberapa percobaan akhirnya berhasil, dan pengalaman ini membuat saya sadar bahwa model perlu memiliki ‘indra peraba’
Pada akhirnya model 3D harus diimplementasikan sebagai kode agar bisa diverifikasi
Saya pernah bereksperimen dengan OpenSCAD, tetapi model saat ini masih kurang punya common sense tentang keterhubungan bentuk
Jika ada lebih banyak dataset CAD berbasis kode, hasilnya akan jauh lebih berguna
Kalau tidak, pada akhirnya kita akan membutuhkan pembelajaran berbasis simulasi fisika
Mudah sekali jatuh ke ambiguitas setingkat “jangan taruh itu di sana, taruh di sini”
Genie 3 sudah sampai pada tingkat tertentu dalam mewujudkan tujuan yang ia sebutkan, yaitu model dunia yang dapat dikendalikan dengan hukum fisika yang konsisten
Model saudaranya, Veo 3, juga menunjukkan kemampuan pemecahan masalah spasial
Genie dan Veo jauh lebih dekat ke visinya dibanding World Labs
Tetapi karena tulisannya sama sekali tidak menyebut model Google, rasanya seperti tulisan promosi perusahaan sendiri
Lihat DeepMind Gemini Robotics ER
Saat ini AI hanya belajar dari web, dan tidak belajar dari interaksi dengan manusia
Manusia belajar melalui konteks dan memori seumur hidup, tetapi bagi AI konteks itu hilang begitu percakapan selesai
Jika ada memori konteks besar yang dipersonalisasi, nilainya akan jauh lebih tinggi
Pendekatan yang ada sekarang menimbulkan catastrophic forgetting saat pelatihan tambahan dilakukan, tetapi Nested Learning membaginya ke banyak model kecil agar pelatihan ulang tidak merusak bagian lain
Pemahaman spasial yang kita miliki sangat besar, seperti simulasi kuantum berskala kosmis
Sebaliknya, hal yang saat ini bisa kita simulasikan secara penuh baru sebatas tingkat atom atau sel
Saat membaca tulisan ini saya terpikir bahwa contoh pertama ketika manusia ‘berpikir melampaui alam’ adalah roda
Alam itu bergelombang, tetapi manusia membuat jalan datar sehingga gerakan menggelinding menjadi mungkin
Perkembangan sains dan teknologi adalah contoh lain yang memungkinkan pewarisan intuisi pola antargenerasi
Saya tidak tahu apakah ‘superinteligensi’ mungkin hadir dalam bentuk selain kecepatan, tetapi kemampuan berpikir tiga dimensi tampaknya akan menjadi syarat penting agar AI melampaui manusia dan alam
Sebagaimana pembuluh darah mengalirkan nutrisi dan sinyal, jalan juga mengangkut sumber daya
Mungkin alam hanya memperluas kemampuan organisasional itu ke tingkat spesies, sehingga dasar untuk mengatakan manusia berada di atas alam pun lemah
Kognisi manusia adalah bangunan yang berdiri di atas kecerdasan spasial
Itu bukan sesuatu yang terbentuk dari pemikiran abstrak saja, melainkan pengalaman terpadu yang berlandaskan indra
Evolusi mencapai generalisasi bukan melalui otak simbolik, melainkan melalui peleburan indra
Kecerdasan bukan lahir dari algoritme, tetapi dari keselarasan yang konsisten antarsensor
Kelengkapan indrawi itulah arah yang seharusnya kita tuju
Saya sedang mengikuti tulisan blog yang merangkum kondisi penalaran spasial pada LLM
Kesimpulannya… jalan yang harus ditempuh masih panjang
Spatial token mungkin bisa membantu, tetapi tidak wajib
Banyak masalah fisika masih bisa diselesaikan dengan kertas dan pena
Menarik bahwa gambar 512×512 dapat direpresentasikan dengan 85 token, dan video dengan 263 token per detik
Ini tampak seperti persoalan keseimbangan baru antara memori dan embedding
Seperti pertanyaan “bisakah kamu memutar apel di dalam kepala?”, embedding spasial akan memungkinkan pemahaman intuitif atas dinamika
Di tim kami, FlyShirley, kami juga meneliti area ini lewat simulasi pelatihan pilot, dan berencana mencoba model Fei-Fei
Karena pembelajaran dan penalaran berbasis video memerlukan sumber daya komputasi yang sangat besar,
saya ragu pendekatan seperti ini benar-benar akan membantu untuk asisten agen (coding, pemasaran, manajemen jadwal, dan sebagainya)
Sebaliknya, saya pikir ini akan memiliki struktur komputasi yang lebih menguntungkan di bidang robotika