Kecerdasan spasial adalah frontier AI berikutnya

(drfeifei.substack.com)

14 poin oleh GN⁺ 2025-11-12 | 1 komentar | Bagikan ke WhatsApp

Kecerdasan spasial (spatial intelligence) adalah bidang kunci yang secara fundamental mengubah cara AI memahami dan berinteraksi dengan dunia nyata maupun virtual
Model bahasa skala besar (LLM) saat ini unggul dalam pemrosesan bahasa, tetapi kemampuan penalaran spasial seperti jarak, arah, dan konsistensi fisik masih belum setara dengan manusia
Sebagai pendekatan baru untuk mengatasi hal ini, diajukan 'world model', yaitu arsitektur model generatif generasi berikutnya yang memiliki sifat generatif, multimodal, dan interaktif
World Labs sedang mengembangkan model semacam ini, dan versi awal bernama 'Marble' mendemonstrasikan kemampuan untuk menghasilkan dan mempertahankan lingkungan 3D yang konsisten berdasarkan berbagai masukan
Kecerdasan spasial adalah tahap berikutnya dalam perkembangan AI yang memperkuat kemampuan manusia di berbagai bidang seperti kreativitas, robotika, sains, medis, dan pendidikan

Konsep dan pentingnya kecerdasan spasial

Kecerdasan manusia berevolusi berdasarkan perception-action loop (siklus persepsi-tindakan), dan kecerdasan spasial adalah elemen inti yang memungkinkan hal tersebut
- Tindakan sehari-hari seperti memarkir mobil, mengambil barang, dan bergerak di lingkungan kompleks semuanya bergantung pada penalaran spasial
- Dalam proses perkembangan anak sebelum bahasa pun, rasa spasial diperoleh melalui interaksi dengan lingkungan
Kreativitas dan imajinasi juga berlandaskan kecerdasan spasial
- Dari lukisan gua hingga film, game, dan virtual reality (VR), manusia mengekspresikan dunia melalui pemikiran spasial
- Simulasi spasial juga memainkan peran penting dalam desain industri, digital twin, dan pelatihan robot
Secara historis, kecerdasan spasial juga menjadi penggerak perkembangan peradaban
- Perhitungan keliling bumi oleh Eratosthenes, inovasi struktur Spinning Jenny, dan penemuan struktur DNA semuanya merupakan hasil pemikiran spasial
AI saat ini telah maju dalam pengenalan visual dan kemampuan generasi, tetapi masih kurang dalam pemahaman jarak, arah, dan hukum fisika serta konsistensi spasial
- Bahkan model multimodal terbaru pun menunjukkan kinerja rendah dalam rotasi objek, penelusuran labirin, dan prediksi fisik
- Keterbatasan ini membatasi penerapan di dunia nyata seperti kontrol robot, kendaraan otonom, dan pembelajaran imersif

World model: arsitektur AI baru untuk mewujudkan kecerdasan spasial

Untuk mewujudkan kecerdasan spasial, dibutuhkan world model yang lebih kompleks daripada LLM
- Model ini harus memahami, menghasilkan, dan berinteraksi secara terpadu dengan kompleksitas semantik, fisik, geometris, dan dinamis dari dunia nyata maupun virtual
Iklan
Tiga kemampuan inti world model
1. Generatif (Generative): menghasilkan dunia yang konsisten secara perseptual, geometris, dan fisik
  - Mensimulasikan ruang nyata atau virtual sambil mempertahankan kontinuitas antara keadaan saat ini dan keadaan sebelumnya
2. Multimodal (Multimodal): memproses dan mengintegrasikan berbagai input seperti gambar, video, teks, dan gestur
  - Harus memiliki fidelitas visual sekaligus kemampuan interpretasi semantik
3. Interaktif (Interactive): memprediksi dan menghasilkan keadaan berikutnya sesuai tindakan yang diberikan
  - Jika keadaan tujuan diberikan, model juga harus mampu memprediksi perubahan dunia dan tindakan yang sesuai
Karena harus secara konsisten merefleksikan hukum fisika, struktur geometris, dan dinamika yang jauh lebih kompleks daripada generasi bahasa, tingkat kesulitan teknisnya sangat tinggi

Riset World Labs dan tantangan teknis

World Labs didirikan pada awal 2024 dan sedang melakukan riset world model yang berpusat pada kecerdasan spasial
Topik riset utama
- Definisi fungsi pembelajaran universal: menetapkan tujuan pembelajaran yang sesederhana 'prediksi token berikutnya' pada LLM, tetapi tetap mencerminkan hukum fisika dan geometri
- Data pelatihan berskala besar: memanfaatkan banyak sumber seperti gambar dan video internet, data sintetis, serta informasi kedalaman dan taktil
- Arsitektur model baru: meneliti tokenisasi dan struktur memori berbasis persepsi 3D dan 4D
  - Contoh: RTFM (Real-Time Frame-based Model) menggunakan frame spasial sebagai memori untuk memungkinkan generasi real-time dan menjaga konsistensi
  Iklan
Hasil awal bernama Marble menghasilkan dan mempertahankan lingkungan 3D yang konsisten dari berbagai input, dan telah didemonstrasikan kepada sebagian pengguna
- Saat ini masih dikembangkan dengan target rilis di masa mendatang

Bidang penerapan kecerdasan spasial

Kreativitas dan produksi konten

Marble menyediakan kemampuan menciptakan dunia 3D yang sepenuhnya dapat dijelajahi bagi pembuat film, desainer game, arsitek, dan lainnya
- Berbagai adegan dan sudut pandang dapat diuji tanpa batasan anggaran maupun geografis
- Menciptakan pengalaman imersif dalam storytelling, seni, pendidikan, dan desain
Perancangan naratif spasial dapat mempersingkat proses visualisasi dalam arsitektur, industri, dan desain fesyen
Dengan perluasan pengalaman imersif berbasis VR dan XR, kreator individu pun dapat membangun dunia mereka sendiri

Robotika

Hambatan utama dalam pembelajaran robot adalah kekurangan data pelatihan, dan world model dapat membantu mengatasinya
- Kesenjangan antara simulasi dan dunia nyata dapat diperkecil sehingga pelatihan di berbagai lingkungan menjadi memungkinkan
Kecerdasan spasial sangat penting untuk mewujudkan robot kolaboratif dengan manusia
- Pengembangan robot yang dapat memahami tujuan dan tindakan manusia serta bekerja sama di laboratorium, rumah, dan lingkungan lain
Iklan
Juga dapat dimanfaatkan untuk membangun lingkungan pelatihan dan benchmark bagi berbagai bentuk robot—nanobot, robot lunak, robot laut dalam, dan robot untuk luar angkasa

Sains, medis, pendidikan

Riset sains: mempercepat eksperimen melalui simulasi multidimensi dan menurunkan biaya komputasi dalam riset iklim, material, dan lainnya
Medis: perluasan pemanfaatan AI berbasis kecerdasan spasial dalam penemuan obat, diagnosis berbasis pencitraan, dan pemantauan pasien
Pendidikan: memvisualisasikan konsep yang kompleks dan menyediakan lingkungan belajar imersif yang dipersonalisasi untuk pelajar
- Siswa dapat menjelajahi struktur sel atau peristiwa sejarah, sementara para profesional dapat melatih keterampilan melalui simulasi yang realistis

Visi perkembangan AI yang berpusat pada manusia

Tujuan pengembangan AI adalah memperkuat kemampuan manusia, bukan menggantikannya
- AI harus berkembang ke arah yang meningkatkan kreativitas, produktivitas, konektivitas, dan kepuasan hidup
Kecerdasan spasial diposisikan sebagai teknologi yang memperluas imajinasi, kepedulian, dan kemampuan eksplorasi manusia
Untuk mewujudkan visi ini, dibutuhkan kolaborasi seluruh ekosistem AI termasuk peneliti, perusahaan, dan pembuat kebijakan

Kesimpulan

AI telah mengubah masyarakat secara luas, tetapi kecerdasan spasial diajukan sebagai inovasi tahap berikutnya
Melalui world model, menjadi mungkin mengembangkan mesin yang cerdas secara spasial dan dapat berinteraksi secara selaras dengan dunia nyata
Ini dinilai sebagai titik balik teknologi yang meningkatkan aktivitas inti manusia seperti riset penyakit, storytelling, dan perawatan
Seperti evolusi kecerdasan manusia yang dimulai dari kecerdasan spasial, diajukan pula visi bahwa penyempurnaan AI juga akan tuntas melalui kecerdasan spasial

1 komentar

GN⁺ 2025-11-12

Opini Hacker News

Setelah membaca tulisannya, saya masih tidak begitu paham apa sebenarnya yang mereka mengerti
Catatannya hampir tidak punya informasi substantif, hanya sebatas “mengumpulkan data spasial seperti ImageNet”
Orang-orang yang meneliti kecerdasan spasial umumnya berada di ranah neurosains
Dalam makalah ringkasan yang saya tulis, saya menjelaskan bahwa entorhinal cortex, grid cell, dan transformasi koordinat mungkin merupakan inti utamanya
Semua hewan menavigasi dunia dengan mentransformasikan koordinat secara real-time, dan manusia memiliki representasi koordinat paling banyak di antara mereka
Saya pikir kecerdasan setingkat manusia berarti mengetahui kapan dan bagaimana mengubah sistem koordinat untuk mengekstrak informasi yang berguna
Tulisan itu dibuat sebelum ledakan LLM, tetapi saya masih percaya arah ini benar
- Saya pernah punya gagasan serupa pada 1990-an
  Ini berlanjut ke riset deteksi tabrakan, animasi berbasis fisika, penyelesaian persamaan nonlinier, dan locomotion berkaki di medan kasar, tetapi itu bukan AI
  Sekarang pendekatannya cenderung berharap bahwa dengan memasukkan komputasi dalam jumlah besar, sistem pembelajaran akan menemukan sendiri representasi internal dunia spasial
  Berjalan pada robot sudah lumayan bagus, tetapi manipulasi di lingkungan tak terstruktur masih sangat buruk
  Bahkan dibandingkan dengan video lab McCarthy di Stanford pada 1960-an pun tidak banyak berbeda
  Dulu saya pikir kita harus lebih dulu mencapai kecerdasan setingkat tikus atau tupai sebelum level manusia, jadi saya terkejut justru AI abstrak yang muncul lebih dahulu
  Belakangan ini saya tertarik pada riset generasi video yang memprediksi adegan berikutnya dari video pendek
  Menurut saya inti dari common sense adalah kemampuan memprediksi “apa yang akan terjadi berikutnya” dalam waktu singkat
- Menarik bahwa Anda dan pasangan Moser (peraih Nobel) sama-sama percaya bahwa grid cell adalah kunci bagi hewan untuk memahami posisinya di dunia
  Siaran pers Nobel terkait juga layak dilihat
- Saya berhenti setelah beberapa paragraf karena definisi ‘kecerdasan spasial’ tidak kunjung muncul
  Terlalu banyak istilah tren ala VC seperti “transform”, “revolutionize”, “next frontier”, dan “North Star”, jadi kepercayaannya turun
- Makalahnya bagus, terutama daftar referensinya yang menarik
  "Vector-based navigation using grid-like representations in artificial agents" dari Nature 2018,
  "Modeling hippocampal spatial cells in rodents navigating in 3D environments" dari Nature 2024,
  dan simulasi grid-cell dari DeepMind juga layak dilihat bersama
  Dalam neurosains, riset tentang persepsi spasial sudah dilakukan sejak lama
- Pada akhirnya yang penting adalah apakah kita bisa mendapatkan wawasan yang benar-benar bermakna dari riset seperti ini
  Menyalin sistem biologis secara mentah hampir selalu gagal
  CNN memang terinspirasi dari otak, tetapi secara struktural berbeda, dan LLM hampir tidak mirip dengan otak manusia
  Kemiripan fungsional LLM bukan berasal dari peniruan struktur otak, melainkan dari proses pelatihannya
Ini pada akhirnya hanya sistem simulasi yang bekerja di dunia virtual yang sempit
Sistem seperti ini hampir tidak membantu untuk mempelajari dinamika kompleks dunia nyata
Model dunia virtual hanyalah kasus khusus yang disederhanakan dari model dunia fisik, dan saya tidak melihat bukti bahwa perusahaan ini telah membuat kemajuan substantif di bidang kecerdasan spasial
Baru-baru ini saya menerapkan agentic coding ke CAD dan mendapat pengalaman yang luar biasa
Saya perlu menambahkan ulir ke model cetak 3D, dan menggunakan geometri komputasional agar agen bisa ‘merasakan’ model tersebut
Saya melakukan konvolusi radius bola ke seluruh model untuk menemukan lokasi port lalu menambahkan ulir
Setelah beberapa percobaan akhirnya berhasil, dan pengalaman ini membuat saya sadar bahwa model perlu memiliki ‘indra peraba’
Pada akhirnya model 3D harus diimplementasikan sebagai kode agar bisa diverifikasi
- Potensi Generative CAD sangat besar
  Saya pernah bereksperimen dengan OpenSCAD, tetapi model saat ini masih kurang punya common sense tentang keterhubungan bentuk
  Jika ada lebih banyak dataset CAD berbasis kode, hasilnya akan jauh lebih berguna
  Kalau tidak, pada akhirnya kita akan membutuhkan pembelajaran berbasis simulasi fisika
- Saya penasaran apakah Anda memakai CadQuery, dan kalau ada tulisan yang merangkum pelajaran yang didapat saya ingin membacanya
- Saya ingin tahu lebih rinci proses implementasinya, dan juga penasaran apakah ada rencana menuliskannya
- Saya juga sedang bereksperimen dengan pendekatan objek 3D generatif, jadi ingin mendengar lebih banyak
- Tidak seperti prompt LLM, menjelaskan objek geometris dengan teks itu benar-benar sulit
  Mudah sekali jatuh ke ambiguitas setingkat “jangan taruh itu di sana, taruh di sini”
Genie 3 sudah sampai pada tingkat tertentu dalam mewujudkan tujuan yang ia sebutkan, yaitu model dunia yang dapat dikendalikan dengan hukum fisika yang konsisten
Model saudaranya, Veo 3, juga menunjukkan kemampuan pemecahan masalah spasial
Genie dan Veo jauh lebih dekat ke visinya dibanding World Labs
Tetapi karena tulisannya sama sekali tidak menyebut model Google, rasanya seperti tulisan promosi perusahaan sendiri
- Gemini ER juga merupakan model yang bekerja secara spasial di dunia nyata
  Lihat DeepMind Gemini Robotics ER
Saat ini AI hanya belajar dari web, dan tidak belajar dari interaksi dengan manusia
Manusia belajar melalui konteks dan memori seumur hidup, tetapi bagi AI konteks itu hilang begitu percakapan selesai
Jika ada memori konteks besar yang dipersonalisasi, nilainya akan jauh lebih tinggi
- Nested Learning dari Google Research mungkin bisa menjadi solusi untuk masalah ini
  Pendekatan yang ada sekarang menimbulkan catastrophic forgetting saat pelatihan tambahan dilakukan, tetapi Nested Learning membaginya ke banyak model kecil agar pelatihan ulang tidak merusak bagian lain
- ‘Konteks’ manusia adalah hasil dari akumulasi evolusioner selama miliaran tahun
  Pemahaman spasial yang kita miliki sangat besar, seperti simulasi kuantum berskala kosmis
  Sebaliknya, hal yang saat ini bisa kita simulasikan secara penuh baru sebatas tingkat atom atau sel
Saat membaca tulisan ini saya terpikir bahwa contoh pertama ketika manusia ‘berpikir melampaui alam’ adalah roda
Alam itu bergelombang, tetapi manusia membuat jalan datar sehingga gerakan menggelinding menjadi mungkin
Perkembangan sains dan teknologi adalah contoh lain yang memungkinkan pewarisan intuisi pola antargenerasi
Saya tidak tahu apakah ‘superinteligensi’ mungkin hadir dalam bentuk selain kecepatan, tetapi kemampuan berpikir tiga dimensi tampaknya akan menjadi syarat penting agar AI melampaui manusia dan alam
- Tubuh manusia adalah sistem terorganisasi dari sel-sel yang bekerja sama
  Sebagaimana pembuluh darah mengalirkan nutrisi dan sinyal, jalan juga mengangkut sumber daya
  Mungkin alam hanya memperluas kemampuan organisasional itu ke tingkat spesies, sehingga dasar untuk mengatakan manusia berada di atas alam pun lemah
Kognisi manusia adalah bangunan yang berdiri di atas kecerdasan spasial
Itu bukan sesuatu yang terbentuk dari pemikiran abstrak saja, melainkan pengalaman terpadu yang berlandaskan indra
Evolusi mencapai generalisasi bukan melalui otak simbolik, melainkan melalui peleburan indra
Kecerdasan bukan lahir dari algoritme, tetapi dari keselarasan yang konsisten antarsensor
Kelengkapan indrawi itulah arah yang seharusnya kita tuju
Saya sedang mengikuti tulisan blog yang merangkum kondisi penalaran spasial pada LLM
Kesimpulannya… jalan yang harus ditempuh masih panjang
Spatial token mungkin bisa membantu, tetapi tidak wajib
Banyak masalah fisika masih bisa diselesaikan dengan kertas dan pena
Menarik bahwa gambar 512×512 dapat direpresentasikan dengan 85 token, dan video dengan 263 token per detik
Ini tampak seperti persoalan keseimbangan baru antara memori dan embedding
Seperti pertanyaan “bisakah kamu memutar apel di dalam kepala?”, embedding spasial akan memungkinkan pemahaman intuitif atas dinamika
Di tim kami, FlyShirley, kami juga meneliti area ini lewat simulasi pelatihan pilot, dan berencana mencoba model Fei-Fei
Karena pembelajaran dan penalaran berbasis video memerlukan sumber daya komputasi yang sangat besar,
saya ragu pendekatan seperti ini benar-benar akan membantu untuk asisten agen (coding, pemasaran, manajemen jadwal, dan sebagainya)
Sebaliknya, saya pikir ini akan memiliki struktur komputasi yang lebih menguntungkan di bidang robotika

Kecerdasan spasial adalah frontier AI berikutnya

Konsep dan pentingnya kecerdasan spasial

World model: arsitektur AI baru untuk mewujudkan kecerdasan spasial

Riset World Labs dan tantangan teknis

Bidang penerapan kecerdasan spasial

Kreativitas dan produksi konten

Robotika

Sains, medis, pendidikan

Visi perkembangan AI yang berpusat pada manusia

Kesimpulan

Bacaan terkait

1 komentar

Opini Hacker News