- Kecerdasan spasial (spatial intelligence) adalah bidang kunci yang secara fundamental mengubah cara AI memahami dan berinteraksi dengan dunia nyata maupun virtual
- Model bahasa skala besar (LLM) saat ini unggul dalam pemrosesan bahasa, tetapi kemampuan penalaran spasial seperti jarak, arah, dan konsistensi fisik masih belum setara dengan manusia
- Sebagai pendekatan baru untuk mengatasi hal ini, diajukan 'world model', yaitu arsitektur model generatif generasi berikutnya yang memiliki sifat generatif, multimodal, dan interaktif
- World Labs sedang mengembangkan model semacam ini, dan versi awal bernama 'Marble' mendemonstrasikan kemampuan untuk menghasilkan dan mempertahankan lingkungan 3D yang konsisten berdasarkan berbagai masukan
- Kecerdasan spasial adalah tahap berikutnya dalam perkembangan AI yang memperkuat kemampuan manusia di berbagai bidang seperti kreativitas, robotika, sains, medis, dan pendidikan
Konsep dan pentingnya kecerdasan spasial
- Kecerdasan manusia berevolusi berdasarkan perception-action loop (siklus persepsi-tindakan), dan kecerdasan spasial adalah elemen inti yang memungkinkan hal tersebut
- Tindakan sehari-hari seperti memarkir mobil, mengambil barang, dan bergerak di lingkungan kompleks semuanya bergantung pada penalaran spasial
- Dalam proses perkembangan anak sebelum bahasa pun, rasa spasial diperoleh melalui interaksi dengan lingkungan
- Kreativitas dan imajinasi juga berlandaskan kecerdasan spasial
- Dari lukisan gua hingga film, game, dan virtual reality (VR), manusia mengekspresikan dunia melalui pemikiran spasial
- Simulasi spasial juga memainkan peran penting dalam desain industri, digital twin, dan pelatihan robot
- Secara historis, kecerdasan spasial juga menjadi penggerak perkembangan peradaban
- Perhitungan keliling bumi oleh Eratosthenes, inovasi struktur Spinning Jenny, dan penemuan struktur DNA semuanya merupakan hasil pemikiran spasial
- AI saat ini telah maju dalam pengenalan visual dan kemampuan generasi, tetapi masih kurang dalam pemahaman jarak, arah, dan hukum fisika serta konsistensi spasial
- Bahkan model multimodal terbaru pun menunjukkan kinerja rendah dalam rotasi objek, penelusuran labirin, dan prediksi fisik
- Keterbatasan ini membatasi penerapan di dunia nyata seperti kontrol robot, kendaraan otonom, dan pembelajaran imersif
World model: arsitektur AI baru untuk mewujudkan kecerdasan spasial
- Untuk mewujudkan kecerdasan spasial, dibutuhkan world model yang lebih kompleks daripada LLM
- Model ini harus memahami, menghasilkan, dan berinteraksi secara terpadu dengan kompleksitas semantik, fisik, geometris, dan dinamis dari dunia nyata maupun virtual
- Tiga kemampuan inti world model
- Generatif (Generative): menghasilkan dunia yang konsisten secara perseptual, geometris, dan fisik
- Mensimulasikan ruang nyata atau virtual sambil mempertahankan kontinuitas antara keadaan saat ini dan keadaan sebelumnya
- Multimodal (Multimodal): memproses dan mengintegrasikan berbagai input seperti gambar, video, teks, dan gestur
- Harus memiliki fidelitas visual sekaligus kemampuan interpretasi semantik
- Interaktif (Interactive): memprediksi dan menghasilkan keadaan berikutnya sesuai tindakan yang diberikan
- Jika keadaan tujuan diberikan, model juga harus mampu memprediksi perubahan dunia dan tindakan yang sesuai
- Karena harus secara konsisten merefleksikan hukum fisika, struktur geometris, dan dinamika yang jauh lebih kompleks daripada generasi bahasa, tingkat kesulitan teknisnya sangat tinggi
Riset World Labs dan tantangan teknis
- World Labs didirikan pada awal 2024 dan sedang melakukan riset world model yang berpusat pada kecerdasan spasial
- Topik riset utama
- Definisi fungsi pembelajaran universal: menetapkan tujuan pembelajaran yang sesederhana 'prediksi token berikutnya' pada LLM, tetapi tetap mencerminkan hukum fisika dan geometri
- Data pelatihan berskala besar: memanfaatkan banyak sumber seperti gambar dan video internet, data sintetis, serta informasi kedalaman dan taktil
- Arsitektur model baru: meneliti tokenisasi dan struktur memori berbasis persepsi 3D dan 4D
- Contoh: RTFM (Real-Time Frame-based Model) menggunakan frame spasial sebagai memori untuk memungkinkan generasi real-time dan menjaga konsistensi
- Hasil awal bernama Marble menghasilkan dan mempertahankan lingkungan 3D yang konsisten dari berbagai input, dan telah didemonstrasikan kepada sebagian pengguna
- Saat ini masih dikembangkan dengan target rilis di masa mendatang
Bidang penerapan kecerdasan spasial
Kreativitas dan produksi konten
- Marble menyediakan kemampuan menciptakan dunia 3D yang sepenuhnya dapat dijelajahi bagi pembuat film, desainer game, arsitek, dan lainnya
- Berbagai adegan dan sudut pandang dapat diuji tanpa batasan anggaran maupun geografis
- Menciptakan pengalaman imersif dalam storytelling, seni, pendidikan, dan desain
- Perancangan naratif spasial dapat mempersingkat proses visualisasi dalam arsitektur, industri, dan desain fesyen
- Dengan perluasan pengalaman imersif berbasis VR dan XR, kreator individu pun dapat membangun dunia mereka sendiri
Robotika
- Hambatan utama dalam pembelajaran robot adalah kekurangan data pelatihan, dan world model dapat membantu mengatasinya
- Kesenjangan antara simulasi dan dunia nyata dapat diperkecil sehingga pelatihan di berbagai lingkungan menjadi memungkinkan
- Kecerdasan spasial sangat penting untuk mewujudkan robot kolaboratif dengan manusia
- Pengembangan robot yang dapat memahami tujuan dan tindakan manusia serta bekerja sama di laboratorium, rumah, dan lingkungan lain
- Juga dapat dimanfaatkan untuk membangun lingkungan pelatihan dan benchmark bagi berbagai bentuk robot—nanobot, robot lunak, robot laut dalam, dan robot untuk luar angkasa
Sains, medis, pendidikan
- Riset sains: mempercepat eksperimen melalui simulasi multidimensi dan menurunkan biaya komputasi dalam riset iklim, material, dan lainnya
- Medis: perluasan pemanfaatan AI berbasis kecerdasan spasial dalam penemuan obat, diagnosis berbasis pencitraan, dan pemantauan pasien
- Pendidikan: memvisualisasikan konsep yang kompleks dan menyediakan lingkungan belajar imersif yang dipersonalisasi untuk pelajar
- Siswa dapat menjelajahi struktur sel atau peristiwa sejarah, sementara para profesional dapat melatih keterampilan melalui simulasi yang realistis
Visi perkembangan AI yang berpusat pada manusia
- Tujuan pengembangan AI adalah memperkuat kemampuan manusia, bukan menggantikannya
- AI harus berkembang ke arah yang meningkatkan kreativitas, produktivitas, konektivitas, dan kepuasan hidup
- Kecerdasan spasial diposisikan sebagai teknologi yang memperluas imajinasi, kepedulian, dan kemampuan eksplorasi manusia
- Untuk mewujudkan visi ini, dibutuhkan kolaborasi seluruh ekosistem AI termasuk peneliti, perusahaan, dan pembuat kebijakan
Kesimpulan
- AI telah mengubah masyarakat secara luas, tetapi kecerdasan spasial diajukan sebagai inovasi tahap berikutnya
- Melalui world model, menjadi mungkin mengembangkan mesin yang cerdas secara spasial dan dapat berinteraksi secara selaras dengan dunia nyata
- Ini dinilai sebagai titik balik teknologi yang meningkatkan aktivitas inti manusia seperti riset penyakit, storytelling, dan perawatan
- Seperti evolusi kecerdasan manusia yang dimulai dari kecerdasan spasial, diajukan pula visi bahwa penyempurnaan AI juga akan tuntas melalui kecerdasan spasial
Belum ada komentar.