- Para peneliti menunjukkan bahwa penggunaan timing dan sinkronisasi oleh neuron otak dalam komputasi adalah elemen kunci yang diabaikan dalam AI modern
- Memperkenalkan arsitektur Continuous Thought Machine(CTM) untuk menerapkan dinamika saraf berbasis waktu dari otak hewan ke model nyata
- CTM memproses informasi dengan memanfaatkan dimensi pemikiran internal yang asinkron, model pada tingkat neuron individual, serta representasi sinkronisasi antar-neuron
- Dalam berbagai eksperimen, mereka mengonfirmasi kemampuan komputasi adaptif, memori berbasis sinkronisasi saraf, dan kemampuan generalisasi yang kuat
- Membuktikan kemudahan interpretasi arsitektur CTM, kelayakan biologis, dan kecocokan untuk berbagai tugas
tl;dr
- Karakteristik timing dan sinkronisasi yang digunakan neuron otak dalam komputasi adalah kunci fleksibilitas dan kemampuan adaptasi kecerdasan biologis
- AI modern mengabaikan karakteristik berbasis waktu ini demi efisiensi dan kesederhanaan
- Tim peneliti menemukan cara untuk menjembatani kesenjangan antara kelayakan biologis yang menempatkan timing neuron sebagai hal penting dan implementasi AI modern yang efisien
- Hasil ini menunjukkan sesuatu yang sangat tak terduga sekaligus menjanjikan
Introduction
- Neural Network(NN) pada awalnya terinspirasi dari otak biologis, tetapi NN masa kini memiliki struktur dan dinamika yang sangat berbeda dari otak nyata
- NN modern memungkinkan deep learning skala besar dengan menghilangkan dinamika temporal, tetapi ini berarti menjauh dari landasan biologisnya
- Otak memanfaatkan dinamika saraf yang kompleks seperti spike-timing-dependent plasticity(STDP) dan sinkronisasi neuron
- Prinsip pemrosesan temporal ini kurang hadir dalam AI modern, sehingga menjadi hambatan untuk berkembang menuju kecerdasan fleksibel setingkat manusia
- Karena itu, kemampuan pemrosesan waktu harus menjadi elemen inti dalam kecerdasan buatan
Why do this research?
- Terlepas dari performa tinggi AI modern, masih ada perbedaan mendasar dalam fleksibilitas kognitif manusia dan generalitas
- Agar AI dapat melampaui pencapaian otak manusia, ia perlu secara aktif meniru aktivitas saraf dan timing
- Dalam riset ini, Continuous Thought Machine(CTM) memperkenalkan timing neuron sebagai elemen inti
- Kontribusi utamanya adalah pemisahan dimensi pemikiran internal, model saraf pada tingkat neuron individual, dan struktur representasi berbasis sinkronisasi
Reasoning models and recurrence
- AI semakin berkembang dari pemetaan input-output sederhana menuju model penalaran yang aktif
- Struktur rekuren seperti RNN belakangan digantikan oleh Transformer, tetapi rekurensi itu sendiri tetap berguna untuk memperluas kompleksitas model
- Model generasi teks modern dan sejenisnya menggunakan generasi antara (Recurrence) pada waktu inferensi, yang memberi komputasi tambahan dan fleksibilitas
- CTM berbeda dari pendekatan sebelumnya karena memanfaatkan dimensi pemikiran internal yang terpisah dan bertahap, timing pada tingkat neuron individual, serta sinkronisasi itu sendiri sebagai representasi untuk menyelesaikan tugas
Method
Gambaran arsitektur
- CTM adalah arsitektur tempat aktivitas saraf berkembang secara internal terhadap data
- Pada setiap langkah, riwayat
pre-activation dikumpulkan dan dimasukkan ke Neuron Level Model(NLM)
- Berdasarkan riwayat
post-activation dari banyak neuron, dihitung matriks sinkronisasi neuron untuk membentuk representasi sinkronisasi yang kuat
- Representasi sinkronisasi digunakan sebagai vektor laten inti untuk observasi dan prediksi model
Struktur rinci
1. Internal recurrence(rekurensi internal)
- Memanfaatkan dimensi rekurensi internal dengan ruang terpisah tempat progres pemikiran berkembang
- Setiap internal tick bekerja sebagai unit pemikiran mandiri terlepas dari data deret waktu eksternal
2. Neuron-level models(model tingkat neuron)
- Setiap neuron memiliki struktur MLP yang dipersonalisasi, menerima riwayat pendek
pre-activation sebagai input dan menghasilkan post-activation
3. Synchronization as representation(representasi sebagai sinkronisasi)
- Menghitung matriks sinkronisasi neuron dari seluruh
post-activation dalam periode tertentu, lalu menjadikannya representasi laten/vektor aksi utama
Hubungan dengan data input
- Data digunakan secara komplementer dengan pendekatan pemrosesan yang berpusat pada rekurensi internal dan sinkronisasi
- Observasi dan prediksi data input dilakukan sesuai dengan keadaan sinkronisasi
Internal ticks: dimensi pemikiran
- CTM memiliki timeline pemikirannya sendiri, dan secara internal berulang kali memperbarui serta memurnikan informasi tanpa bergantung pada urutan data
- Pada dimensi ini, perkembangan aktivitas cerdas terjadi
Recurrent weights: Synapses
pre-activation dihasilkan melalui MLP bergaya U-NET, sambil mempertahankan M nilai terbaru
- Setiap neuron menerima vektor riwayat (deret waktu
pre-activation) melalui MLP individual untuk menghasilkan post-activation
Synchronization as a representation
- Model berinteraksi dengan dunia luar melalui matriks sinkronisasi antar-neuron
- Nilai sinkronisasi digunakan langsung sebagai indikator perilaku nyata seperti output, observasi, dan attention query
- Saat lebar model D membesar, daya representasi dan jumlah informasi meningkat secara kuadratik
- Ketika digabungkan dengan modul data input seperti attention, model menunjukkan kemampuan pemrosesan informasi yang lebih kuat
Loss function
- Pada setiap internal tick, model menghasilkan output dan menghitung loss serta confidence(1-entropi ternormalisasi) yang sesuai
- Total loss secara dinamis mengagregasi titik loss minimum dan titik confidence maksimum, sehingga mendorong pembelajaran adaptif sesuai tingkat kesulitan masalah
Experiment: ImageNet
Demonstrations
- CTM melakukan prediksi pada data gambar dengan memanfaatkan berbagai attention head dan sinkronisasi saraf
- Mereka memvisualisasikan akurasi, calibration, dan berbagai metrik berdasarkan ambang confidence
Results
- CTM menyesuaikan tahap berpikir melalui adaptive compute, dan diamati bahwa manfaat tambahan setelah tahap tertentu hanya kecil
- 16 attention head, prediksi kelas/akurasi di tiap tahap, serta aktivitas neuron divisualisasikan bersama
Discussion
- CTM menekankan interaksi yang intuitif dan fleksibel dengan data
- Melalui representasi berbasis sinkronisasi neuron, CTM juga jelas berbeda dari pendekatan lama dalam pengenalan visual
- Hal ini menyiratkan bahwa elemen waktu(TIME) secara mendasar terkait dengan cara manusia memproses informasi
Experiment: Solving 2D Mazes
The why and the how
- Menyelesaikan labirin 2D adalah tugas yang sangat sulit bagi model jaringan saraf tanpa alat bantu
- CTM dilatih dengan pendekatan prediksi jalur langsung (L/R/U/D/W), dan pola attention sengaja dibuat selaras dengan jalur sebenarnya
- Dalam uji generalisasi, model mampu menyelesaikan labirin yang kompleks dan panjang dengan akurasi/generalisasi tinggi
Results & Discussion
- Bahkan pada jalur terpanjang, CTM menunjukkan performa yang jauh melampaui baseline yang ada
- Dengan membentuk world model internal yang strategis dan mirip manusia, CTM menunjukkan kemampuan reasoning yang nyata, bukan sekadar hafalan
A World Model
- Bahkan tanpa position encoding, model menyelesaikan masalah dengan membentuk model lingkungan internal hanya dari informasi visual
Experiment: Parity
- Model dilatih untuk memprediksi parity bertingkat dari sekuens biner (jumlah genap/ganjil) dalam kondisi seluruh input diberikan
- Saat menggunakan lebih dari 75 internal thought tick, CTM dapat mencapai akurasi 100%
- LSTM menjadi tidak stabil saat jumlah internal thought tick bertambah
Learning sequential algorithms
- Dari pergerakan attention head dan pola aktivasi neuron, CTM mempelajari strategi menelusuri data secara maju/mundur secara mandiri
- Ini menjadi bukti kemampuan perencanaan strategis(Planning) dan eksekusi bertahap
Experiment: Q&A MNIST
Memory via Synchronization
- Tugas MNIST Q&A digunakan untuk menguji kemampuan memori jangka panjang/pengambilan kembali pada CTM
- Bahkan setelah gambar input keluar dari jendela riwayat aktivasi neuron, informasi memori jangka panjang tetap disimpan/diambil kembali melalui sinkronisasi
Results & Generalization
- Performa meningkat seiring bertambahnya jumlah internal thought tick, dan kemampuan generalisasi terhadap pertanyaan/panjang yang kompleks sangat menonjol
- LSTM tidak stabil pada tick yang lebih banyak, sedangkan CTM belajar dan bernalar secara konsisten
Additional experiments
CTM versus humans
- Perbandingan performa manusia, feedforward, LSTM, dan CTM pada CIFAR-10
- Dalam Calibration(kesesuaian prediksi probabilitas), CTM lebih unggul daripada manusia
- Dinamika sinkronisasi saraf menunjukkan karakteristik internal yang sangat beragam dan kompleks, berbeda dari pendekatan yang ada
CIFAR-100, ablation studies
- Diamati bahwa semakin lebar model, semakin meningkat keragaman/dinamika neuron
- Berdasarkan jumlah internal tick, terungkap proses berpikir internal yang berbeda-beda sesuai masalah (distribusi
dua puncak)
Sorting real numbers
- Dalam eksperimen mengurutkan 30 bilangan riil, CTM menunjukkan emergent behavior di mana waktu komputasi internal(waiting tick) berubah sesuai jarak/celah antar-nilai
Reinforcement Learning
- Dalam lingkungan RL seperti MiniGrid, CartPole, CTM menggunakan unit pemikiran berkelanjutan internal untuk berinteraksi dengan lingkungan dan mengambil keputusan kebijakan
- CTM menunjukkan performa akhir yang mirip dengan LSTM, sekaligus membuktikan efek dari rekaman pemikiran berkelanjutan
Conclusion
- CTM mencapai perpaduan antara kelayakan biologis dan efisiensi AI dengan cara yang baru
- Dengan penerapan model tingkat neuron dan cara representasi baru berbasis sinkronisasi saraf, CTM mewujudkan kemampuan representasi yang belum pernah terlihat sebelumnya
- Pada berbagai tugas seperti klasifikasi gambar, penyelesaian labirin, memori, pengurutan, dan RL, CTM menunjukkan konsistensi arsitektur dan kemampuan adaptasi yang tinggi
- Penelitian ini membuktikan sinergi antara neurosains dan machine learning, serta pentingnya merancang mesin berpikir yang berpusat pada waktu dan sinkronisasi
1 komentar
Opini Hacker News
Alasan makalah ini terasa mengkhawatirkan adalah karena di bidang machine learning yang sudah ada, sebenarnya sudah sangat banyak riset tentang spiking neural network yang masuk akal secara biologis dan artificial neural network yang bergantung pada waktu, tetapi istilah dan pendekatan dalam makalah ini terasa tidak benar-benar mengakui kumpulan riset terdahulu yang sangat besar itu, khususnya penyebutan tahap integrasi sinaptik sebagai “berpikir(thinking)” yang menurut saya bisa membingungkan orang, karena berpikir adalah proses yang bagi orang awam berarti pengulangan menghasilkan ide, mengevaluasi, dan merevisi, sedangkan makalah ini menempelkan istilah itu pada level proses unit tunggal, ini juga sangat jauh dari istilah ANN maupun machine learning yang sudah ada, pelabelan “berpikir” ini terasa tidak tepat, saya belum menelusuri semua sitasinya dan ini hanyalah reaksi langsung terhadap cara penulisannya dalam jalur riset yang saya kenal
Senang sekali melihat fokus kembali ke topik penting ini, dalam konteks otak biologis dan tubuh, “waktu” mudah dipahami sebagai waktu linear ala Newton, tetapi yang penting dalam sistem otak-tubuh adalah menciptakan urutan perilaku dan komputasi yang teratur di dalam berbagai potongan “masa kini”, mulai dari 300ms “representational present” hingga 50 mikrodetik pada sel yang mengevaluasi lokasi suara, jika ingin tahu lebih banyak tentang temporality yang bersyarat ini, ada baiknya melihat makalah terbaru di European Journal of Neuroscience di mana John Bickle mewawancarai RW Williams
Kesan saya setelah membaca makalah ini adalah bahwa sebenarnya makalah ini sama sekali tidak mirip jaringan biologis/spiking, makalah ini mempertahankan riwayat input dan memakai multi-head attention untuk membangun model internal tentang bagaimana input “pra-sinaptik” masa lalu memengaruhi keluaran saat ini, ini adalah struktur yang menjaga riwayat input dan menghasilkan keluaran dengan attention, semacam transformer yang sedikit dimodifikasi, “sinkronisasi” di sini juga diperoleh dengan mengambil hasil kali dalam dari seluruh post-activation, lalu matriks hasil inner product ini diproyeksikan ke ruang keluaran, karena banyak keluaran harus dikalikan untuk menghasilkan nilai yang benar pada setiap timestep, sepertinya penggabungan ini disebut “sinkronisasi”, ini tampak seperti semacam dorongan menuju “sparsity” yang menekankan pentingnya kombinasi dibanding individualitas tiap nilai, dengan menggabungkan banyak nilai keluaran ke dalam matriks, cara ini adalah mekanisme dasar attention yang menggabungkan keluaran dari beberapa subsistem lewat inner product
Ada tiga hal menarik akhir pekan ini: 1) continuous thought machines (jaringan saraf pengodean deret waktu yang mirip otak biologis), 2) “zero data reasoning” (AI yang belajar melalui tindakan langsung alih-alih dilatih lebih dulu dengan data masif), 3) Intellect-2 (arsitektur reinforcement learning yang terdistribusi secara global), dari sudut pandang non-ahli rasanya seperti selangkah lebih dekat ke singularity
Menerapkan mekanisme pengodean deret waktu seperti spike timing dan sinkronisasi sangat sulit, karena itu jaringan saraf modern lebih berfokus pada kesederhanaan dan efisiensi komputasi daripada dinamika temporal, mensimulasikan domain waktu yang sesungguhnya juga sangat sulit dari sisi hardware, terutama karena menambah satu sumbu hyperparameter tersendiri sehingga mencari kombinasi parameter yang valid menjadi nyaris mustahil, mencari arsitektur yang efisien secara komputasi jauh lebih cepat, jadi jika spike muncul pada timestep masa depan, akan terbentuk struktur kejadian seperti priority queue dan beban komputasi melonjak drastis, kecuali jika tujuan utamanya benar-benar “interaksi hard real-time”, dari sudut pandang praktis dan produk saya rasa mengejar struktur seperti ini tidak terlalu berarti, STDP (perubahan bobot berdasarkan perbedaan waktu spike) untuk pembelajaran online tanpa supervisi masih terasa sangat menarik, tetapi untuk sementara tampaknya belum ada jalan di atas silikon, memakai hardware khusus pada dasarnya seperti memaku sebagian hyperparameter menjadi konstanta di dalam kode, sehingga sulit menjamin kepastian dan pendanaannya pun jadi kurang memadai
Ide dasar mesin-mesin ini sebenarnya bukan sesuatu yang sepenuhnya baru, pada makalah tahun 2002 diperkenalkan Liquid State Machines (LSM), di mana LSM memasok input kontinu ke spiking neural network lalu membaca liquid state melalui dense layer yang terhubung ke neuron-neuron di seluruh jaringan, dalam makalah tahun 2019 LSM dipakai untuk memainkan game Atari, kadang bisa melampaui manusia tetapi tidak selalu, dan juga ditemukan kecenderungan gagal yang mirip dengan keterbatasan jaringan saraf yang sudah ada, performanya tidak terlalu lebih tinggi dibanding jaringan saraf tradisional, saya berharap ada lebih banyak minat pada riset jaringan saraf yang memproses input secara kontinu (misalnya audio), menghasilkan keluaran secara kontinu, dan hanya menerapkan prinsip plasticity otak (tanpa backpropagation), saya sendiri juga pernah mencoba, tetapi mungkin karena kita belum cukup memahami cara kerja otak, saya masih belum tahu jawaban yang benar-benar memuaskan
Ironisnya, halaman web ini terus me-refresh di firefox iOS
Kunci model generasi berikutnya adalah prinsip “neurons that fire together wire together”, saya rasa spiking neural network sangat menarik sebagai pendekatan alternatif