2 poin oleh GN⁺ 2025-05-13 | 1 komentar | Bagikan ke WhatsApp
  • Para peneliti menunjukkan bahwa penggunaan timing dan sinkronisasi oleh neuron otak dalam komputasi adalah elemen kunci yang diabaikan dalam AI modern
  • Memperkenalkan arsitektur Continuous Thought Machine(CTM) untuk menerapkan dinamika saraf berbasis waktu dari otak hewan ke model nyata
  • CTM memproses informasi dengan memanfaatkan dimensi pemikiran internal yang asinkron, model pada tingkat neuron individual, serta representasi sinkronisasi antar-neuron
  • Dalam berbagai eksperimen, mereka mengonfirmasi kemampuan komputasi adaptif, memori berbasis sinkronisasi saraf, dan kemampuan generalisasi yang kuat
  • Membuktikan kemudahan interpretasi arsitektur CTM, kelayakan biologis, dan kecocokan untuk berbagai tugas

tl;dr

  • Karakteristik timing dan sinkronisasi yang digunakan neuron otak dalam komputasi adalah kunci fleksibilitas dan kemampuan adaptasi kecerdasan biologis
  • AI modern mengabaikan karakteristik berbasis waktu ini demi efisiensi dan kesederhanaan
  • Tim peneliti menemukan cara untuk menjembatani kesenjangan antara kelayakan biologis yang menempatkan timing neuron sebagai hal penting dan implementasi AI modern yang efisien
  • Hasil ini menunjukkan sesuatu yang sangat tak terduga sekaligus menjanjikan

Introduction

  • Neural Network(NN) pada awalnya terinspirasi dari otak biologis, tetapi NN masa kini memiliki struktur dan dinamika yang sangat berbeda dari otak nyata
  • NN modern memungkinkan deep learning skala besar dengan menghilangkan dinamika temporal, tetapi ini berarti menjauh dari landasan biologisnya
  • Otak memanfaatkan dinamika saraf yang kompleks seperti spike-timing-dependent plasticity(STDP) dan sinkronisasi neuron
  • Prinsip pemrosesan temporal ini kurang hadir dalam AI modern, sehingga menjadi hambatan untuk berkembang menuju kecerdasan fleksibel setingkat manusia
  • Karena itu, kemampuan pemrosesan waktu harus menjadi elemen inti dalam kecerdasan buatan

Why do this research?

  • Terlepas dari performa tinggi AI modern, masih ada perbedaan mendasar dalam fleksibilitas kognitif manusia dan generalitas
  • Agar AI dapat melampaui pencapaian otak manusia, ia perlu secara aktif meniru aktivitas saraf dan timing
  • Dalam riset ini, Continuous Thought Machine(CTM) memperkenalkan timing neuron sebagai elemen inti
  • Kontribusi utamanya adalah pemisahan dimensi pemikiran internal, model saraf pada tingkat neuron individual, dan struktur representasi berbasis sinkronisasi

Reasoning models and recurrence

  • AI semakin berkembang dari pemetaan input-output sederhana menuju model penalaran yang aktif
  • Struktur rekuren seperti RNN belakangan digantikan oleh Transformer, tetapi rekurensi itu sendiri tetap berguna untuk memperluas kompleksitas model
  • Model generasi teks modern dan sejenisnya menggunakan generasi antara (Recurrence) pada waktu inferensi, yang memberi komputasi tambahan dan fleksibilitas
  • CTM berbeda dari pendekatan sebelumnya karena memanfaatkan dimensi pemikiran internal yang terpisah dan bertahap, timing pada tingkat neuron individual, serta sinkronisasi itu sendiri sebagai representasi untuk menyelesaikan tugas

Method

Gambaran arsitektur

  • CTM adalah arsitektur tempat aktivitas saraf berkembang secara internal terhadap data
  • Pada setiap langkah, riwayat pre-activation dikumpulkan dan dimasukkan ke Neuron Level Model(NLM)
  • Berdasarkan riwayat post-activation dari banyak neuron, dihitung matriks sinkronisasi neuron untuk membentuk representasi sinkronisasi yang kuat
  • Representasi sinkronisasi digunakan sebagai vektor laten inti untuk observasi dan prediksi model

Struktur rinci

1. Internal recurrence(rekurensi internal)

  • Memanfaatkan dimensi rekurensi internal dengan ruang terpisah tempat progres pemikiran berkembang
  • Setiap internal tick bekerja sebagai unit pemikiran mandiri terlepas dari data deret waktu eksternal

2. Neuron-level models(model tingkat neuron)

  • Setiap neuron memiliki struktur MLP yang dipersonalisasi, menerima riwayat pendek pre-activation sebagai input dan menghasilkan post-activation

3. Synchronization as representation(representasi sebagai sinkronisasi)

  • Menghitung matriks sinkronisasi neuron dari seluruh post-activation dalam periode tertentu, lalu menjadikannya representasi laten/vektor aksi utama

Hubungan dengan data input

  • Data digunakan secara komplementer dengan pendekatan pemrosesan yang berpusat pada rekurensi internal dan sinkronisasi
  • Observasi dan prediksi data input dilakukan sesuai dengan keadaan sinkronisasi

Internal ticks: dimensi pemikiran

  • CTM memiliki timeline pemikirannya sendiri, dan secara internal berulang kali memperbarui serta memurnikan informasi tanpa bergantung pada urutan data
  • Pada dimensi ini, perkembangan aktivitas cerdas terjadi

Recurrent weights: Synapses

  • pre-activation dihasilkan melalui MLP bergaya U-NET, sambil mempertahankan M nilai terbaru
  • Setiap neuron menerima vektor riwayat (deret waktu pre-activation) melalui MLP individual untuk menghasilkan post-activation

Synchronization as a representation

  • Model berinteraksi dengan dunia luar melalui matriks sinkronisasi antar-neuron
  • Nilai sinkronisasi digunakan langsung sebagai indikator perilaku nyata seperti output, observasi, dan attention query
  • Saat lebar model D membesar, daya representasi dan jumlah informasi meningkat secara kuadratik
  • Ketika digabungkan dengan modul data input seperti attention, model menunjukkan kemampuan pemrosesan informasi yang lebih kuat

Loss function

  • Pada setiap internal tick, model menghasilkan output dan menghitung loss serta confidence(1-entropi ternormalisasi) yang sesuai
  • Total loss secara dinamis mengagregasi titik loss minimum dan titik confidence maksimum, sehingga mendorong pembelajaran adaptif sesuai tingkat kesulitan masalah

Experiment: ImageNet

Demonstrations

  • CTM melakukan prediksi pada data gambar dengan memanfaatkan berbagai attention head dan sinkronisasi saraf
  • Mereka memvisualisasikan akurasi, calibration, dan berbagai metrik berdasarkan ambang confidence

Results

  • CTM menyesuaikan tahap berpikir melalui adaptive compute, dan diamati bahwa manfaat tambahan setelah tahap tertentu hanya kecil
  • 16 attention head, prediksi kelas/akurasi di tiap tahap, serta aktivitas neuron divisualisasikan bersama

Discussion

  • CTM menekankan interaksi yang intuitif dan fleksibel dengan data
  • Melalui representasi berbasis sinkronisasi neuron, CTM juga jelas berbeda dari pendekatan lama dalam pengenalan visual
  • Hal ini menyiratkan bahwa elemen waktu(TIME) secara mendasar terkait dengan cara manusia memproses informasi

Experiment: Solving 2D Mazes

The why and the how

  • Menyelesaikan labirin 2D adalah tugas yang sangat sulit bagi model jaringan saraf tanpa alat bantu
  • CTM dilatih dengan pendekatan prediksi jalur langsung (L/R/U/D/W), dan pola attention sengaja dibuat selaras dengan jalur sebenarnya
  • Dalam uji generalisasi, model mampu menyelesaikan labirin yang kompleks dan panjang dengan akurasi/generalisasi tinggi

Results & Discussion

  • Bahkan pada jalur terpanjang, CTM menunjukkan performa yang jauh melampaui baseline yang ada
  • Dengan membentuk world model internal yang strategis dan mirip manusia, CTM menunjukkan kemampuan reasoning yang nyata, bukan sekadar hafalan

A World Model

  • Bahkan tanpa position encoding, model menyelesaikan masalah dengan membentuk model lingkungan internal hanya dari informasi visual

Experiment: Parity

  • Model dilatih untuk memprediksi parity bertingkat dari sekuens biner (jumlah genap/ganjil) dalam kondisi seluruh input diberikan
  • Saat menggunakan lebih dari 75 internal thought tick, CTM dapat mencapai akurasi 100%
  • LSTM menjadi tidak stabil saat jumlah internal thought tick bertambah

Learning sequential algorithms

  • Dari pergerakan attention head dan pola aktivasi neuron, CTM mempelajari strategi menelusuri data secara maju/mundur secara mandiri
  • Ini menjadi bukti kemampuan perencanaan strategis(Planning) dan eksekusi bertahap

Experiment: Q&A MNIST

Memory via Synchronization

  • Tugas MNIST Q&A digunakan untuk menguji kemampuan memori jangka panjang/pengambilan kembali pada CTM
  • Bahkan setelah gambar input keluar dari jendela riwayat aktivasi neuron, informasi memori jangka panjang tetap disimpan/diambil kembali melalui sinkronisasi

Results & Generalization

  • Performa meningkat seiring bertambahnya jumlah internal thought tick, dan kemampuan generalisasi terhadap pertanyaan/panjang yang kompleks sangat menonjol
  • LSTM tidak stabil pada tick yang lebih banyak, sedangkan CTM belajar dan bernalar secara konsisten

Additional experiments

CTM versus humans

  • Perbandingan performa manusia, feedforward, LSTM, dan CTM pada CIFAR-10
  • Dalam Calibration(kesesuaian prediksi probabilitas), CTM lebih unggul daripada manusia
  • Dinamika sinkronisasi saraf menunjukkan karakteristik internal yang sangat beragam dan kompleks, berbeda dari pendekatan yang ada

CIFAR-100, ablation studies

  • Diamati bahwa semakin lebar model, semakin meningkat keragaman/dinamika neuron
  • Berdasarkan jumlah internal tick, terungkap proses berpikir internal yang berbeda-beda sesuai masalah (distribusi dua puncak)

Sorting real numbers

  • Dalam eksperimen mengurutkan 30 bilangan riil, CTM menunjukkan emergent behavior di mana waktu komputasi internal(waiting tick) berubah sesuai jarak/celah antar-nilai

Reinforcement Learning

  • Dalam lingkungan RL seperti MiniGrid, CartPole, CTM menggunakan unit pemikiran berkelanjutan internal untuk berinteraksi dengan lingkungan dan mengambil keputusan kebijakan
  • CTM menunjukkan performa akhir yang mirip dengan LSTM, sekaligus membuktikan efek dari rekaman pemikiran berkelanjutan

Conclusion

  • CTM mencapai perpaduan antara kelayakan biologis dan efisiensi AI dengan cara yang baru
  • Dengan penerapan model tingkat neuron dan cara representasi baru berbasis sinkronisasi saraf, CTM mewujudkan kemampuan representasi yang belum pernah terlihat sebelumnya
  • Pada berbagai tugas seperti klasifikasi gambar, penyelesaian labirin, memori, pengurutan, dan RL, CTM menunjukkan konsistensi arsitektur dan kemampuan adaptasi yang tinggi
  • Penelitian ini membuktikan sinergi antara neurosains dan machine learning, serta pentingnya merancang mesin berpikir yang berpusat pada waktu dan sinkronisasi

1 komentar

 
GN⁺ 2025-05-13
Opini Hacker News
  • Alasan makalah ini terasa mengkhawatirkan adalah karena di bidang machine learning yang sudah ada, sebenarnya sudah sangat banyak riset tentang spiking neural network yang masuk akal secara biologis dan artificial neural network yang bergantung pada waktu, tetapi istilah dan pendekatan dalam makalah ini terasa tidak benar-benar mengakui kumpulan riset terdahulu yang sangat besar itu, khususnya penyebutan tahap integrasi sinaptik sebagai “berpikir(thinking)” yang menurut saya bisa membingungkan orang, karena berpikir adalah proses yang bagi orang awam berarti pengulangan menghasilkan ide, mengevaluasi, dan merevisi, sedangkan makalah ini menempelkan istilah itu pada level proses unit tunggal, ini juga sangat jauh dari istilah ANN maupun machine learning yang sudah ada, pelabelan “berpikir” ini terasa tidak tepat, saya belum menelusuri semua sitasinya dan ini hanyalah reaksi langsung terhadap cara penulisannya dalam jalur riset yang saya kenal

    • Maaf, saya tadinya ingin membalas komentar ini, tetapi akhirnya meninggalkan balasan terpisah di thread komentar induk, upaya makalah ini untuk meniru jaringan spiking biologis tampak sangat longgar, dan kontribusi utamanya sebenarnya adalah penggunaan hasil kali titik (dot product) dengan transpose dari matriks keluaran, sementara sisanya adalah teknik diffusion/attention terhadap input, bentuknya seperti menggabungkan input attention dan output attention untuk membuat model rekursif bertingkat
    • Dalam 10~20 tahun terakhir, para peneliti machine learning yang mengakui riset terkait neurosains tampaknya sering dikritik sebagai pamer diri, jadi saya tidak terlalu terkejut
    • Makalah ini dipresentasikan seolah-olah sebuah ide baru, tetapi nyaris tidak menyebut puluhan tahun riset spiking neural net maupun bidang serupa
    • Saya akan berterima kasih jika ada yang mau membagikan daftar buku atau makalah yang menurut kalian paling memberi wawasan, atau ulasan singkat, tentang konsep dan implementasi algoritme yang terinspirasi biologis
    • Para penulis menjelaskan bahwa mereka tidak menyebut integrasi sinaps tunggal sebagai “berpikir”, melainkan menggunakan istilah itu pada loop internal seluruh jaringan untuk setiap input eksternal sebagai “internal tick”, dan secara eksplisit menulis bahwa itu mirip dengan “berpikir”
    • Apakah makalah ini ditulis oleh Jürgen Schmidhuber?
  • Senang sekali melihat fokus kembali ke topik penting ini, dalam konteks otak biologis dan tubuh, “waktu” mudah dipahami sebagai waktu linear ala Newton, tetapi yang penting dalam sistem otak-tubuh adalah menciptakan urutan perilaku dan komputasi yang teratur di dalam berbagai potongan “masa kini”, mulai dari 300ms “representational present” hingga 50 mikrodetik pada sel yang mengevaluasi lokasi suara, jika ingin tahu lebih banyak tentang temporality yang bersyarat ini, ada baiknya melihat makalah terbaru di European Journal of Neuroscience di mana John Bickle mewawancarai RW Williams

  • Kesan saya setelah membaca makalah ini adalah bahwa sebenarnya makalah ini sama sekali tidak mirip jaringan biologis/spiking, makalah ini mempertahankan riwayat input dan memakai multi-head attention untuk membangun model internal tentang bagaimana input “pra-sinaptik” masa lalu memengaruhi keluaran saat ini, ini adalah struktur yang menjaga riwayat input dan menghasilkan keluaran dengan attention, semacam transformer yang sedikit dimodifikasi, “sinkronisasi” di sini juga diperoleh dengan mengambil hasil kali dalam dari seluruh post-activation, lalu matriks hasil inner product ini diproyeksikan ke ruang keluaran, karena banyak keluaran harus dikalikan untuk menghasilkan nilai yang benar pada setiap timestep, sepertinya penggabungan ini disebut “sinkronisasi”, ini tampak seperti semacam dorongan menuju “sparsity” yang menekankan pentingnya kombinasi dibanding individualitas tiap nilai, dengan menggabungkan banyak nilai keluaran ke dalam matriks, cara ini adalah mekanisme dasar attention yang menggabungkan keluaran dari beberapa subsistem lewat inner product

    • Kelemahan makalah ini adalah pembanding performanya hanya terbatas pada LSTM (model rekuren sederhana), rasanya struktur dan performa serupa bisa muncul hanya dengan beberapa lapis input/output attention, transformer yang sebenarnya memang sedikit berbeda, tetapi tidak jauh dari struktur input attention + unet yang dipakai makalah ini
  • Ada tiga hal menarik akhir pekan ini: 1) continuous thought machines (jaringan saraf pengodean deret waktu yang mirip otak biologis), 2) “zero data reasoning” (AI yang belajar melalui tindakan langsung alih-alih dilatih lebih dulu dengan data masif), 3) Intellect-2 (arsitektur reinforcement learning yang terdistribusi secara global), dari sudut pandang non-ahli rasanya seperti selangkah lebih dekat ke singularity

    • Menurut saya rasanya tidak sejauh itu, ada terlalu banyak makalah dan arah riset yang berbeda-beda sehingga sulit memprediksi mana yang akan meledak seperti diffusion, transformer, AlphaZero, Chat GPT-3, kemajuan yang tampak radikal pun sebenarnya terbentuk dari akumulasi banyak riset dan trial-and-error, akan bagus jika ketiga kemajuan ini bisa berpadu dengan baik, tetapi saya juga tidak tahu
    • Menurut saya sebaiknya jangan memberi makna terlalu besar pada makalah individual, dalam skenario terbaik kita mengabaikan begitu banyak riset dasar, dalam skenario terburuk kita menaruh harapan berlebihan pada satu ide karena ekspektasi yang terlalu muluk
    • Intellect-2 dan zero data reasoning keduanya adalah arsitektur yang berjalan di atas LLM (nama “zero data reasoning” justru bisa menyesatkan), kalau benar-benar ingin melihat inovasi LLM, lebih baik lihat cara InceptionLabs meningkatkan inferensi 16x dengan diffusion model, performa algoritme reinforcement learning deret waktu kami masih jauh tertinggal dibanding model inferensi, dan meskipun ada ledakan AI, robotika dan kendaraan otonom masih tetap tersendat, teknik dalam makalah ini juga punya potensi, tetapi akan lebih baik jika seseorang merapikan terminologinya agar lebih mudah dicerna, untuk saat ini saya masih merasa bahwa model berskala besar justru makin pandai menemukan celah dalam reward function, jadi kita masih jauh dari AI yang berguna di banyak bidang
    • Saat implementasi makalah benar-benar dijalankan, sering kali hasilnya tidak sebaik yang diiklankan dalam makalah atau ada kode yang hilang, agar tidak terombang-ambing hype AI, kita perlu membiasakan diri membaca hasil konkret dan keterbatasan makalah, lalu mengunduh dan menjalankan kodenya jika tersedia, serta menguji input di luar set pelatihan
    • Saya juga bukan ahli, tetapi menurut saya ini mirip seperti melihat ditemukannya kamera, aktuator, dan baterai lalu menyimpulkan robot akan segera menguasai dunia, jadi ini terasa seperti baby step, bukan lompatan besar
    • Kritiknya tidak bisa begitu saja disingkirkan, memang bisa banyak perdebatan soal apakah makalah dan proyek yang ramai dibicarakan ini benar-benar merupakan kemajuan terobosan seperti take-off atau AGI, tetapi makalah semacam ini juga bisa menjadi wakil dari arah riset yang lebih besar, jadi rasanya seperti “kelinci kecil” yang terus melakukan lompatan-lompatan kecil ke arah yang konsisten, kapan suatu momen layak disebut lompatan besar bergantung pada yang melihatnya, tetapi yang jelas kelincinya tetap bergerak maju
  • Menerapkan mekanisme pengodean deret waktu seperti spike timing dan sinkronisasi sangat sulit, karena itu jaringan saraf modern lebih berfokus pada kesederhanaan dan efisiensi komputasi daripada dinamika temporal, mensimulasikan domain waktu yang sesungguhnya juga sangat sulit dari sisi hardware, terutama karena menambah satu sumbu hyperparameter tersendiri sehingga mencari kombinasi parameter yang valid menjadi nyaris mustahil, mencari arsitektur yang efisien secara komputasi jauh lebih cepat, jadi jika spike muncul pada timestep masa depan, akan terbentuk struktur kejadian seperti priority queue dan beban komputasi melonjak drastis, kecuali jika tujuan utamanya benar-benar “interaksi hard real-time”, dari sudut pandang praktis dan produk saya rasa mengejar struktur seperti ini tidak terlalu berarti, STDP (perubahan bobot berdasarkan perbedaan waktu spike) untuk pembelajaran online tanpa supervisi masih terasa sangat menarik, tetapi untuk sementara tampaknya belum ada jalan di atas silikon, memakai hardware khusus pada dasarnya seperti memaku sebagian hyperparameter menjadi konstanta di dalam kode, sehingga sulit menjamin kepastian dan pendanaannya pun jadi kurang memadai

    • Misalnya jika sebuah arsitektur FF (feedforward) skala menengah membutuhkan 100ms untuk memproses satu batch input, bagaimana jika pada struktur CTM kita memakai 10ms di sumbu FF lalu mengalikannya dengan 10 “tick” internal?, angkanya memang kasar, tetapi pada akhirnya pertanyaannya adalah apakah inductive bias terhadap sumbu waktu yang eksplisit itu benar-benar bermakna, saya rasa struktur seperti itu pun bisa menghadapi tingkat kesulitan pencarian yang sama
  • Ide dasar mesin-mesin ini sebenarnya bukan sesuatu yang sepenuhnya baru, pada makalah tahun 2002 diperkenalkan Liquid State Machines (LSM), di mana LSM memasok input kontinu ke spiking neural network lalu membaca liquid state melalui dense layer yang terhubung ke neuron-neuron di seluruh jaringan, dalam makalah tahun 2019 LSM dipakai untuk memainkan game Atari, kadang bisa melampaui manusia tetapi tidak selalu, dan juga ditemukan kecenderungan gagal yang mirip dengan keterbatasan jaringan saraf yang sudah ada, performanya tidak terlalu lebih tinggi dibanding jaringan saraf tradisional, saya berharap ada lebih banyak minat pada riset jaringan saraf yang memproses input secara kontinu (misalnya audio), menghasilkan keluaran secara kontinu, dan hanya menerapkan prinsip plasticity otak (tanpa backpropagation), saya sendiri juga pernah mencoba, tetapi mungkin karena kita belum cukup memahami cara kerja otak, saya masih belum tahu jawaban yang benar-benar memuaskan

  • Ironisnya, halaman web ini terus me-refresh di firefox iOS

    • Di browser saya bahkan tidak bisa dibuka sama sekali
  • Kunci model generasi berikutnya adalah prinsip “neurons that fire together wire together”, saya rasa spiking neural network sangat menarik sebagai pendekatan alternatif