Mesin Berpikir Berkelanjutan

(pub.sakana.ai)

2 poin oleh GN⁺ 2025-05-13 | Belum ada komentar. | Bagikan ke WhatsApp

Continuous Thought Machine (CTM) adalah arsitektur baru yang secara eksplisit memasukkan dinamika saraf temporal ke dalam komputasi jaringan saraf, dengan tujuan mewujudkan “perkembangan pikiran” di dalam model yang sulit ditangani hanya dengan pemrosesan feed-forward statis
Di pusat strukturnya ada internal ticks yang terpisah dari urutan data, neuron-level models tempat MLP per neuron memproses riwayat pre-activation terbaru, serta cara menggunakan sinkronisasi temporal antar pasangan neuron sebagai representasi
Pada eksperimen ImageNet, labirin 2D, parity, Q&A MNIST, CIFAR-10/100, pengurutan bilangan riil, dan reinforcement learning, CTM menunjukkan kemungkinan penerapan dengan mempertahankan struktur inti dan hanya mengganti modul input/output
Dalam eksperimen labirin, CTM memprediksi jalur L/R/U/D/W secara langsung tanpa embedding posisi, dan menunjukkan kasus ketika model yang dilatih pada labirin 39×39 serta jalur hingga panjang 100 dapat melakukan generalisasi ke labirin 99×99 dan jalur sekitar 6 kali lebih panjang
Melalui representasi sinkronisasi, CTM menunjukkan perilaku seperti pengingatan memori, komputasi adaptif, perpindahan perhatian yang dapat diinterpretasikan, dan pembentukan world model internal, tetapi bukan model yang meniru neuron biologis secara harfiah

Masalah yang disasar CTM

Jaringan saraf yang ada selama ini secara sengaja menyederhanakan dinamika saraf temporal yang muncul pada otak biologis, dan memproses informasi terutama melalui nilai aktivasi statis yang cocok untuk deep learning berskala besar
Di otak terdapat spike-timing-dependent plasticity (STDP), osilasi saraf, serta pengodean temporal berbasis spike timing dan synchrony, tetapi jaringan saraf modern umumnya mengutamakan kesederhanaan dan efisiensi komputasi
Dibandingkan fleksibilitas dan generalitas kognisi manusia, AI saat ini masih memiliki kekurangan, dan sebagian di antaranya mungkin terkait dengan pemrosesan waktu
Kontribusi CTM dapat dirangkum dalam tiga elemen
- Dimensi internal terpisah: sumbu waktu tempat pemikiran dapat berkembang dalam sistem saraf buatan
- neuron-level models (NLMs): setiap neuron diaktifkan dengan memproses riwayat sinyal input, bukan fungsi statis seperti ReLU tetap
- neural synchronization: representasi laten yang digunakan langsung untuk observasi dan prediksi

Model reasoning dan recurrence

Cara memperbesar model yang ada telah menghasilkan kemajuan besar, tetapi biaya komputasi dan kebutuhan datanya tinggi sehingga menimbulkan pertanyaan soal keberlanjutan jangka panjang
Untuk data sekuensial, keluarga RNN telah lama digunakan, tetapi banyak digantikan oleh pendekatan berbasis Transformer; belakangan recurrence kembali mendapat perhatian sebagai jalur untuk memperluas kompleksitas model
Reasoning models dalam generasi teks menggunakan bentuk recurrence yang meningkatkan komputasi saat pengujian melalui generasi perantara
CTM memandang inti persoalannya bukan recurrence itu sendiri, melainkan timing yang presisi dan interaksi aktivitas saraf yang dimungkinkan oleh recurrence
Perbedaannya dari pendekatan yang ada ada tiga
- Pemikiran sekuensial dimungkinkan pada dimensi internal yang terpisah dari modalitas data
- Private model per neuron menangani timing saraf yang presisi
- Sinkronisasi saraf digunakan langsung sebagai representasi untuk menyelesaikan tugas

Tiga mekanisme inti CTM

CTM adalah struktur yang secara internal mengembangkan aktivitas saraf selama beberapa tick saat memproses data
Pada satu internal tick, riwayat pre-activation terbaru dikumpulkan, lalu NLMs memprosesnya untuk menghasilkan post-activation
Riwayat post-activation dari waktu ke waktu digunakan untuk menghitung sinkronisasi antar neuron, dan hasil ini menjadi Synchronization Representation
Detail teknis tersedia di Technical Report, dan GitHub repository juga telah dibuka
Internal ticks: dimensi internal tempat pikiran berkembang
- CTM memperkenalkan dimensi internal berurutan dalam bentuk t ∈ {1, …, T}
- Alih-alih memproses mengikuti urutan data itu sendiri seperti kata atau frame pada RNN maupun Transformer, CTM bekerja mengikuti internal ticks yang dihasilkannya sendiri
- Berkat perkembangan internal ini, CTM dapat berulang kali membuat dan menyempurnakan representasi bahkan pada data statis atau non-sekuensial seperti gambar atau labirin
- Demo labirin interaktif di bagian atas halaman menggunakan 75 ticks
Recurrent weights dan neuron-level models
- Synapse model CTM adalah recurrent MLP berbentuk U-NET, dan menghasilkan pre-activation pada setiap tick
- M pre-activation terbaru dikumpulkan sebagai riwayat input setiap neuron
- Setiap neuron d memproses riwayat pre-activation-nya sendiri dengan private MLP yang memiliki parameter unik θd, lalu menghasilkan post-activation
- Post-activation dari semua neuron digabungkan dengan attention output dan masuk ke komputasi recurrent pada tick berikutnya
Synchronization representation
- CTM dirancang bukan untuk mengonsumsi input dan membuat output berdasarkan snapshot status neuron pada titik waktu tertentu, melainkan berdasarkan dinamika aktivitas neuron dari waktu ke waktu
- Synchronization matrix antar neuron dihitung dengan hasil kali dalam St = Zt · (Zt)^T dari riwayat post-activation Zt
- Karena matriks ini tumbuh sebagai O(D²), dalam penggunaan nyata pasangan neuron (i, j) disub-sampling untuk membuat representasi Sout dan Saction
- Sout diproyeksikan ke ruang output untuk membuat prediksi seperti logits, sementara Saction digunakan untuk tindakan observasi seperti attention query
- Semakin besar lebar model D, semakin besar pula representasi sinkronisasi yang mungkin, pada skala D × (D+1) / 2
Cara memasukkan data
- Data diamati pada setiap internal tick dengan attention berdasarkan sinkronisasi saat ini
- Sebagian besar eksperimen menggunakan cross attention standar
- FeatureExtractor membuat fitur lokal dari data untuk key dan value, lalu query yang diproyeksikan dari sinkronisasi mengambilnya
- Attention output digunakan bersama post-activation dalam siklus recurrence berikutnya

Loss pembelajaran: mengoptimalkan seluruh internal ticks

CTM menghasilkan output pada setiap internal tick
Untuk prediksi di setiap tick, loss standar seperti cross-entropy dihitung, dan certainty dihitung sebagai 1 - normalized entropy
Loss akhir memilih dua tick secara dinamis lalu merata-ratakannya
- Tick dengan loss minimum t1 = argmin(L)
- Tick dengan keyakinan maksimum t2 = argmax(C)
Cara ini tidak bergantung hanya pada satu step terakhir, sehingga mendorong komputasi bermakna terjadi di beberapa internal ticks
Desain loss ini secara alami menciptakan efek curriculum, dan memungkinkan jumlah komputasi disesuaikan dengan tingkat kesulitan masalah

Eksperimen ImageNet

Tujuan eksperimen ImageNet bukan mencapai state-of-the-art baru, melainkan menunjukkan cara CTM berinteraksi dengan data
CTM membangun prediksi sambil mengamati gambar, dan dalam proses ini menggunakan neural synchronization secara langsung sebagai representasi
Karena internal steps dapat dihentikan di tengah, adaptive compute menjadi mungkin
- Setelah titik tertentu, peningkatan akurasi kecil, tetapi manfaat tambahan tetap ada
Demo menampilkan attention weights dari 16 attention heads, prediksi kelas, dan certainty dari waktu ke waktu
Aktivitas saraf divisualisasikan dalam 2D dengan proyeksi UMAP; setiap neuron ditampilkan sebagai titik, ukuran menunjukkan nilai absolut, sedangkan warna menunjukkan tanda dan besar nilainya

Eksperimen labirin 2D

Penyelesaian labirin disetel sebagai tugas yang mengharuskan model menyusun jalur dari titik awal ke tujuan secara bertahap
CTM dilatih untuk memprediksi jalur secara langsung sebagai sekuens langkah L/R/U/D/W, bukan sebagai gambar
Di bagian atas halaman ada versi kecil demo interaktif, dan demo dari model yang lebih besar juga disajikan
Demo menunjukkan proses pembentukan jalur selama 75 internal ticks, dan prediksi yang menembus dinding dikecualikan dari tampilan jalur valid
Bobot dari 16 attention heads dan attention rata-rata ditampilkan bersama, sehingga dapat terlihat model berfokus ke mana
Generalisasi dan world model
- CTM yang dilatih untuk menyelesaikan jalur hingga panjang 100 pada labirin 39×39 diterapkan ke labirin 99×99 yang lebih besar
- Jalur penuh pada contoh labirin kira-kira 6 kali lebih panjang daripada kondisi pelatihan
- CTM tidak menggunakan embedding posisi, dan harus memprediksi jalur secara langsung sebagai string kelas
- Karena tidak ada embedding posisi, CTM harus membuat internal world model untuk menanyakan data dan menjelajahi labirin
- Para peneliti menyatakan ingin melihat bagaimana CTM menemukan jalan tanpa pengodean posisi eksplisit di lingkungan yang lebih kompleks seperti game atau video

Eksperimen Parity

Parity task disusun sebagai tugas memprediksi parity kumulatif pada masing-masing dari 64 posisi dalam sekuens biner
Seluruh binary vector sepanjang 64 diberikan sekaligus, sehingga ini adalah setelan yang lebih sulit daripada input sekuensial sederhana
CTM dilatih dengan jumlah internal ticks yang berbeda, dan dibandingkan dengan LSTM yang jumlah parameternya disamakan
CTM dengan lebih dari 75 internal ticks mampu menyelesaikan tugas ini secara stabil, dan beberapa run mencapai akurasi 100%
LSTM kesulitan belajar saat melampaui 10 internal ticks, menunjukkan hasil yang tidak cocok untuk mengembangkan dimensi pemikiran internal
Dalam demo, muncul perilaku yang dapat diinterpretasikan, seperti beberapa attention heads menyapu data dari belakang ke depan, dan attention head pertama hanya attend ke posisi negative parity
Dua contoh CTM mempelajari strategi yang berbeda
- Salah satunya attend ke data dalam urutan terbalik lalu memprediksi parity kumulatif sekaligus
- Yang lain attend secara maju dan memprediksi parity secara bertahap
- Keduanya mencapai akurasi sempurna

Eksperimen Q&A MNIST

Q&A MNIST adalah tugas untuk mengevaluasi kemampuan memori dan recall CTM
Model pertama-tama melihat sekuens digit MNIST, lalu menerima index dan operator embedding yang menentukan digit mana yang harus diingat kembali dan modular operation apa yang harus diterapkan
Setelah semua digit dan index/operator embedding disajikan, zero-tensor flag menginstruksikan pembuatan jawaban akhir
Dalam eksperimen, memory length CTM disetel agar digit MNIST berada di luar activation history window milik neuron-level models
Karena itu, agar dapat mengingat kembali digit nantinya, CTM harus mengorganisasi aktivasi untuk mempertahankan informasi
Hasil dan generalisasi
- LSTM memiliki performa lebih tinggi daripada CTM saat hanya ada satu internal tick per input, tetapi menjadi lebih tidak stabil ketika internal ticks bertambah
- CTM menjadi lebih kuat seiring bertambahnya internal ticks, dan mencapai akurasi lebih dari 95% pada in-distribution task yang paling sulit
- CTM mampu mengingat kembali nilai digit yang dilihat pada timestep lama, dan ini ditafsirkan sebagai hasil dari organisasi dan sinkronisasi neuron
- Dalam eksperimen generalisasi, akurasi diukur saat lebih banyak digits atau index-operator embeddings daripada saat pelatihan dimasukkan
- Baik CTM maupun baseline LSTM dapat melakukan generalisasi terhadap peningkatan jumlah operation
- Dalam hasil empiris, setiap kali index embedding baru disajikan, model menghitung dan menyimpan hasil operation yang ditentukan, sehingga dapat terus memproses tanpa menunggu final answer flag
- Performa CTM meningkat ketika internal ticks makin banyak, sementara LSTM menunjukkan tren sebaliknya

Eksperimen tambahan

CIFAR-10: perbandingan dengan manusia, feed-forward, dan LSTM
- Eksperimen CIFAR-10 disusun untuk membandingkan CTM dengan human performance, baseline feed-forward, dan baseline LSTM
- Untuk memperlihatkan perbedaan, digunakan backbone yang terbatas
- Dataset label manusia yang digunakan adalah CIFAR-10D dan CIFAR-10H
- CIFAR-10D terkait dengan koreksi tingkat kesulitan
- CIFAR-10H adalah dataset yang digunakan untuk mengkuantifikasi ketidakpastian manusia
- CIFAR-10D tersedia di sini, dan CIFAR-10H tersedia di sini
- Probabilitas dari CIFAR-10H digunakan untuk perhitungan calibration, dan CTM menunjukkan calibration terbaik bahkan dibandingkan manusia
- Aktivitas saraf CTM menunjukkan dinamika yang kaya, beragam, dan kompleks, serta periodic behavior muncul bahkan tanpa periodic driving function
- Perbedaan aktivitas saraf antara CTM dan LSTM menjadi bukti bahwa neuron-level models dan synchronization representation memungkinkan dinamika saraf sebagai mekanisme komputasi
Ablation CIFAR-100
- Dalam eksperimen CIFAR-100, jumlah neuron, yaitu lebar model, diubah sambil mempertahankan kondisi lain dan waktu pelatihan tetap
- Jaringan yang lebih lebar mungkin membutuhkan waktu pelatihan lebih lama atau hyper-parameters berbeda, sehingga terjadi sebagian penurunan akurasi
- Untuk melihat seberapa unik neuron-level models menjadi, cosine similarity dari dinamika antar neuron diukur
- Seiring bertambahnya lebar model, diamati bahwa keragaman antar neuron bukan berkurang, melainkan meningkat
- Hubungan antara jumlah internal ticks dan prediksi juga dianalisis
- Pada setelan 25, 50, dan 100 internal ticks, distribusi step tempat CTM paling yakin diperiksa
- Pada setiap setelan, muncul dua area konsentrasi, yang ditafsirkan bahwa CTM mengikuti proses internal terpisah bergantung pada data
Pengurutan bilangan riil
- CTM dilatih untuk mengurutkan 30 bilangan riil yang berasal dari N(0, I30)
- Tujuannya adalah melihat kapan CTM menerapkan komputasi lebih banyak atau lebih sedikit dalam lingkungan terkontrol, serta memastikan apakah output sekuensial dapat dipelajari dengan CTC loss
- CTM ini mampu mengurutkan daftar 30 bilangan riil dengan probabilitas sekitar 80%
Reinforcement learning
- CTM, selain memproses data non-sekuensial dengan continuous thought dimension, juga diterapkan pada tugas yang berinteraksi dengan lingkungan eksternal
- Navigation task serta varian partially observable CartPole dan Acrobot dilatih dengan proximal policy optimization
- Dalam setelan ini, CTM menerima observasi, memprosesnya dengan jumlah internal thought steps tetap, lalu mengeluarkan action berikutnya
- Activation history dipertahankan secara kontinu antar environment step, sehingga aktivasi dari environment step masa lalu dapat memengaruhi pengambilan keputusan saat ini
- Hasilnya, CTM menghasilkan performa yang sebanding dengan baseline LSTM, dan menunjukkan bahwa ia dapat belajar di continuous environment

Kesimpulan dan batasan

CTM mengganti pointwise activation function dengan private neuron-level models untuk membuat dinamika neuron yang lebih kaya, dan menggunakan neural synchronization sebagai representasi baru, bukan activation vector
Pendekatan ini memungkinkan pembangunan representasi dari waktu ke waktu dalam klasifikasi gambar, attention labirin tanpa embedding posisi dan pembentukan peta internal, adaptive computation, serta penyimpanan dan recall memori di luar activation history
Arsitektur inti CTM secara umum dipertahankan di berbagai tugas, dan terutama hanya membutuhkan penyesuaian modul input/output
Dalam skenario kompleks seperti penjelajahan labirin, CTM bekerja dengan sedikit tuning, sementara LSTM tetap mengalami kesulitan bahkan setelah tuning yang cukup besar
CTM bukan model yang mencoba meniru neuron biologis secara ketat dan harfiah
- Neuron nyata mungkin tidak mengakses activation history seperti CTM
- Meski demikian, emergent phenomena seperti traveling waves muncul
CTM adalah pendekatan yang meminjam konsep dari biologi sambil menyeimbangkan kepraktisan dan inspirasi biologis, dan dapat menjadi arah riset untuk membuka kemampuan yang masih kurang pada AI saat ini

Mesin Berpikir Berkelanjutan

Masalah yang disasar CTM

Model reasoning dan recurrence

Tiga mekanisme inti CTM

Internal ticks: dimensi internal tempat pikiran berkembang

Recurrent weights dan neuron-level models

Synchronization representation

Cara memasukkan data

Loss pembelajaran: mengoptimalkan seluruh internal ticks

Eksperimen ImageNet

Eksperimen labirin 2D

Generalisasi dan world model

Eksperimen Parity

Eksperimen Q&A MNIST

Hasil dan generalisasi

Eksperimen tambahan

CIFAR-10: perbandingan dengan manusia, feed-forward, dan LSTM

Ablation CIFAR-100

Pengurutan bilangan riil

Reinforcement learning

Kesimpulan dan batasan

Bacaan terkait

Belum ada komentar.