Lebih Sedikit, Lebih Banyak: Penalaran Rekursif dengan Jaringan Kecil

(alexiajm.github.io)

3 poin oleh GN⁺ 2025-10-10 | 1 komentar | Bagikan ke WhatsApp

Tiny Recursion Model (TRM) mencapai performa tinggi dengan jaringan saraf kecil berukuran sekitar 7M parameter: 45% di ARC-AGI-1 dan 8% di ARC-AGI-2
Model ini membuktikan bahwa bahkan tanpa model bahasa besar, masalah sulit dapat diselesaikan dengan menerapkan metode penalaran rekursif
Model ini menyederhanakan struktur kompleks dari Hierarchical Reasoning Model (HRM) yang sudah ada, dan hanya menyisakan proses penalaran rekursif yang inti
TRM terus meningkatkan kualitas jawaban dengan model yang kecil dan efisien, tanpa bergantung pada otak manusia, teorema matematika yang rumit, atau struktur hierarkis
Makalah ini menekankan bahwa untuk memecahkan masalah sulit, yang penting adalah pendekatan baru, bukan ukuran model

Gambaran Umum

Makalah ini mengusulkan model penalaran rekursif baru bernama Tiny Recursion Model (TRM)
Meskipun merupakan jaringan saraf yang sangat kecil dengan hanya 7M parameter, TRM mencatat akurasi yang berarti, yakni 45% di ARC-AGI-1 dan 8% di ARC-AGI-2
Model ini secara eksperimental menunjukkan bahwa bahkan tanpa model besar yang dilatih perusahaan besar dengan biaya jutaan dolar, masalah kompleks tetap dapat diselesaikan secara memadai melalui penalaran rekursif yang efisien
Saat ini industri terlalu terfokus hanya pada pemanfaatan LLM, tetapi TRM menunjukkan bahwa arah baru dalam penalaran dan pembelajaran itu penting

Perbedaan dari Riset Sebelumnya

Pada Hierarchical Reasoning Model (HRM) sebelumnya, ketergantungan pada logika biologis, struktur hierarkis yang kompleks, dan teorema matematika (seperti teorema titik tetap) cukup tinggi
TRM menghilangkan kompleksitas tersebut dan menyisakan hanya mekanisme inti penalaran rekursif yang paling disederhanakan, sehingga baik desain maupun implementasinya menjadi lebih intuitif dan sederhana
Intinya adalah bahwa bahkan tanpa struktur otak manusia atau latar belakang teoretis, akurasi jawaban dapat terus ditingkatkan melalui proses pengulangan diri yang rekursif

Cara Kerja TRM

Dimulai dengan melakukan embedding pada pertanyaan masukan x, jawaban awal y, dan state tersembunyi z
Selama maksimum K kali langkah perbaikan, dua tahap berikut dijalankan berulang:
- i) Dari pertanyaan saat ini x, jawaban y, dan state tersembunyi z, nilai z diperbarui berulang sebanyak n kali (reasoning rekursif)
- ii) Dari jawaban saat ini y dan z baru, jawaban y diperbarui kembali untuk menghasilkan jawaban yang lebih baik
Proses pengulangan rekursif ini terus meningkatkan kualitas jawaban tanpa menambah parameter model, sekaligus mengurangi risiko overfitting

Kesimpulan

Riset TRM membuktikan bahwa ukuran model bukanlah faktor yang mutlak diperlukan untuk sukses
Eksperimen menunjukkan bahwa hanya dengan prinsip penalaran rekursif, jaringan saraf kecil pun dapat mencapai hasil yang mendekati model besar
Penelitian ini menekankan pentingnya pengembangan arah baru yang efisien dan kreatif dalam riset kecerdasan buatan masa depan
Detail lebih lanjut dapat dilihat di makalah

1 komentar

GN⁺ 2025-10-10

Komentar Hacker News

Saya sangat menyarankan semua orang untuk membaca dengan saksama posting blog penyelenggara ARC-AGI tentang HRM
Dalam kondisi augmentasi data/test time training yang sama, Transformer dasar pun tampaknya menghasilkan hasil yang hampir mendekati “prestasi besar” yang dilaporkan untuk HRM
Makalah ini juga tampaknya membandingkan dirinya pada ARC-AGI dengan kondisi yang serupa
Saya juga ingin mendapatkan kemampuan penalaran yang hebat dengan model yang lebih kecil
Namun, kita perlu lebih dulu memahami apa yang diukur ARC-AGI, pengaturan umum apa yang dipakai untuk membandingkan LLM komersial, dan pengaturan khusus apa yang dipakai di HRM maupun makalah ini
Penamaan benchmark cenderung memicu ekspektasi berlebihan, dan saya melihat hal itu baik pada HRM maupun makalah ini
- Makalah TRM sudah membahas posting blog tersebut
  Tidak perlu membaca analisis HRM secara terlalu mendetail, dan TRM punya struktur yang lebih disentangled dibanding HRM sehingga ablation jauh lebih mudah
  Menurut saya nilai sebenarnya dari blog HRM arcprize adalah penekanannya pada pentingnya uji ablation
  ARC-AGI dirancang sebagai tantangan untuk semua model
  Asumsinya adalah bahwa kemampuan penalaran model bahasa skala besar setingkat LLM diperlukan untuk menyelesaikannya, tetapi tampaknya itu adalah kesalahpahaman
  Saya ingin bertanya apakah HRM dan TRM dilatih secara khusus pada dataset kecil dari sampel ARC-AGI, sementara LLM tidak
  Atau saya penasaran perbedaan apa yang sedang ditekankan
Ini bukan benar-benar “Transformer dasar”, melainkan “arsitektur mirip Transformer dengan struktur recurrent”
Pendekatan ini tetap merupakan topik eksperimen yang menarik
Jelas ada kelebihannya, tetapi saya tidak menganggapnya benar-benar Transformer yang lebih baik
Rasanya perhatian berlebihan yang diterimanya saat ini agak terlalu besar
Setelah melihat ini, saya kembali teringat pada kemiripan antara filter Finite Impulse Response (FIR) (LLM konvensional) dan filter Infinite Impulse Response (IIR) (model rekursif)
Ini bukan analogi yang luar biasa atau orisinal, tetapi pada FIR kita membutuhkan jauh lebih banyak koefisien dibanding IIR untuk mendapatkan karakteristik cutoff yang serupa
Misalnya, kita bisa mengubah IIR menjadi FIR dengan window design method, dan dalam kasus itu struktur rekursif dibuka lalu dihentikan pada kedalaman terbatas
Mirip dengan itu, jika TRM di-unroll, hasilnya menjadi struktur pengulangan blok attention+ff pada arsitektur LLM tradisional, hanya tanpa global feedback
Selain itu, tidak seperti IIR sungguhan, TRM mengimplementasikan cutoff yang terbatas, jadi secara struktural tampaknya lebih dekat ke FIR/LLM
Akan menarik juga membandingkan TRM dengan struktur yang dibuka dengan cara serupa
Tapi mungkin ini cuma pikiran ngawur karena kurang tidur
- Saya ingin memperkenalkan Deep Equilibrium Models
  Ini berangkat dari pengamatan bahwa sebagian besar hidden layer pada model sekuens dalam yang ada akan konvergen ke suatu fixed point, lalu langsung mencari fixed point itu sendiri dengan root finding
  Pendekatan ini ekuivalen dengan menjalankan jaringan feedforward berbobot-terikat dengan kedalaman tak hingga, dan backpropagation juga dimungkinkan melalui diferensiasi implisit
  (tautan makalah arXiv)
  Hal menarik dari model deep equilibrium adalah bahwa hanya dengan satu layer saja, ia bisa setara dengan jaringan deep learning yang menumpuk banyak layer
  Yang dibutuhkan hanyalah rekursi
  Model ini menyesuaikan sendiri jumlah iterasi berdasarkan tingkat kesulitan tugas
Saya mengimplementasikan HRM untuk tujuan edukasi dan mendapatkan performa yang baik pada pencarian jalur
Setelah itu saya melakukan eksperimen ablation dan sampai pada kesimpulan yang sama dengan tim ARC-AGI (yaitu arsitektur HRM itu sendiri tidak terlalu berperan)
Agak mengecewakan
Saya rasa ada sesuatu yang menjanjikan pada latent space reasoning
Repositori implementasi
- Menurut saya ini pekerjaan yang hebat, terima kasih sudah merapikan dan membagikannya
  Replikasi dan berbagi pengalaman benar-benar penting
Saya penasaran apakah hasil yang ditunjukkan dalam makalah arXiv ini benar-benar dapat diskalakan
Jika hasil ini juga berlaku pada aplikasi nyata, itu pasti akan sangat revolusioner
Di sisi lain, jika memang begitu, muncul juga bayangan menarik bahwa besarnya investasi astronomis untuk infrastruktur pusat data AI saat ini bisa mendadak menjadi tak berarti
(meskipun tentu tidak akan lama)
- Saat membahas HRM, analisis HRM dari arcprize wajib dirujuk
  Makalah ini tampak seperti versi yang disederhanakan dari HRM, dan sepertinya juga merujuk pada studi ablation dalam analisis itu
  Penting juga bahwa HRM bukan arsitektur yang dapat diterapkan secara luas seperti transformer LLM umum
  Sampai sekarang belum ada bukti bahwa HRM berhasil untuk tugas AI generatif yang umum
  Saya sedang membaca makalahnya, tetapi struktur kali ini juga tampaknya cocok untuk tugas yang mirip HRM (misalnya penalaran spasial seperti ARC-AGI), dan masih perlu diintegrasikan ke arsitektur yang lebih umum
- Saya rasa paradoks Jevons berlaku di sini
  Jika biaya AI/listrik turun, permintaan justru akan naik lebih tinggi
- Skenario gelembung AI pecah karena teknologi AI menjadi terlalu bagus dan efisiensinya meningkat ekstrem, terdengar cukup masuk akal
- Soal pernyataan bahwa investasi infrastruktur pusat data AI bisa menjadi tak berarti
  Komputasi GPU bukan hanya untuk inferensi teks, dan khususnya permintaan untuk generasi video tampaknya akan sulit jenuh dalam waktu dekat bahkan jika ada terobosan
- Jika hasil seperti itu benar-benar muncul, industri hampir pasti akan segera mengadopsi pendekatan ini lalu bergerak ke arah melatih model yang lebih besar dan lebih kuat
“Dengan 7M parameter, TRM mencapai akurasi uji 45% pada ARC-AGI-1 dan 8% pada ARC-AGI-2, lebih tinggi daripada sebagian besar LLM seperti Deepseek R1, o3-mini, dan Gemini 2.5 Pro, dengan parameter kurang dari 0,01%”
Benar-benar mengesankan
Sebagai catatan, secara struktural ini terasa mirip dengan Hierarchical Temporal Memory yang diusulkan Jeff Hawkins dalam “On Intelligence”
(tentu saja tanpa karakteristik sparsity, tetapi unsur hierarkis/temporalnya mirip)
Wiki HTM, Numenta
- Saya pikir ketiadaan sparsity mungkin adalah tumit Achilles dari pendekatan LLM saat ini
Ringkasan
Hierarchical Reasoning Model (HRM) adalah pendekatan baru yang menjalankan dua jaringan saraf kecil secara rekursif pada ritme yang berbeda
Dibuat dengan inspirasi biologis, dan dengan model kecil (27M parameter) serta data yang kecil dan sedikit (sekitar 1000 contoh), ia melampaui LLM besar pada teka-teki sulit seperti Sudoku, Maze, dan ARC-AGI
Strukturnya belum sepenuhnya dipahami dan performanya mungkin belum optimal
Kami mengusulkan pendekatan penalaran rekursif yang jauh lebih sederhana (TRM, Tiny Recursive Model), dan model ini menunjukkan generalisasi yang jauh lebih baik daripada HRM dengan jaringan kecil 2 layer
Hanya dengan 7M parameter, ia melampaui LLM besar (akurasi uji 45% pada ARC-AGI-1 dan 8% pada ARC-AGI-2, dengan parameter kurang dari 0,01%)
- Hasil bahwa hanya dengan 7M parameter bisa melampaui LLM besar sangat menarik
  Tapi saya penasaran karena rasanya mungkin ada keterbatasan tersembunyi
Menarik melihat efek recurrence menghasilkan hasil yang baik pada masalah ARC
Jika tertarik pada recurrence, ada baiknya juga melihat makalah-makalah di bawah ini yang menerapkan model seperti ini pada masalah lain
- Language modeling: Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
- Menyelesaikan teka-teki: A Simple Loss Function for Convergent Algorithm Synthesis using RNNs
- Sintesis algoritma end-to-end: End-to-end Algorithm Synthesis with Recurrent Networks, Can You Learn an Algorithm? Generalizing from Easy to Hard Problems with Recurrent Networks
- Pendekatan umum: Think Again Networks and the Delta Loss, Universal Transformers, Adaptive Computation Time for Recurrent Neural Networks
Secara umum saya suka keluarga transformer RNN
Pada dasarnya ini adalah struktur di mana EBM mempelajari energy landscape lalu tertarik masuk ke solusi
Rasanya seperti menyelesaikan masalah diskret secara bertahap menjadi lebih convex
Ini mengingatkan saya pada kesamaan dengan neural cellular automata, flow matching/diffusion, dan sebagainya
Pendekatan ini juga tampak menjanjikan untuk masalah kontrol
Ia terus bergerak di state space dan pada setiap langkah hanya memilih aksi yang valid
Saya merasa ini pada dasarnya sama saja dengan Chain-of-Thought (CoT) neuralese
z/z_L secara eksplisit disebut sebagai reasoning embedding, dan ini berperan menyempurnakan output embedding (z_H/y) secara bertahap sambil berubah atau dipertahankan melalui proses rekursif
Rasanya seperti neuralese CoT/rantai penalaran yang sesungguhnya

Lebih Sedikit, Lebih Banyak: Penalaran Rekursif dengan Jaringan Kecil

Gambaran Umum

Perbedaan dari Riset Sebelumnya

Cara Kerja TRM

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News