Model Penalaran Hierarkis

(arxiv.org)

6 poin oleh GN⁺ 2025-07-28 | 1 komentar | Bagikan ke WhatsApp

Model Penalaran Hierarkis (Hierarchical Reasoning Model, HRM) mengatasi keterbatasan teknik Chain-of-Thought berbasis LLM yang ada saat ini dalam proses menjalankan perilaku berorientasi tujuan yang kompleks pada AI, seperti dekomposisi tugas yang tidak stabil, kebutuhan data yang besar, dan masalah latensi
Terinspirasi dari konsep pemrosesan hierarkis pada otak manusia, HRM memperkenalkan struktur rekuren baru yang terdiri dari modul tingkat tinggi yang menangani perencanaan abstrak berdimensi tinggi dan modul tingkat rendah yang memproses operasi rinci dengan cepat
HRM menunjukkan performa unggul pada masalah penalaran berkesulitan tinggi hanya dengan sekitar 27 juta parameter dan 1.000 sampel pelatihan
Bahkan tanpa pra-pelatihan dan tanpa data Chain-of-Thought, HRM mencapai akurasi nyaris sempurna pada tugas seperti Sudoku kompleks dan pencarian jalur optimal pada labirin besar
HRM menunjukkan efisiensi dan performa yang lebih tinggi dibanding model besar yang ada, serta memperlihatkan kemungkinan menjadi titik balik bagi komputasi umum dan sistem kecerdasan umum

Ikhtisar

Dalam bidang AI, penalaran (reasoning) merupakan tantangan penting dalam proses merancang dan menjalankan perilaku kompleks yang berorientasi tujuan. Model bahasa besar (LLM) yang ada saat ini umumnya menggunakan teknik Chain-of-Thought (CoT), tetapi pendekatan ini memiliki keterbatasan seperti dekomposisi tugas yang rapuh, kebutuhan data yang besar, dan latensi yang tinggi.

Berangkat dari struktur pemrosesan hierarkis dan multi-skala waktu pada otak manusia, Hierarchical Reasoning Model (HRM) diusulkan
HRM terdiri dari dua modul rekuren dependen (tingkat tinggi/tingkat rendah) dan melakukan penalaran berurutan dalam satu forward pass tanpa supervisi eksplisit terhadap proses antara
Dengan 27 juta parameter dan hanya menggunakan 1.000 sampel, HRM menunjukkan performa mutakhir

Keterbatasan struktural deep learning dan LLM saat ini

Deep learning berawal dari pendekatan meningkatkan daya representasi dengan menumpuk kedalaman jaringan, tetapi LLM berbasis Transformer pada praktiknya memiliki struktur yang dangkal sehingga terbatas dari sisi kedalaman
Transformer dengan kedalaman tetap memiliki batasan mendasar dalam kompleksitas komputasi untuk penalaran logis yang kompleks atau masalah algoritmik
Chain-of-Thought bergantung pada dekomposisi bertahap berbasis bahasa yang ditentukan manusia, sehingga seluruh proses penalaran mudah runtuh akibat kesalahan atau urutan yang keliru
CoT juga menimbulkan masalah kebutuhan data besar, generasi token yang banyak, dan eksekusi yang lambat

Prinsip desain HRM

Dirancang dengan meniru pemrosesan hierarkis dan multi-skala waktu pada otak manusia

Pemrosesan hierarkis: otak memproses informasi secara hierarkis dan temporal terpisah di area tingkat atas dan bawah
Pemisahan skala waktu: area atas bekerja lambat, area bawah bekerja cepat, sehingga memungkinkan pengarahan yang efisien
Koneksi rekuren: melalui umpan balik balik yang berulang, representasi internal disempurnakan untuk mewujudkan penalaran mendalam

Arsitektur model HRM

Terdiri dari jaringan input, modul rekuren tingkat rendah, modul rekuren tingkat tinggi, dan jaringan output
Input di-embedding menjadi vektor
Modul tingkat rendah diperbarui beberapa kali berdasarkan status sebelumnya, status terkini modul tingkat tinggi, dan input
Modul tingkat tinggi diperbarui hanya sekali setiap kali satu cycle berakhir, dengan menerima status akhir modul tingkat rendah
Pada tahap akhir, nilai prediksi dihasilkan dari status modul tingkat tinggi

Mekanisme konvergensi hierarkis (hierarchical convergence)

RNN konvensional cenderung konvergen terlalu cepat, sehingga komputasi tambahan menjadi tidak bermakna
Pada HRM, RNN tingkat rendah terlebih dahulu konvergen secara stabil ke titik ekuilibrium lokal di setiap cycle, lalu modul tingkat tinggi memberikan konteks baru agar modul tingkat rendah memulai kembali
Berkat struktur konvergensi hierarkis, komputasi yang dalam (banyak langkah) menjadi mungkin, dan kecepatan konvergensi juga dapat dikendalikan secara tepat

Pelatihan gradien aproksimasi 1-langkah

Jika bergantung pada BPTT (Backpropagation Through Time), banyak status dari banyak langkah harus disimpan sehingga beban memori menjadi besar
HRM belajar dengan mengaproksimasi gradien hanya dari status terakhir pada masing-masing modul tingkat tinggi/rendah, sehingga penggunaan memori O(1) tetap terjaga dan pendekatan yang lebih realistis secara biologis dapat diterapkan
Secara matematis, pendekatan ini didasarkan pada prinsip Deep Equilibrium Model (DEQ)

Deep supervision & Adaptive Computation Time (ACT)

Deep supervision

Memberikan umpan balik secara periodik, menghasilkan output pada setiap forward pass (segment), dan menghitung loss pelatihan tiap segment secara terpisah
Saat meneruskan ke segment berikutnya, status dipisahkan dari graph (detach) untuk meningkatkan stabilitas dan performa struktur rekuren yang dalam

Adaptive Computation Time (ACT)

Dengan mengadopsi prinsip perpindahan antara pemikiran otomatis dan disengaja pada manusia, jumlah pengulangan segment ditentukan secara dinamis berbasis pembelajaran melalui Q-learning
Q-head memprediksi Q-value untuk aksi halt/continue pada setiap segment
Q-learning menghitung keseluruhan loss dengan mempertimbangkan akurasi prediksi dan titik penghentian optimal secara bersamaan

Performa dan karakteristik arsitektur

Pada Sudoku-Extreme (9x9), labirin besar (30x30), dan masalah lain yang gagal diselesaikan model berbasis CoT, HRM mampu menyelesaikannya nyaris sempurna hanya dengan sekitar 1.000 data
Pada benchmark ARC-AGI (Abstraction and Reasoning Corpus), HRM mencapai performa 40,3% hanya dengan 27M parameter (CoT-based o3-mini-high 34,5%, Claude 3.7 8K 21,2%)
Peningkatan performa tambahan dimungkinkan hanya dengan menambah jumlah komputasi (steps) pada tahap inferensi, sehingga sumber daya komputasi dapat dimanfaatkan tanpa modifikasi arsitektur tambahan atau pelatihan ulang
HRM secara internal memanfaatkan arsitektur sequence-to-sequence berbasis Transformer, dengan
- setelah lapisan embedding, baik modul tingkat rendah maupun tingkat tinggi menggunakan blok Transformer encoder-only
- menerapkan fitur LLM modern (Rotary Positional Encoding, Gated Linear Units, RMSNorm, dll.)
- parameter menggunakan inisialisasi truncated LeCun Normal, serta optimizer Adam-atan2 + learning rate tetap

Kesimpulan

HRM membuktikan kemampuan penalaran umum yang unggul dibanding pendekatan sebelumnya dengan struktur rekuren hierarkis yang terinspirasi biologis serta metode pelatihan yang efisien dan mendalam, bahkan dengan data dan parameter yang sedikit
Ini merupakan contoh penting yang menunjukkan potensi perkembangan menuju komputasi umum dan sistem kecerdasan yang melampaui batas kedalaman deep learning/LLM saat ini

1 komentar

GN⁺ 2025-07-28

Komentar Hacker News

Dari sekilas melihat abstrak dan pendahuluannya, hasil model hierarchical reasoning (HRM) ini tampak benar-benar mengejutkan
- Sangat mengesankan bahwa hanya dengan 1.000 contoh input-output, tanpa pretraining maupun supervisi Chain-of-Thought (CoT), HRM bisa memecahkan masalah yang bahkan LLM paling mutakhir sejauh ini tidak mampu tangani
- Misalnya, pada Sudoku kompleks (Extreme Full) dan pencarian jalur optimal di labirin 30x30, model ini mencatat akurasi yang nyaris sempurna (pendekatan CoT di sini tetap di 0% akurasi)
- Pada tantangan AGI Abstraction and Reasoning Corpus (ARC), HRM dengan 27M parameter dan grid 30x30 (900 token) juga mencapai performa 40,3%, melampaui model yang jauh lebih besar (o3-mini-high, Claude 3.7 8K, dll.)
- Saya berniat membaca makalah ini dengan saksama
Sangat meragukan bahwa model 27M parameter dilatih 'dari nol' hanya dengan 1.000 titik data
- Saya juga tidak paham kenapa mereka tidak membandingkannya dengan model lain yang dilatih dalam kondisi yang sama (persiapan data yang sama)
- Sebaliknya, mereka hanya membandingkannya dengan LLM eksternal yang bersifat umum, padahal LLM itu mungkin memang tidak pernah menggunakan 1.000 contoh tersebut untuk pelatihan
- Pendekatan seperti ini terasa agak seperti overfit
Betul!
- HRM memanfaatkan dua modul rekuren yang saling bergantung (modul atas: perencanaan abstrak dan lambat, modul bawah: operasi cepat dan rinci)
- Berkat struktur ini, HRM memiliki kemampuan komputasi yang mendalam hanya dengan sedikit parameter (27 juta) dan dataset kecil (~1.000 contoh)
- HRM melampaui model CoT terbaru pada benchmark yang sulit (Extreme Sudoku, Maze-Hard, ARC-AGI)
- Sebagai contoh, akurasi Sudoku 96%, dan pada ARC-AGI-2 performanya 40,3%, mengungguli model besar seperti Claude 3.7 dan DeepSeek R1
- Perlu penjelasan bagaimana hasil seperti ini bisa muncul... sepertinya saya harus menjalankannya sendiri di komputer
"Setelah tahap T selesai, modul atas (modul H) menerima state hasil dari modul bawah lalu melakukan pembaruan; pada saat ini jalur komputasi modul bawah dimulai ulang dan mendorong tahap konvergensi baru"
- Saat RNN bawah selesai menghitung, modul atas mengevaluasi hasilnya, memberi konteks baru ke RNN bawah, lalu mengulangi loop
- Struktur ini berarti RNN bawah menjalankan pembelajaran backpropagation secara berulang, dan modul atas secara berkala ikut campur untuk menyesuaikannya sampai keluaran yang lebih baik muncul
- "Bukti neurosains menunjukkan bahwa mode kognitif semacam ini berbagi sirkuit saraf yang sama seperti korteks prefrontal, default mode network, dan sebagainya. Artinya, otak secara dinamis menyesuaikan 'waktu eksekusi' sirkuit ini berdasarkan kompleksitas tugas dan kemungkinan imbalan"
- Para penulis mengambil inspirasi dari mekanisme otak ini dan memasukkan strategi adaptive halting ke dalam HRM, yaitu menerapkan strategi 'berpikir cepat/lambat'
- Dengan kata lain, ini adalah scheduler yang secara otomatis menyesuaikan penggunaan sumber daya komputasi berdasarkan tingkat kesulitan tugas dan data yang diberikan
- Saya sangat suka bahwa di seluruh makalah mereka mengutip kemiripan dengan otak sungguhan
- Saya pikir AGI hanya mungkin jika primitive primitif seperti ini digabungkan ke dalam kompleksitas ekstrem, dengan memanfaatkan banyak 'modul' terspesialisasi untuk kerja sama, kompetisi, komunikasi, konkurensi, dan sebagainya
- Otak manusia juga pasti harus bekerja dengan cara seperti ini agar secara evolusioner bisa mencapai fungsi kognitif; dengan jaringan biologis yang lambat dan hemat daya, saya merasa ini satu-satunya solusi
Begitu membaca tentang pemisahan struktur hlm/llm, saya langsung teringat pada struktur otak manusia
Perlu sudut pandang yang skeptis
- Khususnya, idenya untuk mengakali backpropagation memang sangat menarik
- Namun tampaknya ini masih belum melalui peer review, dan bagian hasilnya juga tidak menjelaskan metode evaluasi secara rinci, sementara angka-angka hanya ada di gambar utama
- Angka pada leaderboard Benchmarks (ARC2) juga berbeda dari angka sebenarnya (saat ini peringkat atas sekitar 19%, sedangkan HRM sekitar 5%)
- Bisa dicek langsung di https://www.kaggle.com/competitions/arc-prize-2025/leaderboard
Kode dari para penulis tersedia secara publik di https://github.com/sapientinc/HRM
- Di bidang AI/ML, preprint dengan kode yang benar-benar bisa dijalankan dianggap jauh lebih berharga daripada makalah peer review resmi
- Preprint bisa diverifikasi dan direproduksi siapa saja, sedangkan peer review standar bergantung pada segelintir reviewer sibuk (bahkan kadang tidak dibayar dengan layak)
- Jika klaim penulis benar, pada akhirnya akan diakui dengan sendirinya; kalau tidak, akan dilupakan
- Secara praktis, ini adalah verifikasi terbuka yang terdistribusi dan global ala open source; mungkin tidak rapi, tetapi jauh lebih efektif daripada penelaahan makalah tradisional
Dalam makalah machine learning, sikap skeptis yang sehat itu wajib
- Karena makalah makin banyak, peer review tradisional jadi tidak efektif
- Reviewer sering kali sebenarnya kurang punya keahlian khusus di bidang yang ditangani, atau bahkan masih mahasiswa
- Peer review yang sesungguhnya adalah saat para ahli lain mengimplementasikan hasilnya secara independen dari arXiv dan sejenisnya, lalu mereproduksi hasil tersebut dan mengutipnya dalam makalah lanjutan
- Thread komentar ini sendiri adalah peer review yang nyata
Menurut saya, validasi skeptis terbaik adalah lewat eksperimen reproduksi dan perbandingan hasil
- Bulan depan saya punya libur 10 hari, jadi saya berencana melihat kode sumber dan dataset apa saja yang dirilis penulis, lalu mencoba mereproduksinya sendiri
Menilai hanya karena belum ada peer review rasanya terlalu tergesa-gesa
- Makalah mamba1 dan mamba2 juga awalnya belum melalui peer review
- Namun saya setuju bahwa klaim besar memerlukan bukti besar, dan saat ini saya sedang mencoba mereproduksi hasilnya sendiri secara lokal
Berharap ada peer review segera setelah makalah baru terbit menurut saya menunjukkan kurang paham prosesnya
- Untuk mengajukan penelitian ke peer review, urutannya memang harus 'dipublikasikan' lebih dulu
Saya seorang psikolog kognitif, dan sejak lama saya merasa arah AI seperti ini memang dibutuhkan
- Lihat Fuzzy Trace Theory[1]; memori membentuk dan menggabungkan representasi pada berbagai tingkat, dari tingkat kata (detail) hingga ringkasan (gist), lalu mengambilnya kembali
- Kombinasi representasi ringkas + informasi detail memungkinkan generalisasi yang kuat atau jalur recall yang fleksibel
- [1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/
Jika pemahaman saya benar, HRM melihat 1.000 pasangan Sudoku (teka-teki, solusi) lalu mempelajari aturannya sendiri
- Setelah itu, ia bisa menyelesaikan teka-teki baru yang belum pernah dilihat dengan akurasi 55%
- Jika dilatih dengan sejuta contoh, performanya menjadi nyaris sempurna
- Fakta bahwa sama sekali tidak ada pretraining benar-benar mengejutkan
- Sebaliknya, AlphaZero memiliki aturan (catur/go) yang ditanamkan dan hanya mempelajari strategi, tetapi HRM belajar sampai ke aturannya juga
- Saya berencana memeriksanya langsung di repositori GitHub
- AlphaZero memang memiliki aturan bawaan, tetapi MuZero dan model-model penerusnya berjalan tanpa aturan yang ditanamkan
  - MuZero melampaui AlphaZero, dan EfficientZero bahkan mengurangi jumlah data pelatihan
  - Kinerjanya unggul di berbagai lingkungan seperti game Atari
- Hasil mencoba langsung lewat source code:
  - Demi reproduksibilitas ilmiah, saya ingin meminta agar versi library disebutkan dengan jelas (pyproject.toml akan lebih baik)
  - 1.000 contoh Sudoku itu pada praktiknya diperluas datanya dengan algoritme permutasi yang ditulis manual, sehingga secara efektif menjadi dataset sekitar sejuta contoh
    (jadi sebenarnya bukan benar-benar 1.000)
Saya menanti, sekaligus agak takut, apakah model HRM akan segera digabung dengan MoE (Mixture of Experts)
- Tekanan ekonomi untuk membuat LLM lebih kuat sangat besar, jadi saya rasa penggabungan seperti ini bahkan bisa terjadi dalam hitungan bulan
- Makalah ini hanya membahas masalah puzzle seperti penyelesaian sudoku, bukan tanya-jawab atau area aplikasi utama LLM
- Sayang sekali mereka tidak membahas penggabungannya dengan LLM generasi berikutnya
- MoE memang berkaitan dengan klaster konsep, tetapi ke depan kedalaman konsep, jumlah hierarki, waktu belajar, dan sebagainya juga perlu dimasukkan ke latent space; ini mirip dengan bagaimana cara kita membaca buku matematika berbeda dengan membaca artikel pendek
- HRM dirancang untuk puzzle yang memiliki sedikit aturan tetapi saling terkait secara kompleks
  - Karena aturannya sedikit, model kecil pun bisa mempelajarinya, dan karena modelnya kecil, ia bisa dijalankan berulang kali untuk menangani semua interaksi
  - Pemodelan bahasa harus menyimpan sangat banyak frasa dan relasinya, jadi menurut saya akan sulit melakukan hal serupa dengan model kecil
  - Untungnya, di ranah bahasa biasanya hasil yang cukup berguna sudah bisa didapat hanya dengan beberapa tahap komputasi
  - Jika model sebesar LLM dijalankan dalam loop berulang ala HRM, kecepatannya akan terlalu lambat sehingga sulit dipakai secara nyata
  - Meski begitu, kita bisa membayangkan gabungan antara inti LLM + HRM kecil yang hanya menangani tugas pemenuhan constraint
- Saya juga agak curiga karena hampir tidak ada pembahasan tentang aplikasi lain selain Sudoku atau tentang keterbatasannya
Setelah menelusuri makalahnya, tampaknya sistem MoE LLM (baik autoregresif, difusi, energy-based, atau apa pun) juga bisa ditumpuk secara hierarkis dengan struktur HRM
- Saya rasa penggabungan itu juga bisa dipakai untuk membuat benchmark baru untuk efisiensi dan kualitas
Saya menilai tinggi inspirasi neurosainsnya, dan secara umum tidak terlihat ada hal yang terlalu bermasalah di makalah ini
- Saya memang belum sampai melakukan eksperimen replikasi sendiri, tetapi yang dibuat penulis tampaknya adalah pemecah masalah constraint-satisfaction yang mungkin cukup umum
- Ini adalah sistem yang belajar aturan constraint hanya dari sedikit contoh, dan kalau benar, itu sendiri sudah sangat menarik
- Namun perbandingan langsung dengan model CoT tidak terasa terlalu meyakinkan
- Model CoT pada prinsipnya bisa menyelesaikan masalah kompleks apa pun, tetapi HRM perlu dilatih terpisah untuk setiap puzzle khusus, jadi sulit mengklaimnya sebagai umum
- Misalnya, hanya karena engine catur Stockfish lebih jago catur daripada LLM bukan berarti Stockfish lebih 'cerdas'
- Idenya bagus, tetapi saya sedikit merasakan ada unsur marketing yang berlebihan di makalahnya
- Setuju! Bahkan itu sendiri sudah merupakan pencapaian besar
  - Hype yang berlebihan memang perlu dikendalikan, tetapi hasil seperti ini dari model sekecil ini tetap mengejutkan
  - Untuk masalah tertentu, model khusus justru lebih efisien dan lebih andal, jadi tidak perlu memaksakan struktur yang tidak efisien hanya demi label general-purpose
- Anda bilang model CoT pada dasarnya bisa menyelesaikan tugas kompleks apa pun, saya penasaran apa dasarnya
  - Saya juga ragu apakah ada bukti matematisnya
  - Secara pribadi saya menganggap CoT sendiri hanyalah semacam akal-akalan untuk mengakali keterbatasan LLM saat ini
Jika makalah ini benar, dampaknya akan sangat besar, jadi saya terus mengamatinya dengan saksama
- Konsep dasarnya terdengar masuk akal, tetapi sampai ada verifikasi pihak ketiga, saya akan tetap berhati-hati
- Saya ingin memastikannya langsung dalam praktik kerja nyata