Model Penalaran Hierarkis
(arxiv.org)- Model Penalaran Hierarkis (Hierarchical Reasoning Model, HRM) mengatasi keterbatasan teknik Chain-of-Thought berbasis LLM yang ada saat ini dalam proses menjalankan perilaku berorientasi tujuan yang kompleks pada AI, seperti dekomposisi tugas yang tidak stabil, kebutuhan data yang besar, dan masalah latensi
- Terinspirasi dari konsep pemrosesan hierarkis pada otak manusia, HRM memperkenalkan struktur rekuren baru yang terdiri dari modul tingkat tinggi yang menangani perencanaan abstrak berdimensi tinggi dan modul tingkat rendah yang memproses operasi rinci dengan cepat
- HRM menunjukkan performa unggul pada masalah penalaran berkesulitan tinggi hanya dengan sekitar 27 juta parameter dan 1.000 sampel pelatihan
- Bahkan tanpa pra-pelatihan dan tanpa data Chain-of-Thought, HRM mencapai akurasi nyaris sempurna pada tugas seperti Sudoku kompleks dan pencarian jalur optimal pada labirin besar
- HRM menunjukkan efisiensi dan performa yang lebih tinggi dibanding model besar yang ada, serta memperlihatkan kemungkinan menjadi titik balik bagi komputasi umum dan sistem kecerdasan umum
Ikhtisar
Dalam bidang AI, penalaran (reasoning) merupakan tantangan penting dalam proses merancang dan menjalankan perilaku kompleks yang berorientasi tujuan. Model bahasa besar (LLM) yang ada saat ini umumnya menggunakan teknik Chain-of-Thought (CoT), tetapi pendekatan ini memiliki keterbatasan seperti dekomposisi tugas yang rapuh, kebutuhan data yang besar, dan latensi yang tinggi.
- Berangkat dari struktur pemrosesan hierarkis dan multi-skala waktu pada otak manusia, Hierarchical Reasoning Model (HRM) diusulkan
- HRM terdiri dari dua modul rekuren dependen (tingkat tinggi/tingkat rendah) dan melakukan penalaran berurutan dalam satu forward pass tanpa supervisi eksplisit terhadap proses antara
- Dengan 27 juta parameter dan hanya menggunakan 1.000 sampel, HRM menunjukkan performa mutakhir
Keterbatasan struktural deep learning dan LLM saat ini
- Deep learning berawal dari pendekatan meningkatkan daya representasi dengan menumpuk kedalaman jaringan, tetapi LLM berbasis Transformer pada praktiknya memiliki struktur yang dangkal sehingga terbatas dari sisi kedalaman
- Transformer dengan kedalaman tetap memiliki batasan mendasar dalam kompleksitas komputasi untuk penalaran logis yang kompleks atau masalah algoritmik
- Chain-of-Thought bergantung pada dekomposisi bertahap berbasis bahasa yang ditentukan manusia, sehingga seluruh proses penalaran mudah runtuh akibat kesalahan atau urutan yang keliru
- CoT juga menimbulkan masalah kebutuhan data besar, generasi token yang banyak, dan eksekusi yang lambat
Prinsip desain HRM
Dirancang dengan meniru pemrosesan hierarkis dan multi-skala waktu pada otak manusia
- Pemrosesan hierarkis: otak memproses informasi secara hierarkis dan temporal terpisah di area tingkat atas dan bawah
- Pemisahan skala waktu: area atas bekerja lambat, area bawah bekerja cepat, sehingga memungkinkan pengarahan yang efisien
- Koneksi rekuren: melalui umpan balik balik yang berulang, representasi internal disempurnakan untuk mewujudkan penalaran mendalam
Arsitektur model HRM
- Terdiri dari jaringan input, modul rekuren tingkat rendah, modul rekuren tingkat tinggi, dan jaringan output
- Input di-embedding menjadi vektor
- Modul tingkat rendah diperbarui beberapa kali berdasarkan status sebelumnya, status terkini modul tingkat tinggi, dan input
- Modul tingkat tinggi diperbarui hanya sekali setiap kali satu cycle berakhir, dengan menerima status akhir modul tingkat rendah
- Pada tahap akhir, nilai prediksi dihasilkan dari status modul tingkat tinggi
Mekanisme konvergensi hierarkis (hierarchical convergence)
- RNN konvensional cenderung konvergen terlalu cepat, sehingga komputasi tambahan menjadi tidak bermakna
- Pada HRM, RNN tingkat rendah terlebih dahulu konvergen secara stabil ke titik ekuilibrium lokal di setiap cycle, lalu modul tingkat tinggi memberikan konteks baru agar modul tingkat rendah memulai kembali
- Berkat struktur konvergensi hierarkis, komputasi yang dalam (banyak langkah) menjadi mungkin, dan kecepatan konvergensi juga dapat dikendalikan secara tepat
Pelatihan gradien aproksimasi 1-langkah
- Jika bergantung pada BPTT (Backpropagation Through Time), banyak status dari banyak langkah harus disimpan sehingga beban memori menjadi besar
- HRM belajar dengan mengaproksimasi gradien hanya dari status terakhir pada masing-masing modul tingkat tinggi/rendah, sehingga penggunaan memori O(1) tetap terjaga dan pendekatan yang lebih realistis secara biologis dapat diterapkan
- Secara matematis, pendekatan ini didasarkan pada prinsip Deep Equilibrium Model (DEQ)
Deep supervision & Adaptive Computation Time (ACT)
Deep supervision
- Memberikan umpan balik secara periodik, menghasilkan output pada setiap forward pass (segment), dan menghitung loss pelatihan tiap segment secara terpisah
- Saat meneruskan ke segment berikutnya, status dipisahkan dari graph (detach) untuk meningkatkan stabilitas dan performa struktur rekuren yang dalam
Adaptive Computation Time (ACT)
- Dengan mengadopsi prinsip perpindahan antara pemikiran otomatis dan disengaja pada manusia, jumlah pengulangan segment ditentukan secara dinamis berbasis pembelajaran melalui Q-learning
- Q-head memprediksi Q-value untuk aksi halt/continue pada setiap segment
- Q-learning menghitung keseluruhan loss dengan mempertimbangkan akurasi prediksi dan titik penghentian optimal secara bersamaan
Performa dan karakteristik arsitektur
-
Pada Sudoku-Extreme (9x9), labirin besar (30x30), dan masalah lain yang gagal diselesaikan model berbasis CoT, HRM mampu menyelesaikannya nyaris sempurna hanya dengan sekitar 1.000 data
-
Pada benchmark ARC-AGI (Abstraction and Reasoning Corpus), HRM mencapai performa 40,3% hanya dengan 27M parameter (CoT-based o3-mini-high 34,5%, Claude 3.7 8K 21,2%)
-
Peningkatan performa tambahan dimungkinkan hanya dengan menambah jumlah komputasi (steps) pada tahap inferensi, sehingga sumber daya komputasi dapat dimanfaatkan tanpa modifikasi arsitektur tambahan atau pelatihan ulang
-
HRM secara internal memanfaatkan arsitektur sequence-to-sequence berbasis Transformer, dengan
- setelah lapisan embedding, baik modul tingkat rendah maupun tingkat tinggi menggunakan blok Transformer encoder-only
- menerapkan fitur LLM modern (Rotary Positional Encoding, Gated Linear Units, RMSNorm, dll.)
- parameter menggunakan inisialisasi truncated LeCun Normal, serta optimizer Adam-atan2 + learning rate tetap
Kesimpulan
- HRM membuktikan kemampuan penalaran umum yang unggul dibanding pendekatan sebelumnya dengan struktur rekuren hierarkis yang terinspirasi biologis serta metode pelatihan yang efisien dan mendalam, bahkan dengan data dan parameter yang sedikit
- Ini merupakan contoh penting yang menunjukkan potensi perkembangan menuju komputasi umum dan sistem kecerdasan yang melampaui batas kedalaman deep learning/LLM saat ini
1 komentar
Komentar Hacker News
Dari sekilas melihat abstrak dan pendahuluannya, hasil model hierarchical reasoning (HRM) ini tampak benar-benar mengejutkan
Sangat meragukan bahwa model 27M parameter dilatih 'dari nol' hanya dengan 1.000 titik data
Betul!
"Setelah tahap T selesai, modul atas (modul H) menerima state hasil dari modul bawah lalu melakukan pembaruan; pada saat ini jalur komputasi modul bawah dimulai ulang dan mendorong tahap konvergensi baru"
Begitu membaca tentang pemisahan struktur hlm/llm, saya langsung teringat pada struktur otak manusia
Perlu sudut pandang yang skeptis
Kode dari para penulis tersedia secara publik di https://github.com/sapientinc/HRM
Dalam makalah machine learning, sikap skeptis yang sehat itu wajib
Menurut saya, validasi skeptis terbaik adalah lewat eksperimen reproduksi dan perbandingan hasil
Menilai hanya karena belum ada peer review rasanya terlalu tergesa-gesa
Berharap ada peer review segera setelah makalah baru terbit menurut saya menunjukkan kurang paham prosesnya
Saya seorang psikolog kognitif, dan sejak lama saya merasa arah AI seperti ini memang dibutuhkan
Jika pemahaman saya benar, HRM melihat 1.000 pasangan Sudoku (teka-teki, solusi) lalu mempelajari aturannya sendiri
Setelah itu, ia bisa menyelesaikan teka-teki baru yang belum pernah dilihat dengan akurasi 55%
Jika dilatih dengan sejuta contoh, performanya menjadi nyaris sempurna
Fakta bahwa sama sekali tidak ada pretraining benar-benar mengejutkan
Sebaliknya, AlphaZero memiliki aturan (catur/go) yang ditanamkan dan hanya mempelajari strategi, tetapi HRM belajar sampai ke aturannya juga
Saya berencana memeriksanya langsung di repositori GitHub
AlphaZero memang memiliki aturan bawaan, tetapi MuZero dan model-model penerusnya berjalan tanpa aturan yang ditanamkan
Hasil mencoba langsung lewat source code:
pyproject.tomlakan lebih baik)(jadi sebenarnya bukan benar-benar 1.000)
Saya menanti, sekaligus agak takut, apakah model HRM akan segera digabung dengan MoE (Mixture of Experts)
Tekanan ekonomi untuk membuat LLM lebih kuat sangat besar, jadi saya rasa penggabungan seperti ini bahkan bisa terjadi dalam hitungan bulan
Makalah ini hanya membahas masalah puzzle seperti penyelesaian sudoku, bukan tanya-jawab atau area aplikasi utama LLM
Sayang sekali mereka tidak membahas penggabungannya dengan LLM generasi berikutnya
MoE memang berkaitan dengan klaster konsep, tetapi ke depan kedalaman konsep, jumlah hierarki, waktu belajar, dan sebagainya juga perlu dimasukkan ke latent space; ini mirip dengan bagaimana cara kita membaca buku matematika berbeda dengan membaca artikel pendek
HRM dirancang untuk puzzle yang memiliki sedikit aturan tetapi saling terkait secara kompleks
Saya juga agak curiga karena hampir tidak ada pembahasan tentang aplikasi lain selain Sudoku atau tentang keterbatasannya
Setelah menelusuri makalahnya, tampaknya sistem MoE LLM (baik autoregresif, difusi, energy-based, atau apa pun) juga bisa ditumpuk secara hierarkis dengan struktur HRM
Saya menilai tinggi inspirasi neurosainsnya, dan secara umum tidak terlihat ada hal yang terlalu bermasalah di makalah ini
Saya memang belum sampai melakukan eksperimen replikasi sendiri, tetapi yang dibuat penulis tampaknya adalah pemecah masalah constraint-satisfaction yang mungkin cukup umum
Ini adalah sistem yang belajar aturan constraint hanya dari sedikit contoh, dan kalau benar, itu sendiri sudah sangat menarik
Namun perbandingan langsung dengan model CoT tidak terasa terlalu meyakinkan
Model CoT pada prinsipnya bisa menyelesaikan masalah kompleks apa pun, tetapi HRM perlu dilatih terpisah untuk setiap puzzle khusus, jadi sulit mengklaimnya sebagai umum
Misalnya, hanya karena engine catur Stockfish lebih jago catur daripada LLM bukan berarti Stockfish lebih 'cerdas'
Idenya bagus, tetapi saya sedikit merasakan ada unsur marketing yang berlebihan di makalahnya
Setuju! Bahkan itu sendiri sudah merupakan pencapaian besar
Anda bilang model CoT pada dasarnya bisa menyelesaikan tugas kompleks apa pun, saya penasaran apa dasarnya
Jika makalah ini benar, dampaknya akan sangat besar, jadi saya terus mengamatinya dengan saksama