3 poin oleh GN⁺ 2025-10-10 | 1 komentar | Bagikan ke WhatsApp
  • Tiny Recursion Model (TRM) mencapai performa tinggi dengan jaringan saraf kecil berukuran sekitar 7M parameter: 45% di ARC-AGI-1 dan 8% di ARC-AGI-2
  • Model ini membuktikan bahwa bahkan tanpa model bahasa besar, masalah sulit dapat diselesaikan dengan menerapkan metode penalaran rekursif
  • Model ini menyederhanakan struktur kompleks dari Hierarchical Reasoning Model (HRM) yang sudah ada, dan hanya menyisakan proses penalaran rekursif yang inti
  • TRM terus meningkatkan kualitas jawaban dengan model yang kecil dan efisien, tanpa bergantung pada otak manusia, teorema matematika yang rumit, atau struktur hierarkis
  • Makalah ini menekankan bahwa untuk memecahkan masalah sulit, yang penting adalah pendekatan baru, bukan ukuran model

Gambaran Umum

  • Makalah ini mengusulkan model penalaran rekursif baru bernama Tiny Recursion Model (TRM)
  • Meskipun merupakan jaringan saraf yang sangat kecil dengan hanya 7M parameter, TRM mencatat akurasi yang berarti, yakni 45% di ARC-AGI-1 dan 8% di ARC-AGI-2
  • Model ini secara eksperimental menunjukkan bahwa bahkan tanpa model besar yang dilatih perusahaan besar dengan biaya jutaan dolar, masalah kompleks tetap dapat diselesaikan secara memadai melalui penalaran rekursif yang efisien
  • Saat ini industri terlalu terfokus hanya pada pemanfaatan LLM, tetapi TRM menunjukkan bahwa arah baru dalam penalaran dan pembelajaran itu penting

Perbedaan dari Riset Sebelumnya

  • Pada Hierarchical Reasoning Model (HRM) sebelumnya, ketergantungan pada logika biologis, struktur hierarkis yang kompleks, dan teorema matematika (seperti teorema titik tetap) cukup tinggi
  • TRM menghilangkan kompleksitas tersebut dan menyisakan hanya mekanisme inti penalaran rekursif yang paling disederhanakan, sehingga baik desain maupun implementasinya menjadi lebih intuitif dan sederhana
  • Intinya adalah bahwa bahkan tanpa struktur otak manusia atau latar belakang teoretis, akurasi jawaban dapat terus ditingkatkan melalui proses pengulangan diri yang rekursif

Cara Kerja TRM

  • Dimulai dengan melakukan embedding pada pertanyaan masukan x, jawaban awal y, dan state tersembunyi z
  • Selama maksimum K kali langkah perbaikan, dua tahap berikut dijalankan berulang:
    • i) Dari pertanyaan saat ini x, jawaban y, dan state tersembunyi z, nilai z diperbarui berulang sebanyak n kali (reasoning rekursif)
    • ii) Dari jawaban saat ini y dan z baru, jawaban y diperbarui kembali untuk menghasilkan jawaban yang lebih baik
  • Proses pengulangan rekursif ini terus meningkatkan kualitas jawaban tanpa menambah parameter model, sekaligus mengurangi risiko overfitting

Kesimpulan

  • Riset TRM membuktikan bahwa ukuran model bukanlah faktor yang mutlak diperlukan untuk sukses
  • Eksperimen menunjukkan bahwa hanya dengan prinsip penalaran rekursif, jaringan saraf kecil pun dapat mencapai hasil yang mendekati model besar
  • Penelitian ini menekankan pentingnya pengembangan arah baru yang efisien dan kreatif dalam riset kecerdasan buatan masa depan
  • Detail lebih lanjut dapat dilihat di makalah

1 komentar

 
GN⁺ 2025-10-10
Komentar Hacker News
  • Saya sangat menyarankan semua orang untuk membaca dengan saksama posting blog penyelenggara ARC-AGI tentang HRM
    Dalam kondisi augmentasi data/test time training yang sama, Transformer dasar pun tampaknya menghasilkan hasil yang hampir mendekati “prestasi besar” yang dilaporkan untuk HRM
    Makalah ini juga tampaknya membandingkan dirinya pada ARC-AGI dengan kondisi yang serupa
    Saya juga ingin mendapatkan kemampuan penalaran yang hebat dengan model yang lebih kecil
    Namun, kita perlu lebih dulu memahami apa yang diukur ARC-AGI, pengaturan umum apa yang dipakai untuk membandingkan LLM komersial, dan pengaturan khusus apa yang dipakai di HRM maupun makalah ini
    Penamaan benchmark cenderung memicu ekspektasi berlebihan, dan saya melihat hal itu baik pada HRM maupun makalah ini

    • Makalah TRM sudah membahas posting blog tersebut
      Tidak perlu membaca analisis HRM secara terlalu mendetail, dan TRM punya struktur yang lebih disentangled dibanding HRM sehingga ablation jauh lebih mudah
      Menurut saya nilai sebenarnya dari blog HRM arcprize adalah penekanannya pada pentingnya uji ablation
      ARC-AGI dirancang sebagai tantangan untuk semua model
      Asumsinya adalah bahwa kemampuan penalaran model bahasa skala besar setingkat LLM diperlukan untuk menyelesaikannya, tetapi tampaknya itu adalah kesalahpahaman
      Saya ingin bertanya apakah HRM dan TRM dilatih secara khusus pada dataset kecil dari sampel ARC-AGI, sementara LLM tidak
      Atau saya penasaran perbedaan apa yang sedang ditekankan
  • Ini bukan benar-benar “Transformer dasar”, melainkan “arsitektur mirip Transformer dengan struktur recurrent”
    Pendekatan ini tetap merupakan topik eksperimen yang menarik
    Jelas ada kelebihannya, tetapi saya tidak menganggapnya benar-benar Transformer yang lebih baik
    Rasanya perhatian berlebihan yang diterimanya saat ini agak terlalu besar

  • Setelah melihat ini, saya kembali teringat pada kemiripan antara filter Finite Impulse Response (FIR) (LLM konvensional) dan filter Infinite Impulse Response (IIR) (model rekursif)
    Ini bukan analogi yang luar biasa atau orisinal, tetapi pada FIR kita membutuhkan jauh lebih banyak koefisien dibanding IIR untuk mendapatkan karakteristik cutoff yang serupa
    Misalnya, kita bisa mengubah IIR menjadi FIR dengan window design method, dan dalam kasus itu struktur rekursif dibuka lalu dihentikan pada kedalaman terbatas
    Mirip dengan itu, jika TRM di-unroll, hasilnya menjadi struktur pengulangan blok attention+ff pada arsitektur LLM tradisional, hanya tanpa global feedback
    Selain itu, tidak seperti IIR sungguhan, TRM mengimplementasikan cutoff yang terbatas, jadi secara struktural tampaknya lebih dekat ke FIR/LLM
    Akan menarik juga membandingkan TRM dengan struktur yang dibuka dengan cara serupa
    Tapi mungkin ini cuma pikiran ngawur karena kurang tidur

    • Saya ingin memperkenalkan Deep Equilibrium Models
      Ini berangkat dari pengamatan bahwa sebagian besar hidden layer pada model sekuens dalam yang ada akan konvergen ke suatu fixed point, lalu langsung mencari fixed point itu sendiri dengan root finding
      Pendekatan ini ekuivalen dengan menjalankan jaringan feedforward berbobot-terikat dengan kedalaman tak hingga, dan backpropagation juga dimungkinkan melalui diferensiasi implisit
      (tautan makalah arXiv)
      Hal menarik dari model deep equilibrium adalah bahwa hanya dengan satu layer saja, ia bisa setara dengan jaringan deep learning yang menumpuk banyak layer
      Yang dibutuhkan hanyalah rekursi
      Model ini menyesuaikan sendiri jumlah iterasi berdasarkan tingkat kesulitan tugas
  • Saya mengimplementasikan HRM untuk tujuan edukasi dan mendapatkan performa yang baik pada pencarian jalur
    Setelah itu saya melakukan eksperimen ablation dan sampai pada kesimpulan yang sama dengan tim ARC-AGI (yaitu arsitektur HRM itu sendiri tidak terlalu berperan)
    Agak mengecewakan
    Saya rasa ada sesuatu yang menjanjikan pada latent space reasoning
    Repositori implementasi

    • Menurut saya ini pekerjaan yang hebat, terima kasih sudah merapikan dan membagikannya
      Replikasi dan berbagi pengalaman benar-benar penting
  • Saya penasaran apakah hasil yang ditunjukkan dalam makalah arXiv ini benar-benar dapat diskalakan
    Jika hasil ini juga berlaku pada aplikasi nyata, itu pasti akan sangat revolusioner
    Di sisi lain, jika memang begitu, muncul juga bayangan menarik bahwa besarnya investasi astronomis untuk infrastruktur pusat data AI saat ini bisa mendadak menjadi tak berarti
    (meskipun tentu tidak akan lama)

    • Saat membahas HRM, analisis HRM dari arcprize wajib dirujuk
      Makalah ini tampak seperti versi yang disederhanakan dari HRM, dan sepertinya juga merujuk pada studi ablation dalam analisis itu
      Penting juga bahwa HRM bukan arsitektur yang dapat diterapkan secara luas seperti transformer LLM umum
      Sampai sekarang belum ada bukti bahwa HRM berhasil untuk tugas AI generatif yang umum
      Saya sedang membaca makalahnya, tetapi struktur kali ini juga tampaknya cocok untuk tugas yang mirip HRM (misalnya penalaran spasial seperti ARC-AGI), dan masih perlu diintegrasikan ke arsitektur yang lebih umum

    • Saya rasa paradoks Jevons berlaku di sini
      Jika biaya AI/listrik turun, permintaan justru akan naik lebih tinggi

    • Skenario gelembung AI pecah karena teknologi AI menjadi terlalu bagus dan efisiensinya meningkat ekstrem, terdengar cukup masuk akal

    • Soal pernyataan bahwa investasi infrastruktur pusat data AI bisa menjadi tak berarti
      Komputasi GPU bukan hanya untuk inferensi teks, dan khususnya permintaan untuk generasi video tampaknya akan sulit jenuh dalam waktu dekat bahkan jika ada terobosan

    • Jika hasil seperti itu benar-benar muncul, industri hampir pasti akan segera mengadopsi pendekatan ini lalu bergerak ke arah melatih model yang lebih besar dan lebih kuat

  • “Dengan 7M parameter, TRM mencapai akurasi uji 45% pada ARC-AGI-1 dan 8% pada ARC-AGI-2, lebih tinggi daripada sebagian besar LLM seperti Deepseek R1, o3-mini, dan Gemini 2.5 Pro, dengan parameter kurang dari 0,01%”
    Benar-benar mengesankan
    Sebagai catatan, secara struktural ini terasa mirip dengan Hierarchical Temporal Memory yang diusulkan Jeff Hawkins dalam “On Intelligence”
    (tentu saja tanpa karakteristik sparsity, tetapi unsur hierarkis/temporalnya mirip)
    Wiki HTM, Numenta

    • Saya pikir ketiadaan sparsity mungkin adalah tumit Achilles dari pendekatan LLM saat ini
  • Ringkasan
    Hierarchical Reasoning Model (HRM) adalah pendekatan baru yang menjalankan dua jaringan saraf kecil secara rekursif pada ritme yang berbeda
    Dibuat dengan inspirasi biologis, dan dengan model kecil (27M parameter) serta data yang kecil dan sedikit (sekitar 1000 contoh), ia melampaui LLM besar pada teka-teki sulit seperti Sudoku, Maze, dan ARC-AGI
    Strukturnya belum sepenuhnya dipahami dan performanya mungkin belum optimal
    Kami mengusulkan pendekatan penalaran rekursif yang jauh lebih sederhana (TRM, Tiny Recursive Model), dan model ini menunjukkan generalisasi yang jauh lebih baik daripada HRM dengan jaringan kecil 2 layer
    Hanya dengan 7M parameter, ia melampaui LLM besar (akurasi uji 45% pada ARC-AGI-1 dan 8% pada ARC-AGI-2, dengan parameter kurang dari 0,01%)

    • Hasil bahwa hanya dengan 7M parameter bisa melampaui LLM besar sangat menarik
      Tapi saya penasaran karena rasanya mungkin ada keterbatasan tersembunyi
  • Menarik melihat efek recurrence menghasilkan hasil yang baik pada masalah ARC
    Jika tertarik pada recurrence, ada baiknya juga melihat makalah-makalah di bawah ini yang menerapkan model seperti ini pada masalah lain

  • Secara umum saya suka keluarga transformer RNN
    Pada dasarnya ini adalah struktur di mana EBM mempelajari energy landscape lalu tertarik masuk ke solusi
    Rasanya seperti menyelesaikan masalah diskret secara bertahap menjadi lebih convex
    Ini mengingatkan saya pada kesamaan dengan neural cellular automata, flow matching/diffusion, dan sebagainya
    Pendekatan ini juga tampak menjanjikan untuk masalah kontrol
    Ia terus bergerak di state space dan pada setiap langkah hanya memilih aksi yang valid

  • Saya merasa ini pada dasarnya sama saja dengan Chain-of-Thought (CoT) neuralese
    z/z_L secara eksplisit disebut sebagai reasoning embedding, dan ini berperan menyempurnakan output embedding (z_H/y) secara bertahap sambil berubah atau dipertahankan melalui proses rekursif
    Rasanya seperti neuralese CoT/rantai penalaran yang sesungguhnya