Cara meraih peringkat 1 di Open LLM Leaderboard HuggingFace — dengan dua GPU gaming, tanpa mengubah bobot

(dnhkng.github.io)

1 poin oleh GN⁺ 2026-03-11 | 1 komentar | Bagikan ke WhatsApp

Dengan menggandakan 7 layer tengah dari LLM 72B parameter yang sangat besar lalu menyusunnya ulang, dicapai peringkat 1 di leaderboard tanpa pelatihan apa pun
Eksperimen dilakukan dengan dua RTX 4090, dan hanya mengubah struktur agar layer tengah dijalankan berulang tanpa memodifikasi bobot model
Rentang layer optimal dicari melalui dua tugas proksi kecil, yaitu penalaran matematika dan penalaran emosi (EQ)
Hasilnya, model RYS-XLarge berbasis Qwen2-72B meningkat rata-rata +2.61%, khususnya MuSR +17.72% dan MATH +8.16%
Pendekatan ini menunjukkan kemungkinan adanya "sirkuit fungsional" di dalam LLM dan mengarah pada riset "struktur neuroanatomi" model skala besar

Open LLM Leaderboard dan latar belakang eksperimen

Pada pertengahan 2024, Open LLM Leaderboard milik HuggingFace menjadi arena persaingan model berbobot terbuka
- Metrik evaluasi: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
Penulis melakukan eksperimen dengan menggandakan sebagian layer tengah dari model yang sudah ada, tanpa melatih model baru atau melakukan fine-tuning
Layer yang digandakan diperkirakan merupakan bagian yang menangani proses "berpikir" model

Petunjuk 1 – eksperimen percakapan Base64

Diamati fenomena bahwa LLM dapat memahami pertanyaan yang dienkode dalam Base64 dan mengembalikan jawaban yang benar juga dalam Base64
Dari fakta bahwa model tetap bisa bernalar meski format input berubah, diajukan hipotesis bahwa layer awal berperan untuk menafsirkan input (translation), sedangkan layer akhir berperan untuk mengubah keluaran kembali (re-translation)
Dengan demikian, layer tengah kemungkinan merupakan area yang melakukan pemikiran abstrak

Petunjuk 2 – struktur tak biasa pada model Goliath-120B

Goliath-120B di HuggingFace memiliki struktur yang menggabungkan silang dua model Llama-2 70B, dengan keluaran layer akhir diumpankan balik ke masukan layer awal
Dipastikan bahwa model tetap bekerja meski strukturnya berada di luar distribusi pelatihan normal
Hal ini menyiratkan bahwa representasi antar-layer saling kompatibel dan bahwa representasi internal Transformer bersifat homogen (homogenous)

Membangun "brain scanner"

Dibangun pipeline untuk menguji semua kombinasi rentang layer (i, j) pada model Qwen2-72B, total 3.241 kombinasi
Pada tiap kombinasi, model direstrukturisasi agar melewati rentang layer tertentu dua kali
Kriteria evaluasi harus memenuhi tiga syarat
- Meminimalkan output (untuk menjaga kecepatan)
- Dapat dinilai secara objektif
- Independensi kognitif (jika dua tugas meningkat bersamaan, dianggap sebagai perbaikan struktural)

Desain tugas proksi

Hard Math Probe: mengestimasi langsung jawaban dari soal aritmetika kompleks
EQ-Bench Probe: memprediksi intensitas emosi 0~100 dalam situasi sosial
Kedua tugas memberikan output singkat dan jawaban yang jelas, sehingga cocok untuk mengukur perubahan struktural

Fungsi penilaian matematika dan evaluasi jawaban parsial

Dikembangkan fungsi perhitungan skor kecocokan parsial dengan mempertimbangkan kesalahan angka LLM, seperti digit yang hilang atau tertukar
Jawaban pendek dipadding dan galat relatif dihitung untuk mengubah tingkat ketepatan menjadi skor kontinu
Dengan cara ini, perbedaan performa yang sangat kecil dapat dibedakan secara kuantitatif

Konfigurasi model RYS-XLarge

Kombinasi optimal adalah (45, 52), yaitu mengulang sekali lagi layer 45~51
Hasilnya adalah duplikasi 7 layer tengah, sehingga total parameter naik dari 72B → 78B
Hanya struktur yang diubah tanpa modifikasi bobot, dan diimplementasikan dengan metode duplikasi pointer tanpa tambahan penggunaan VRAM

Hasil di leaderboard

Item	Skor	Peningkatan dibanding baseline
Rata-rata	44.75	+2.61%
MATH Lvl 5	38.97	+8.16%
MuSR	23.72	+17.72%
BBH	+2.51%
GPQA	+2.58%
IFEval	-2.05%

Meningkat pada 5 metrik, dan meraih peringkat 1 leaderboard berdasarkan skor rata-rata
Karena metrik leaderboard tidak digunakan selama pengembangan, hasil ini dinilai sebagai efek generalisasi struktural yang murni

Penemuan "sirkuit fungsional" pada Transformer

Pengulangan satu layer saja tidak efektif, tetapi performa meningkat hanya saat blok berurutan diulang
Ini berarti layer tengah tidak bekerja sebagai operasi berulang yang independen, melainkan sebagai sirkuit (circuit) komputasi multistage
Contoh: layer 46~52 melakukan penalaran bertahap layaknya sebuah "resep"
- Jika seluruh blok diulang, timbul efek melakukan penalaran sekali lagi

Analisis heatmap dan "LLM Neuroanatomy"

Heatmap yang memvisualisasikan performa tiap kombinasi (i, j) menunjukkan pola yang mirip fMRI
Pada tugas matematika, pengulangan layer tengah memberi peningkatan, sedangkan pada tugas EQ peningkatan muncul di area lain
Ini menyiratkan adanya sirkuit fungsional spesifik tugas di dalam Transformer

Efek samping dari duplikasi yang salah

Beberapa kombinasi membuat model menampilkan pengulangan bahasa yang tidak normal dan keluaran delusional
Ini dianggap sebagai akibat dari perluasan berlebihan pada sirkuit tertentu, dan dianalogikan sebagai "cedera otak buatan"
Contoh: sirkuit kepantasan sosial rusak sehingga muncul pola percakapan yang abnormal

Riset lanjutan dan model turunan

Berdasarkan RYS-XLarge, beberapa peneliti kemudian menambahkan fine-tuning dan pelatihan ORPO
Per awal 2026, empat model teratas di leaderboard semuanya adalah model 78B berbasis struktur RYS
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys, dll.

Skalasi struktural dan maknanya

Duplikasi layer independen dari fine-tuning dan dapat dipakai bersamaan
Ini adalah cara untuk mengubah bukan apa yang diketahui model, melainkan bagaimana model berpikir
Semakin besar model, semakin terdiferensiasi area fungsionalnya sehingga duplikasi berbasis sirkuit makin efektif
Pada model kecil, fungsi encoding, penalaran, dan decoding saling bercampur sehingga efek yang sama lebih terbatas

Rencana ke depan

Teknik yang sama sedang diterapkan pada model terbaru seperti Qwen, MiniMax, dan GLM
Dikonfirmasi bahwa tiap model memiliki "struktur neuroanatomi" yang unik
Ke depan direncanakan rilis kode dan distribusi tambahan seri RYS
Penulis menyebut, "Sekarang kami membedah otak buatan alih-alih otak tikus"

Kesimpulan

Eksperimen yang meningkatkan performa LLM hanya dengan duplikasi layer tanpa mengubah bobot
Secara empiris menunjukkan adanya sirkuit fungsional dan diferensiasi struktural di dalam Transformer
Ini membuka arah baru bagi mechanistic interpretability dan ekspansi arsitektur yang efisien

1 komentar

GN⁺ 2026-03-11

Komentar Hacker News

Mengejutkan melihat jumlah komentar yang begitu tidak seimbang dibanding poinnya
Isinya sangat kaya, dan mengesankan bagaimana penjelasan teknisnya dibuat mudah dipahami bahkan oleh orang awam
Terutama bagian “fakta bahwa Goliath bisa bekerja itu sendiri sudah mengejutkan” menurut saya adalah inti utamanya. Saya penasaran kenapa lebih banyak peneliti tidak menaruh perhatian pada hal ini
Juga menarik melihat bagaimana penulis berpindah dari meneliti otak di bidang bioteknologi menjadi menangani AI di ruang bawah tanah penuh GPU(?)
- Proyek optogenetics dan CRISPR/Cas9 lama juga rencananya akan diposting di blog
  1. Makalah lain (seperti Solar10.7B) juga mencoba hal serupa, tetapi secara eksperimental menunjukkan bahwa menggandakan seluruh tumpukan transformer bukan ide yang bagus. Itu seperti menggandakan sebuah ‘organ’, jadi efisiensinya buruk
  2. Riset biologi itu menyenangkan, tetapi review paper dan pengajuan dana riset tidak cocok bagi saya. Karena itu saya mulai ngeblog sebagai peneliti independen. Semoga suatu hari ada yang mengutipnya
- Analogi memasukkan otak kucing ke kepala anjing itu lucu. Sebenarnya saya tidak menganggapnya terlalu mengejutkan
  Seperti kernel lapisan awal CNN yang konvergen ke filter Gabor, saya melihat lapisan internal LLM juga akan konvergen ke optimisasi matematis universal seperti efisiensi energi, kompresi informasi, dan optimisasi entropi
Saya sangat suka karena proses penemuannya ditunjukkan dengan rinci. Prosesnya bahkan lebih menarik daripada hasil akhirnya
Terutama bagian tentang menumpuk penalaran abstrak untuk meningkatkan performa, dan memvisualisasikan distribusi probabilitas dengan heatmap, sangat mengesankan
Makalah terkait juga perlahan mulai menyusul
- SOLAR / DUS (Kim et al., 2023): menggandakan lapisan transformer untuk membuat model 10.7B, dan performanya lebih baik daripada model 30B
- The Curse of Depth (2025): menjelaskan bahwa arsitektur Pre-LN membuat lapisan dalam konvergen menjadi identity function, sehingga lapisan tengah yang menangani komputasi sebenarnya
- Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): mengusulkan pendekatan memperluas kedalaman penalaran dengan menggunakan satu blok recurrent berulang kali
- Terima kasih atas pujiannya!
  Tetapi model seperti SOLAR pada akhirnya tampaknya akan menemui batas. Jika melihat heatmap, tumpukan transformer awalnya mulai dari bobot acak, lalu selama pelatihan perlahan berubah menjadi struktur terspesialisasi seperti ‘organ’
  Organ seperti ‘token-to-thought’ dan ‘thought-to-token’ seharusnya hanya ada satu masing-masing. Pada akhirnya saya pikir struktur yang terspesialisasi akan selalu menang
Saya setuju dengan pernyataan “mengejutkan bahwa Goliath bisa bekerja”
Dulu juga ada eksperimen menggabungkan beberapa model, tetapi kebanyakan hanya setingkat eksperimen komunitas di Reddit atau Discord. Peneliti akademik maupun perusahaan tidak terlalu memperhatikannya
Tetap saja, saya penasaran apakah lapisan dari model yang benar-benar berbeda seperti Llama dan Qwen bisa dicampur dan tetap bekerja
Juga menarik kenapa LLM membuat kesalahan aneh pada soal aritmetika, seperti melewatkan digit terakhir atau menukar urutannya. Saya ingin mencoba apakah memaksa parsing tata bahasa akan memperbaikinya
- Mencampur model yang berbeda menurut saya sulit karena ukuran embedding atau perbedaan kosakata. Bahkan dengan arsitektur yang sama, jika data latihnya berbeda maka representasi internalnya juga bisa berbeda. Meski begitu, tetap terdengar seru untuk dicoba
- Topik seperti ini memang area yang bagus untuk digarap peneliti hobi. Perusahaan lebih fokus melakukan fine-tune pada model yang sudah ada
- Angka multi-digit itu rumit karena ada banyak kombinasi token yang mungkin. Kode di blog membantu mengekstrak metrik yang berguna dari jawaban yang sebagian benar
Gagasan bahwa mungkin ada bahasa bersama kognitif (cognitive lingua franca) yang tersembunyi di dalam LLM terasa menarik
Ini mungkin bisa dipakai untuk membuat bank pengetahuan plug-in.
Jika kita bisa membuat model ramping yang hanya memasang pengetahuan yang dibutuhkan, maka pengetahuan terbaru bisa dipertahankan tanpa perlu melatih ulang seluruh model
- Ungkapan “mencolokkan bank pengetahuan” itu lucu — LLM: “...sekarang aku tahu kungfu”
- LLM masa depan mungkin akan memiliki struktur dengan layer encoding/decoding yang distandardisasi dipasang ke layer logika
- Dengan struktur seperti itu, kemungkinan halusinasi (hallucination) juga bisa berkurang
- Sebenarnya saya merasa pendekatan seperti ini bukankah mirip dengan yang sudah dilakukan LoRA
Penalaran ruang laten (latent space reasoning) yang disebut penulis benar-benar mengesankan
Mengejutkan bahwa hanya dengan menggandakan lapisan saja, pelatihan masih bisa ter-backpropagate.
Saya juga penasaran bagaimana performanya akan berubah jika lapisan yang digandakan itu di-loop berulang. Jika dibandingkan dengan model MoE, mungkin kita bisa melihat apakah tiap lapisan bekerja seperti pakar yang independen
- Saya sudah mencoba menggandakan lapisan individual, tetapi tidak banyak efeknya. Justru feedback output→input kebanyakan merugikan
  Namun eksperimen menggandakan lapisan di beberapa segmen sekaligus, lalu memprediksi penggabungannya dengan metamodel berbasis XGBoost, cukup menarik. Ini juga bekerja baik dengan MoE
  Hanya saja istri saya tidak terlalu menyukai pemborosan waktu(?) ini
- LoopLM tampaknya juga membahas ide serupa
Konsep ‘operasi otak’ pada LLM sangat memikat. Saat llama.cpp mulai mendukung model vision, saya pernah membuat sebagian embedding yang dihasilkan projector menjadi 0 lalu meminta LLM mendeskripsikan gambar
Hasilnya ternyata luar biasa, seperti mengarang orang atau latar belakang yang sebenarnya tidak ada.
Suatu hari saya ingin bereksperimen secara sistematis mengenai hubungan antara dimensi vektor dan makna
- Sekarang memang zaman yang enak untuk hidup sebagai hacker
Saya juga punya intuisi serupa tentang memanfaatkan lapisan tengah.
Setelah menonton video YouTube ini, saya merapikan pikiran saya dan sampai pada kesimpulan bahwa makin sering lapisan di-loop, urutan lapisannya tidak harus tetap
Jika selama pengulangan ada lapisan tertentu yang tidak perlu dan bisa dilewati, sementara hanya lapisan yang dibutuhkan yang diulang, pada akhirnya ini bisa bermuara pada model MOE satu lapis.
Konsep seperti knop intensitas penalaran untuk mengatur ‘seberapa dalam berpikir’ juga mungkin dibuat
- Ide yang menarik. Hanya saja, jika urutan lapisan dibuat benar-benar acak, bisa muncul masalah ledakan kombinasi
  Meski begitu, tetap akan menarik untuk menguji perubahan performa dengan mengacak urutan pemanggilan blok transformer
Saat membaca tulisan ini, saya merasa sejalan dengan struktur geometris pengetahuan.
Pola pikir generalis yang melintasi banyak bidang rasanya memang mencerminkan struktur saraf seperti ini.
Berkat tulisan ini, hari saya jadi menyenangkan
- Terima kasih
Menarik bahwa hanya sekitar 7 blok lapisan yang bekerja, dan lebih atau kurang dari itu tidak berhasil
Ini mengisyaratkan adanya unit fungsional (‘organ’) di dalam transformer yang masih belum kita pahami
Saya penasaran apakah ‘keajaiban 7 lapisan’ yang sama juga muncul pada arsitektur lain seperti Llama atau Mistral selain Qwen
Dari ide ini, ada dua pertanyaan yang langsung terlintas
1. Haruskah model memang dilatih sejak awal dengan struktur loop seperti ini?
2. Apakah benar kita perlu memakai jumlah lapisan yang tetap?
  Jika model ternyata setoleran ini terhadap perubahan lapisan internal, maka tidak semua token harus melewati semua lapisan
  Jika kita membuat model yang menyesuaikan jumlah pengulangan berdasarkan tingkat kesulitan soal, maka soal mudah bisa diproses cepat, sedangkan soal sulit bisa bernalar lebih dalam
  Selama pelatihan, model juga bisa dibuat untuk memprediksi confidence-nya sendiri guna memutuskan apakah perlu komputasi tambahan

Cara meraih peringkat 1 di Open LLM Leaderboard HuggingFace — dengan dua GPU gaming, tanpa mengubah bobot

Open LLM Leaderboard dan latar belakang eksperimen

Petunjuk 1 – eksperimen percakapan Base64

Petunjuk 2 – struktur tak biasa pada model Goliath-120B

Membangun "brain scanner"

Desain tugas proksi

Fungsi penilaian matematika dan evaluasi jawaban parsial

Konfigurasi model RYS-XLarge

Hasil di leaderboard

Penemuan "sirkuit fungsional" pada Transformer

Analisis heatmap dan "LLM Neuroanatomy"

Efek samping dari duplikasi yang salah

Riset lanjutan dan model turunan

Skalasi struktural dan maknanya

Rencana ke depan

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News