- Dengan menggandakan 7 layer tengah dari LLM 72B parameter yang sangat besar lalu menyusunnya ulang, dicapai peringkat 1 di leaderboard tanpa pelatihan apa pun
- Eksperimen dilakukan dengan dua RTX 4090, dan hanya mengubah struktur agar layer tengah dijalankan berulang tanpa memodifikasi bobot model
- Rentang layer optimal dicari melalui dua tugas proksi kecil, yaitu penalaran matematika dan penalaran emosi (EQ)
- Hasilnya, model RYS-XLarge berbasis Qwen2-72B meningkat rata-rata +2.61%, khususnya MuSR +17.72% dan MATH +8.16%
- Pendekatan ini menunjukkan kemungkinan adanya "sirkuit fungsional" di dalam LLM dan mengarah pada riset "struktur neuroanatomi" model skala besar
Open LLM Leaderboard dan latar belakang eksperimen
- Pada pertengahan 2024, Open LLM Leaderboard milik HuggingFace menjadi arena persaingan model berbobot terbuka
- Metrik evaluasi: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
- Penulis melakukan eksperimen dengan menggandakan sebagian layer tengah dari model yang sudah ada, tanpa melatih model baru atau melakukan fine-tuning
- Layer yang digandakan diperkirakan merupakan bagian yang menangani proses "berpikir" model
Petunjuk 1 – eksperimen percakapan Base64
- Diamati fenomena bahwa LLM dapat memahami pertanyaan yang dienkode dalam Base64 dan mengembalikan jawaban yang benar juga dalam Base64
- Dari fakta bahwa model tetap bisa bernalar meski format input berubah, diajukan hipotesis bahwa layer awal berperan untuk menafsirkan input (translation), sedangkan layer akhir berperan untuk mengubah keluaran kembali (re-translation)
- Dengan demikian, layer tengah kemungkinan merupakan area yang melakukan pemikiran abstrak
Petunjuk 2 – struktur tak biasa pada model Goliath-120B
- Goliath-120B di HuggingFace memiliki struktur yang menggabungkan silang dua model Llama-2 70B, dengan keluaran layer akhir diumpankan balik ke masukan layer awal
- Dipastikan bahwa model tetap bekerja meski strukturnya berada di luar distribusi pelatihan normal
- Hal ini menyiratkan bahwa representasi antar-layer saling kompatibel dan bahwa representasi internal Transformer bersifat homogen (homogenous)
Membangun "brain scanner"
- Dibangun pipeline untuk menguji semua kombinasi rentang layer (i, j) pada model Qwen2-72B, total 3.241 kombinasi
- Pada tiap kombinasi, model direstrukturisasi agar melewati rentang layer tertentu dua kali
- Kriteria evaluasi harus memenuhi tiga syarat
- Meminimalkan output (untuk menjaga kecepatan)
- Dapat dinilai secara objektif
- Independensi kognitif (jika dua tugas meningkat bersamaan, dianggap sebagai perbaikan struktural)
Desain tugas proksi
- Hard Math Probe: mengestimasi langsung jawaban dari soal aritmetika kompleks
- EQ-Bench Probe: memprediksi intensitas emosi 0~100 dalam situasi sosial
- Kedua tugas memberikan output singkat dan jawaban yang jelas, sehingga cocok untuk mengukur perubahan struktural
Fungsi penilaian matematika dan evaluasi jawaban parsial
- Dikembangkan fungsi perhitungan skor kecocokan parsial dengan mempertimbangkan kesalahan angka LLM, seperti digit yang hilang atau tertukar
- Jawaban pendek dipadding dan galat relatif dihitung untuk mengubah tingkat ketepatan menjadi skor kontinu
- Dengan cara ini, perbedaan performa yang sangat kecil dapat dibedakan secara kuantitatif
Konfigurasi model RYS-XLarge
- Kombinasi optimal adalah (45, 52), yaitu mengulang sekali lagi layer 45~51
- Hasilnya adalah duplikasi 7 layer tengah, sehingga total parameter naik dari 72B → 78B
- Hanya struktur yang diubah tanpa modifikasi bobot, dan diimplementasikan dengan metode duplikasi pointer tanpa tambahan penggunaan VRAM
Hasil di leaderboard
| Item |
Skor |
Peningkatan dibanding baseline |
| Rata-rata |
44.75 |
+2.61% |
| MATH Lvl 5 |
38.97 |
+8.16% |
| MuSR |
23.72 |
+17.72% |
| BBH |
+2.51% |
|
| GPQA |
+2.58% |
|
| IFEval |
-2.05% |
|
- Meningkat pada 5 metrik, dan meraih peringkat 1 leaderboard berdasarkan skor rata-rata
- Karena metrik leaderboard tidak digunakan selama pengembangan, hasil ini dinilai sebagai efek generalisasi struktural yang murni
Penemuan "sirkuit fungsional" pada Transformer
- Pengulangan satu layer saja tidak efektif, tetapi performa meningkat hanya saat blok berurutan diulang
- Ini berarti layer tengah tidak bekerja sebagai operasi berulang yang independen, melainkan sebagai sirkuit (circuit) komputasi multistage
- Contoh: layer 46~52 melakukan penalaran bertahap layaknya sebuah "resep"
- Jika seluruh blok diulang, timbul efek melakukan penalaran sekali lagi
Analisis heatmap dan "LLM Neuroanatomy"
- Heatmap yang memvisualisasikan performa tiap kombinasi (i, j) menunjukkan pola yang mirip fMRI
- Pada tugas matematika, pengulangan layer tengah memberi peningkatan, sedangkan pada tugas EQ peningkatan muncul di area lain
- Ini menyiratkan adanya sirkuit fungsional spesifik tugas di dalam Transformer
Efek samping dari duplikasi yang salah
- Beberapa kombinasi membuat model menampilkan pengulangan bahasa yang tidak normal dan keluaran delusional
- Ini dianggap sebagai akibat dari perluasan berlebihan pada sirkuit tertentu, dan dianalogikan sebagai "cedera otak buatan"
- Contoh: sirkuit kepantasan sosial rusak sehingga muncul pola percakapan yang abnormal
Riset lanjutan dan model turunan
- Berdasarkan RYS-XLarge, beberapa peneliti kemudian menambahkan fine-tuning dan pelatihan ORPO
- Per awal 2026, empat model teratas di leaderboard semuanya adalah model 78B berbasis struktur RYS
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys, dll.
Skalasi struktural dan maknanya
- Duplikasi layer independen dari fine-tuning dan dapat dipakai bersamaan
- Ini adalah cara untuk mengubah bukan apa yang diketahui model, melainkan bagaimana model berpikir
- Semakin besar model, semakin terdiferensiasi area fungsionalnya sehingga duplikasi berbasis sirkuit makin efektif
- Pada model kecil, fungsi encoding, penalaran, dan decoding saling bercampur sehingga efek yang sama lebih terbatas
Rencana ke depan
- Teknik yang sama sedang diterapkan pada model terbaru seperti Qwen, MiniMax, dan GLM
- Dikonfirmasi bahwa tiap model memiliki "struktur neuroanatomi" yang unik
- Ke depan direncanakan rilis kode dan distribusi tambahan seri RYS
- Penulis menyebut, "Sekarang kami membedah otak buatan alih-alih otak tikus"
Kesimpulan
- Eksperimen yang meningkatkan performa LLM hanya dengan duplikasi layer tanpa mengubah bobot
- Secara empiris menunjukkan adanya sirkuit fungsional dan diferensiasi struktural di dalam Transformer
- Ini membuka arah baru bagi mechanistic interpretability dan ekspansi arsitektur yang efisien
1 komentar
Komentar Hacker News
Mengejutkan melihat jumlah komentar yang begitu tidak seimbang dibanding poinnya
Isinya sangat kaya, dan mengesankan bagaimana penjelasan teknisnya dibuat mudah dipahami bahkan oleh orang awam
Terutama bagian “fakta bahwa Goliath bisa bekerja itu sendiri sudah mengejutkan” menurut saya adalah inti utamanya. Saya penasaran kenapa lebih banyak peneliti tidak menaruh perhatian pada hal ini
Juga menarik melihat bagaimana penulis berpindah dari meneliti otak di bidang bioteknologi menjadi menangani AI di ruang bawah tanah penuh GPU(?)
Seperti kernel lapisan awal CNN yang konvergen ke filter Gabor, saya melihat lapisan internal LLM juga akan konvergen ke optimisasi matematis universal seperti efisiensi energi, kompresi informasi, dan optimisasi entropi
Saya sangat suka karena proses penemuannya ditunjukkan dengan rinci. Prosesnya bahkan lebih menarik daripada hasil akhirnya
Terutama bagian tentang menumpuk penalaran abstrak untuk meningkatkan performa, dan memvisualisasikan distribusi probabilitas dengan heatmap, sangat mengesankan
Makalah terkait juga perlahan mulai menyusul
Tetapi model seperti SOLAR pada akhirnya tampaknya akan menemui batas. Jika melihat heatmap, tumpukan transformer awalnya mulai dari bobot acak, lalu selama pelatihan perlahan berubah menjadi struktur terspesialisasi seperti ‘organ’
Organ seperti ‘token-to-thought’ dan ‘thought-to-token’ seharusnya hanya ada satu masing-masing. Pada akhirnya saya pikir struktur yang terspesialisasi akan selalu menang
Saya setuju dengan pernyataan “mengejutkan bahwa Goliath bisa bekerja”
Dulu juga ada eksperimen menggabungkan beberapa model, tetapi kebanyakan hanya setingkat eksperimen komunitas di Reddit atau Discord. Peneliti akademik maupun perusahaan tidak terlalu memperhatikannya
Tetap saja, saya penasaran apakah lapisan dari model yang benar-benar berbeda seperti Llama dan Qwen bisa dicampur dan tetap bekerja
Juga menarik kenapa LLM membuat kesalahan aneh pada soal aritmetika, seperti melewatkan digit terakhir atau menukar urutannya. Saya ingin mencoba apakah memaksa parsing tata bahasa akan memperbaikinya
Gagasan bahwa mungkin ada bahasa bersama kognitif (cognitive lingua franca) yang tersembunyi di dalam LLM terasa menarik
Ini mungkin bisa dipakai untuk membuat bank pengetahuan plug-in.
Jika kita bisa membuat model ramping yang hanya memasang pengetahuan yang dibutuhkan, maka pengetahuan terbaru bisa dipertahankan tanpa perlu melatih ulang seluruh model
Penalaran ruang laten (latent space reasoning) yang disebut penulis benar-benar mengesankan
Mengejutkan bahwa hanya dengan menggandakan lapisan saja, pelatihan masih bisa ter-backpropagate.
Saya juga penasaran bagaimana performanya akan berubah jika lapisan yang digandakan itu di-loop berulang. Jika dibandingkan dengan model MoE, mungkin kita bisa melihat apakah tiap lapisan bekerja seperti pakar yang independen
Namun eksperimen menggandakan lapisan di beberapa segmen sekaligus, lalu memprediksi penggabungannya dengan metamodel berbasis XGBoost, cukup menarik. Ini juga bekerja baik dengan MoE
Hanya saja istri saya tidak terlalu menyukai pemborosan waktu(?) ini
Konsep ‘operasi otak’ pada LLM sangat memikat. Saat llama.cpp mulai mendukung model vision, saya pernah membuat sebagian embedding yang dihasilkan projector menjadi 0 lalu meminta LLM mendeskripsikan gambar
Hasilnya ternyata luar biasa, seperti mengarang orang atau latar belakang yang sebenarnya tidak ada.
Suatu hari saya ingin bereksperimen secara sistematis mengenai hubungan antara dimensi vektor dan makna
Saya juga punya intuisi serupa tentang memanfaatkan lapisan tengah.
Setelah menonton video YouTube ini, saya merapikan pikiran saya dan sampai pada kesimpulan bahwa makin sering lapisan di-loop, urutan lapisannya tidak harus tetap
Jika selama pengulangan ada lapisan tertentu yang tidak perlu dan bisa dilewati, sementara hanya lapisan yang dibutuhkan yang diulang, pada akhirnya ini bisa bermuara pada model MOE satu lapis.
Konsep seperti knop intensitas penalaran untuk mengatur ‘seberapa dalam berpikir’ juga mungkin dibuat
Meski begitu, tetap akan menarik untuk menguji perubahan performa dengan mengacak urutan pemanggilan blok transformer
Saat membaca tulisan ini, saya merasa sejalan dengan struktur geometris pengetahuan.
Pola pikir generalis yang melintasi banyak bidang rasanya memang mencerminkan struktur saraf seperti ini.
Berkat tulisan ini, hari saya jadi menyenangkan
Menarik bahwa hanya sekitar 7 blok lapisan yang bekerja, dan lebih atau kurang dari itu tidak berhasil
Ini mengisyaratkan adanya unit fungsional (‘organ’) di dalam transformer yang masih belum kita pahami
Saya penasaran apakah ‘keajaiban 7 lapisan’ yang sama juga muncul pada arsitektur lain seperti Llama atau Mistral selain Qwen
Dari ide ini, ada dua pertanyaan yang langsung terlintas
Jika model ternyata setoleran ini terhadap perubahan lapisan internal, maka tidak semua token harus melewati semua lapisan
Jika kita membuat model yang menyesuaikan jumlah pengulangan berdasarkan tingkat kesulitan soal, maka soal mudah bisa diproses cepat, sedangkan soal sulit bisa bernalar lebih dalam
Selama pelatihan, model juga bisa dibuat untuk memprediksi confidence-nya sendiri guna memutuskan apakah perlu komputasi tambahan