Qwen2-72B Juara 1 Papan Peringkat dengan Menggandakan 7 Layer Tengah, Tanpa Menyentuh Satu Pun Bobot
(dnhkng.github.io)Developer David Noel Ng mencapai peringkat 1 pada HuggingFace Open LLM leaderboard 2024 dengan metode yang sangat sederhana: melewatkan ulang hanya 7 layer tengah dari model Qwen2-72B. Tanpa bobot tambahan maupun fine-tuning sama sekali.
Poin utama
-
Pada Qwen2-72B (total 80 layer), model dimodifikasi dengan membuat rentang tengah tertentu (layer 45~51, sebanyak 7 layer) dilewati satu kali lagi
→ parameter meningkat dari 72B → sekitar 78B, tetapi jumlah bobot baru yang ditambahkan adalah 0 -
Hasil benchmark
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- Kinerja naik di 5 dari 6 benchmark utama → mencatat peringkat 1 leaderboard berdasarkan skor rata-rata
Mengapa ini efektif?
- Ada hipotesis bahwa di dalam model transformer terdapat 'circuit' yang terdiferensiasi menurut fungsi (LLM Neuroanatomy)
- Layer awal: encoding input
- Layer tengah: bagian penalaran dan "berpikir" yang sebenarnya berlangsung (ada circuit khusus untuk matematika, pemahaman emosi, dll.)
- Layer akhir: decoding output
→ Jika circuit penalaran di tengah dijalankan sekali lagi, fungsinya menjadi lebih kuat
Metode eksperimen
Dengan 2 RTX 4090, ia menguji secara menyeluruh 3.241 kombinasi rentang layer → dianalisis dengan heatmap
→ Ditemukan pola bahwa performa melonjak tajam ketika hanya rentang tertentu (45~52) yang diulang
Insight tambahan
- Mengulang satu layer tunggal → performa turun
- Mengulang blok yang terdiri dari beberapa layer → memperkuat fungsi tertentu
- Setelah itu, model berbasis ide ini (RYS-XLarge → calme-3.2, dll.) sempat menempati papan atas leaderboard pada awal 2026
Kesimpulan
LLM bukan sekadar tumpukan layer, melainkan memiliki circuit yang terdiferensiasi secara fungsional seperti otak.
Temuan ini menunjukkan bahwa hanya dengan menemukan circuit tersebut lalu melewatkannya ulang, performa bisa ditingkatkan secara signifikan tanpa menyentuh bobot sama sekali.
1 komentar
> Semakin kecil model, tampaknya semakin kompleks. Fungsi encoding, penalaran, dan decoding terjalin lebih rumit dan tersebar di seluruh area. Saya tidak menemukan satu pun area tumpang tindih fungsi yang menggeneralisasi lintas berbagai tugas, tetapi jelas bahwa memperkuat satu 'kemampuan' dapat melemahkan kemampuan lain. Namun, semakin besar model, struktur fungsionalnya semakin terpisah. Model besar memiliki lebih banyak 'ruang' untuk mengembangkan sirkuit 'berpikir' yang tergeneralisasi, dan ini mungkin alasan metode saya sangat efektif pada model 72B. Di bawah ambang parameter tertentu, 'korteks penalaran' belum sepenuhnya terdiferensiasi dari bagian otak lainnya.
Kalau begini, bisa jadi perbedaan performa antara model kecil dan model besar akan makin ekstrem.