• Evaluasi LLM masih berhenti di level "skor SAT" — MMLU, HumanEval, dan SWE-bench semuanya mengikuti paradigma satu sesi·satu jawaban benar. Agen coding di dunia nyata bekerja lintas banyak sesi, belajar dari kesalahan, dan membaca konvensi yang sudah ada. Ini bukan masalah pengetahuan (knowledge), melainkan perilaku (behavior).
• Saat merekrut orang, kita melihat "bagaimana cara mereka berpikir", bukan sekadar nilai akademik — jadi mengapa kita tidak melakukan itu pada evaluasi LLM. Saat ini kita masih terhenti pada tahap "memeriksa IPK", ketika semua model mencetak persentil ke-90.
• Meski memperbaiki bug yang sama, pendekatannya bisa sepenuhnya berbeda — Model A melakukan grep dan menambal dalam 30 detik (tipe prototyping), Model B memecahnya menjadi sub-tugas lalu mendekatinya secara sistematis (tipe arsitektur), Model C mempelajari preseden dari git log lalu memperbaikinya (tipe pemeliharaan). Ketiganya sama-sama memperbaiki bug. Skornya sama. Kecocokan perannya sepenuhnya berbeda.
• Usulan 4 dimensi pengamatan perilaku — Decomposition (memecah masalah vs langsung mengeksekusi), Approach (mencari pola vs menalar dari prinsip), Recovery (mengubah strategi saat buntu vs terus memaksa), Consistency (menunjukkan pendekatan yang sama pada masalah serupa).
Evaluasi pengetahuan vs evaluasi perilaku
| Benchmark yang ada | Yang diukur | Yang terlewat |
|---|---|---|
| MMLU | Jumlah pengetahuan yang dihafal | Penilaian penerapan, "kesadaran atas hal yang tidak diketahui" |
| HumanEval | Tingkat lolos pada percobaan pertama | Debugging, iterasi, proses adaptasi |
| SWE-bench | Apakah patch lolos | Jalur pendekatan, pemahaman arsitektur, pembelajaran lintas sesi |
Tahun 2026, pertanyaan yang benar-benar kita butuhkan
Sekarang ketika agen coding telah menjadi alat tim nyata, bukan sekadar demo, pertanyaan yang perlu kita ajukan bukanlah "berapa skornya":
- "Model mana yang cocok untuk pemeliharaan legacy"
- "Gaya debugging seperti apa yang cocok untuk pair programming tingkat junior"
- "Model mana yang menunjukkan perilaku paling dapat diprediksi dari minggu ke minggu"
Ini adalah pertanyaan role-fit. Pertanyaan rekrutmen. Kita masih menjawabnya dengan skor SAT.
Kerangka ini tidak disajikan sebagai bentuk final. Dengan sikap "jika saya salah, mohon koreksi", penulis secara eksplisit membuka empat asumsi ini dan mendorong diskusi di kolom komentar. Pada April 2026, makalah Tang et al. berjudul "In-Situ Behavioral Evaluation for LLM Fairness" juga mengarah pada pemikiran serupa.
Belum ada komentar.