Titik Buta Evaluasi LLM: Mengapa Kita Hanya Melihat 'Pengetahuan', Bukan 'Perilaku'?

(dev.to/johnonlee)

14 poin oleh johnonlee 2026-05-27 | 5 komentar | Bagikan ke WhatsApp

• Evaluasi LLM masih berhenti di level "skor SAT" — MMLU, HumanEval, dan SWE-bench semuanya mengikuti paradigma satu sesi·satu jawaban benar. Agen coding di dunia nyata bekerja lintas banyak sesi, belajar dari kesalahan, dan membaca konvensi yang sudah ada. Ini bukan masalah pengetahuan (knowledge), melainkan perilaku (behavior).

• Saat merekrut orang, kita melihat "bagaimana cara mereka berpikir", bukan sekadar nilai akademik — jadi mengapa kita tidak melakukan itu pada evaluasi LLM. Saat ini kita masih terhenti pada tahap "memeriksa IPK", ketika semua model mencetak persentil ke-90.

• Meski memperbaiki bug yang sama, pendekatannya bisa sepenuhnya berbeda — Model A melakukan grep dan menambal dalam 30 detik (tipe prototyping), Model B memecahnya menjadi sub-tugas lalu mendekatinya secara sistematis (tipe arsitektur), Model C mempelajari preseden dari git log lalu memperbaikinya (tipe pemeliharaan). Ketiganya sama-sama memperbaiki bug. Skornya sama. Kecocokan perannya sepenuhnya berbeda.

• Usulan 4 dimensi pengamatan perilaku — Decomposition (memecah masalah vs langsung mengeksekusi), Approach (mencari pola vs menalar dari prinsip), Recovery (mengubah strategi saat buntu vs terus memaksa), Consistency (menunjukkan pendekatan yang sama pada masalah serupa).

Evaluasi pengetahuan vs evaluasi perilaku

Benchmark yang ada	Yang diukur	Yang terlewat
MMLU	Jumlah pengetahuan yang dihafal	Penilaian penerapan, "kesadaran atas hal yang tidak diketahui"
HumanEval	Tingkat lolos pada percobaan pertama	Debugging, iterasi, proses adaptasi
SWE-bench	Apakah patch lolos	Jalur pendekatan, pemahaman arsitektur, pembelajaran lintas sesi

Tahun 2026, pertanyaan yang benar-benar kita butuhkan

Sekarang ketika agen coding telah menjadi alat tim nyata, bukan sekadar demo, pertanyaan yang perlu kita ajukan bukanlah "berapa skornya":

"Model mana yang cocok untuk pemeliharaan legacy"
"Gaya debugging seperti apa yang cocok untuk pair programming tingkat junior"
"Model mana yang menunjukkan perilaku paling dapat diprediksi dari minggu ke minggu"

Ini adalah pertanyaan role-fit. Pertanyaan rekrutmen. Kita masih menjawabnya dengan skor SAT.

Kerangka ini tidak disajikan sebagai bentuk final. Dengan sikap "jika saya salah, mohon koreksi", penulis secara eksplisit membuka empat asumsi ini dan mendorong diskusi di kolom komentar. Pada April 2026, makalah Tang et al. berjudul "In-Situ Behavioral Evaluation for LLM Fairness" juga mengarah pada pemikiran serupa.

5 komentar

husky81 2026-05-28

Kalau dipikir-pikir, ujian masuk perguruan tinggi untuk menilai manusia juga pada akhirnya hanya melihat pengetahuan, bukan perilaku.

cronex 2026-05-27

Kalau bisa mempertahankan pola yang konsisten mungkin masih oke, tapi karena hasilnya selalu berbeda setiap kali dipakai..... jadi bingung harus menilainya bagaimana.

johnonlee 2026-05-27

Betul. Memang tidak ada jawaban yang pasti, tetapi rasanya kita juga perlu melihatnya dari arah seperti ini. Sekarang satu model disuruh mengerjakan semuanya dari awal sampai akhir, tetapi saya rasa besok mungkin akan ada perubahan ke pendekatan di mana tiap model menangani hanya area yang memang paling dikuasainya di tengah-tengah proses. Kalau semuanya belajar dengan giat, mereka mungkin akan memiliki tingkat pengetahuan yang kurang lebih mirip, tetapi tergantung pada pola perilakunya, hasil akhirnya bisa berbeda.

b8g6pn 2026-05-27

Karena tidak ada jawaban yang benar mutlak, dan yang penting adalah akurasi menurut standar manusia sambil menggunakan sumber daya sesedikit mungkin, bukankah yang tepat menilainya berdasarkan jumlah token dan tingkat pencapaian? Kalau sampai ikut mencampuri metodenya juga, jadinya memang sangat sulit...

aliveornot 2026-05-27

Bukan berarti itu salah, tapi apakah memang ada jawabannya? Bahkan dalam perekrutan nyata pun sulit untuk memberi skor pada hal seperti itu, jadi orang juga biasanya direkrut dulu, dipakai sambil dilihat, lalu diberhentikan... seperti saat memakai model AI lalu menggantinya.

Titik Buta Evaluasi LLM: Mengapa Kita Hanya Melihat 'Pengetahuan', Bukan 'Perilaku'?

Evaluasi pengetahuan vs evaluasi perilaku

Tahun 2026, pertanyaan yang benar-benar kita butuhkan

Bacaan terkait

5 komentar