Riset mengungkap kelemahan dalam cara evaluasi sistem AI
(oii.ox.ac.uk)- Studi skala besar yang dipimpin Oxford Internet Institute (OII) dengan partisipasi 42 peneliti dari seluruh dunia mengonfirmasi kurangnya ketelitian ilmiah pada benchmark yang digunakan untuk mengevaluasi large language model (LLM)
- Hasil peninjauan terhadap 445 benchmark AI menunjukkan bahwa lebih dari separuh memiliki definisi konsep yang tidak jelas atau metode analisis yang lemah, sehingga sulit menghasilkan kesimpulan yang dapat dipercaya
- Dari studi yang ditinjau, hanya 16% yang menggunakan metode statistik, dan dalam banyak kasus konsep abstrak seperti ‘penalaran’ atau ‘ketidakberbahayaan’ tidak didefinisikan dengan jelas
- Tim peneliti mengajukan 8 rekomendasi perbaikan, termasuk memperjelas definisi, evaluasi yang representatif, dan penguatan analisis statistik, serta merilis alat Construct Validity Checklist untuk mendukungnya
- Menjamin validitas ilmiah benchmark AI muncul sebagai tantangan inti bagi perkembangan teknologi AI dan keandalan regulasi
Gambaran riset
- Ini adalah studi yang dipimpin oleh Oxford Internet Institute (OII) dengan partisipasi institusi utama seperti EPFL, Stanford, TUM, UC Berkeley, dan Yale
- Judul makalahnya adalah Measuring What Matters: Construct Validity in Large Language Model Benchmarks dan dijadwalkan dipresentasikan di konferensi NeurIPS 2025
- Riset ini secara sistematis meninjau 445 benchmark AI untuk menganalisis validitas ilmiah dari kriteria evaluasi
Temuan utama
- Kurangnya ketelitian statistik: hanya 16% dari studi yang ditinjau menggunakan metode perbandingan statistik
- Ada kemungkinan bahwa perbedaan performa antar model atau klaim keunggulan merupakan hasil kebetulan
- Definisi yang samar atau diperdebatkan: sekitar setengah dari benchmark tidak mendefinisikan dengan jelas konsep abstrak seperti ‘penalaran’ dan ‘ketidakberbahayaan’
- Ketiadaan definisi konsep yang jelas menyebabkan ketidaksesuaian antara tujuan evaluasi dan apa yang benar-benar diukur
Contoh masalah
- Kebingungan aturan format: jika model diminta menyelesaikan teka-teki logika sederhana tetapi harus menyerahkan jawaban dalam format yang rumit, jawaban benar pun bisa dianggap gagal karena kesalahan format
- Performa yang rapuh: ada kasus model kuat pada soal matematika sederhana, tetapi gagal hanya karena angka atau struktur kalimat sedikit diubah
- Klaim tanpa dasar: skor tinggi pada soal ujian medis dapat disalahartikan sebagai memiliki keahlian setingkat dokter
Rekomendasi perbaikan
- Tim peneliti menilai masalah ini dapat diatasi dan mengajukan 8 rekomendasi dengan mengacu pada metodologi validasi dari psikometri dan bidang kedokteran
- Define and isolate: mendefinisikan dengan jelas konsep yang diukur dan mengendalikan faktor yang tidak relevan
- Build representative evaluations: mencerminkan lingkungan nyata dan mencakup seluruh cakupan keterampilan yang dituju
- Strengthen analysis and justification: melaporkan ketidakpastian statistik, melakukan analisis kesalahan, dan menyajikan dasar validitas benchmark
- Melalui Construct Validity Checklist, peneliti, pengembang, dan regulator dapat memeriksa validitas desain benchmark terlebih dahulu
Makna riset
- Benchmark berfungsi sebagai alat inti yang menentukan arah riset AI, persaingan model, serta standar kebijakan dan regulasi
- Benchmark dengan dasar ilmiah yang lemah berisiko menimbulkan kesalahpahaman tentang performa dan keamanan AI
- Studi ini diposisikan sebagai model kolaborasi internasional untuk memastikan keandalan evaluasi AI
Informasi lain
- Makalah ini dijadwalkan dipresentasikan di NeurIPS 2025 pada 2–7 Desember 2025
- Dukungan riset berasal dari berbagai lembaga, termasuk Clarendon Scholarship, ESRC, EPSRC, dan Meta LLM Evaluation Research Grant
- Selama 25 tahun terakhir, OII telah meneliti dampak sosial teknologi baru seperti kecerdasan buatan, platform digital, dan sistem otonom
1 komentar
Komentar Hacker News
Saya menangani benchmark LLM dan evaluasi manusia di sebuah lab penelitian
Sejujurnya, bidang ini sekarang benar-benar seperti wild west. Tidak ada solusi yang benar-benar matang, dan para peneliti juga tidak ingin hanya terpaku pada benchmarking
Pada akhirnya, di tingkat produk, A/B testing tradisional adalah metode yang paling realistis. Karena metrik langsung bisa diukur dalam skala besar
Tentu ada juga hal seperti ‘benchmarketing’, tetapi kebanyakan orang sungguh ingin membuat benchmark yang baik. Hanya saja itu terlalu sulit atau memang mustahil
Metrik yang bisa diukur sebenarnya jelas, tetapi pengolahan statistiknya buruk. Kebanyakan hanya membandingkan perbedaan rata-rata, dan bahkan perhitungan p-value pun sulit dipercaya
Selain itu, hampir tidak ada korelasi dengan performa beban kerja nyata. Eksperimen produksi terlalu penuh noise sehingga kerugian mudah terlewat
Di AI kondisinya lebih parah. Objek yang diukur tidak jelas, dan ada insentif untuk melakukan pengukuran noise demi harga saham. Dalam situasi seperti ini, wajar kalau benchmark LLM berantakan
B bisa saja menaikkan skor hanya dengan cara ‘menipu orang’. Kasus 4o dari OpenAI adalah contoh yang representatif
Jika dilihat dengan lebih longgar, masalahnya adalah sulit untuk mem-benchmark kecerdasan itu sendiri. Kecocokan seseorang untuk suatu pekerjaan pun sulit dinilai dengan pertanyaan yang distandardisasi, apalagi AI
Saya bekerja di bidang TTS(Text-to-Speech), dan di sini bahkan lebih kacau daripada LLM
Demonya sempurna, tetapi ketika menghasilkan audio selama ratusan menit, terus muncul volume drift, perubahan kecepatan, dan kesalahan pengucapan
Masalah terbesar adalah tidak adanya benchmark standar untuk sintesis suara jangka panjang.
Saya merangkum usulan kriteria seperti itu di Death of Demo
Saya menulis tentang proyek Humanity’s Last Exam
Ini adalah pendekatan yang meng-crowdsource soal-soal sulit dari para pakar di seluruh dunia untuk menguji model AI
Menarik bahwa soal yang mudah bagi manusia masih sulit bagi AI
Pada akhirnya saya melihat masa depan pelatihan AI bergantung pada pengalaman di dunia nyata (meatspace) dan anotasi penalaran
Saya menganggap benchmark itu mirip skor SAT. Bukan prediksi yang sempurna, tetapi cukup berguna sebagai sinyal kasar
LLM memang berkembang ke arah yang bermakna, dan benchmark sampai tingkat tertentu mencerminkan hal itu
Mata rantai terlemah dalam boom LLM saat ini adalah benchmark
Perbandingan antar model hampir berada di tingkat kekacauan pseudoscience.
Saya memakai leaderboard LMArena, tetapi hasil antar model berbeda dengan cara yang tidak bisa dijelaskan
Prompt sangat terikat dengan versi model, sehingga yang berjalan baik di GPT-4 justru rusak di GPT-5
Karena itu akhir-akhir ini saya cenderung memakai Gemini saja
Tuning berbasis umpan balik seperti ini memperburuk masalah overconfidence pada LLM
Tetapi pengguna tidak ingin menilai langsung dan lebih menginginkan peringkat ala leaderboard
Ada juga pendekatan memakai LLM sebagai juri, tetapi terasa ada yang salah.
Pada akhirnya dibutuhkan evaluasi berbasis reviewer ahli, tetapi biayanya mahal
Di level pengembang individu, solusinya adalah membuat benchmark sendiri
Buat pengujian berdasarkan soal coding yang pernah Anda selesaikan, lalu cek metrik seperti tok/s atau TTFT
Pada akhirnya, evaluasi yang paling realistis adalah pengguna mencobanya sendiri
Ada yang mencontohkan soal ujian tanpa kalkulator (AIME) dan mengatakan bahwa benchmark yang hanya menangani angka kecil tidak mencerminkan kemampuan nyata
Tetapi saya melihat kemampuan model untuk mempelajari strategi menghadapi ujian seperti manusia juga merupakan bentuk kemajuan. Itu lebih dekat ke penalaran ala manusia
Saya ingin evaluasi yang tidak digamifikasi. Saat ini ini cuma autocomplete yang pintar
Ada usulan agar kita membuat repo Git berisi kumpulan bug yang menyebalkan untuk menguji LLM
Misalnya, bug Yjs/CRDT dicoba dengan Claude Code, GPT5-codex, dan GLM-4.6, tetapi pada akhirnya hanya bisa disiasati, bukan diselesaikan
Baru ada kemajuan ketika log frontend dikirim ke backend agar AI bisa melihatnya secara real-time
Jika dibuka ke publik, itu akan terserap menjadi data pelatihan dan jadi tidak berguna.
Dengan menjaga benchmark pribadi seperti ini, kita bisa melihat kecepatan kemajuan nyata model dengan jauh lebih dingin
Pada akhirnya benchmark hanyalah spesifikasi dalam konteks tertentu. Ia hanya menunjukkan bahwa kode bekerja baik dalam situasi tertentu, bukan menjamin semua kasus
Jika diterapkan ke LLM, itu menjadi, “benchmark hanya menunjukkan tugas yang mungkin bisa dilakukan, tetapi tidak membuktikan tugas yang mustahil dilakukan”
Dalam penelitian kali ini, 445 benchmark ditinjau, dan dikatakan bahwa sebagian besar kekurangan validitas konstruk
Untuk benar-benar mengukur kecerdasan, kita harus menilai kebaruan (novelty).
Menyelesaikan pola yang mirip dengan soal yang sudah pernah dilihat hanyalah hafalan belaka
Tetapi hampir mustahil membuat soal yang benar-benar baru sambil menghindari ratusan petabyte data pelatihan
Karena itulah muncul ilusi kecerdasan
Pada kenyataannya ada tak terhitung banyaknya wilayah abu-abu di antara dua konsep itu.
Bahkan soal yang sepenuhnya baru pun tetap perlu memiliki tingkat kemiripan tertentu agar bisa diselesaikan