Riset mengungkap kelemahan dalam cara evaluasi sistem AI

(oii.ox.ac.uk)

4 poin oleh GN⁺ 2025-11-09 | 1 komentar | Bagikan ke WhatsApp

Studi skala besar yang dipimpin Oxford Internet Institute (OII) dengan partisipasi 42 peneliti dari seluruh dunia mengonfirmasi kurangnya ketelitian ilmiah pada benchmark yang digunakan untuk mengevaluasi large language model (LLM)
Hasil peninjauan terhadap 445 benchmark AI menunjukkan bahwa lebih dari separuh memiliki definisi konsep yang tidak jelas atau metode analisis yang lemah, sehingga sulit menghasilkan kesimpulan yang dapat dipercaya
Dari studi yang ditinjau, hanya 16% yang menggunakan metode statistik, dan dalam banyak kasus konsep abstrak seperti ‘penalaran’ atau ‘ketidakberbahayaan’ tidak didefinisikan dengan jelas
Tim peneliti mengajukan 8 rekomendasi perbaikan, termasuk memperjelas definisi, evaluasi yang representatif, dan penguatan analisis statistik, serta merilis alat Construct Validity Checklist untuk mendukungnya
Menjamin validitas ilmiah benchmark AI muncul sebagai tantangan inti bagi perkembangan teknologi AI dan keandalan regulasi

Gambaran riset

Ini adalah studi yang dipimpin oleh Oxford Internet Institute (OII) dengan partisipasi institusi utama seperti EPFL, Stanford, TUM, UC Berkeley, dan Yale
Judul makalahnya adalah Measuring What Matters: Construct Validity in Large Language Model Benchmarks dan dijadwalkan dipresentasikan di konferensi NeurIPS 2025
Riset ini secara sistematis meninjau 445 benchmark AI untuk menganalisis validitas ilmiah dari kriteria evaluasi

Temuan utama

Kurangnya ketelitian statistik: hanya 16% dari studi yang ditinjau menggunakan metode perbandingan statistik
- Ada kemungkinan bahwa perbedaan performa antar model atau klaim keunggulan merupakan hasil kebetulan
Definisi yang samar atau diperdebatkan: sekitar setengah dari benchmark tidak mendefinisikan dengan jelas konsep abstrak seperti ‘penalaran’ dan ‘ketidakberbahayaan’
- Ketiadaan definisi konsep yang jelas menyebabkan ketidaksesuaian antara tujuan evaluasi dan apa yang benar-benar diukur

Contoh masalah

Kebingungan aturan format: jika model diminta menyelesaikan teka-teki logika sederhana tetapi harus menyerahkan jawaban dalam format yang rumit, jawaban benar pun bisa dianggap gagal karena kesalahan format
Performa yang rapuh: ada kasus model kuat pada soal matematika sederhana, tetapi gagal hanya karena angka atau struktur kalimat sedikit diubah
Klaim tanpa dasar: skor tinggi pada soal ujian medis dapat disalahartikan sebagai memiliki keahlian setingkat dokter

Rekomendasi perbaikan

Tim peneliti menilai masalah ini dapat diatasi dan mengajukan 8 rekomendasi dengan mengacu pada metodologi validasi dari psikometri dan bidang kedokteran
- Define and isolate: mendefinisikan dengan jelas konsep yang diukur dan mengendalikan faktor yang tidak relevan
- Build representative evaluations: mencerminkan lingkungan nyata dan mencakup seluruh cakupan keterampilan yang dituju
- Strengthen analysis and justification: melaporkan ketidakpastian statistik, melakukan analisis kesalahan, dan menyajikan dasar validitas benchmark
Melalui Construct Validity Checklist, peneliti, pengembang, dan regulator dapat memeriksa validitas desain benchmark terlebih dahulu

Makna riset

Benchmark berfungsi sebagai alat inti yang menentukan arah riset AI, persaingan model, serta standar kebijakan dan regulasi
Benchmark dengan dasar ilmiah yang lemah berisiko menimbulkan kesalahpahaman tentang performa dan keamanan AI
Studi ini diposisikan sebagai model kolaborasi internasional untuk memastikan keandalan evaluasi AI

Informasi lain

Makalah ini dijadwalkan dipresentasikan di NeurIPS 2025 pada 2–7 Desember 2025
Dukungan riset berasal dari berbagai lembaga, termasuk Clarendon Scholarship, ESRC, EPSRC, dan Meta LLM Evaluation Research Grant
Selama 25 tahun terakhir, OII telah meneliti dampak sosial teknologi baru seperti kecerdasan buatan, platform digital, dan sistem otonom

1 komentar

GN⁺ 2025-11-09

Komentar Hacker News

Saya menangani benchmark LLM dan evaluasi manusia di sebuah lab penelitian
Sejujurnya, bidang ini sekarang benar-benar seperti wild west. Tidak ada solusi yang benar-benar matang, dan para peneliti juga tidak ingin hanya terpaku pada benchmarking
Pada akhirnya, di tingkat produk, A/B testing tradisional adalah metode yang paling realistis. Karena metrik langsung bisa diukur dalam skala besar
Tentu ada juga hal seperti ‘benchmarketing’, tetapi kebanyakan orang sungguh ingin membuat benchmark yang baik. Hanya saja itu terlalu sulit atau memang mustahil
- Saya menangani infrastruktur platform di hyperscaler, dan benchmark di bidang kami juga berantakan
  Metrik yang bisa diukur sebenarnya jelas, tetapi pengolahan statistiknya buruk. Kebanyakan hanya membandingkan perbedaan rata-rata, dan bahkan perhitungan p-value pun sulit dipercaya
  Selain itu, hampir tidak ada korelasi dengan performa beban kerja nyata. Eksperimen produksi terlalu penuh noise sehingga kerugian mudah terlewat
  Di AI kondisinya lebih parah. Objek yang diukur tidak jelas, dan ada insentif untuk melakukan pengukuran noise demi harga saham. Dalam situasi seperti ini, wajar kalau benchmark LLM berantakan
- A/B testing juga berbahaya. Pada akhirnya itu semacam optimasi tidak langsung terhadap umpan balik pengguna, dan evaluator manusia mudah dimanipulasi
  B bisa saja menaikkan skor hanya dengan cara ‘menipu orang’. Kasus 4o dari OpenAI adalah contoh yang representatif
- Saya terkejut melihat model bisa menyelesaikan soal matematika tingkat SD, tetapi salah begitu angka atau kalimatnya sedikit diubah. Pada akhirnya itu hanya hafalan pola
- Menurut saya, masalah yang lebih besar adalah perusahaan teknologi dan media tidak mengungkapkan masalah ini secara transparan. Mereka memasarkan skor benchmark seolah-olah itu metrik objektif
- Saya juga mengerjakan evaluasi LLM, dan jika dilihat secara sinis, sebagian besar benchmark adalah tugas palsu. Karena hampir tidak ada kasus penggunaan nyata
  Jika dilihat dengan lebih longgar, masalahnya adalah sulit untuk mem-benchmark kecerdasan itu sendiri. Kecocokan seseorang untuk suatu pekerjaan pun sulit dinilai dengan pertanyaan yang distandardisasi, apalagi AI
Saya bekerja di bidang TTS(Text-to-Speech), dan di sini bahkan lebih kacau daripada LLM
Demonya sempurna, tetapi ketika menghasilkan audio selama ratusan menit, terus muncul volume drift, perubahan kecepatan, dan kesalahan pengucapan
Masalah terbesar adalah tidak adanya benchmark standar untuk sintesis suara jangka panjang.
Saya merangkum usulan kriteria seperti itu di Death of Demo
Saya menulis tentang proyek Humanity’s Last Exam
Ini adalah pendekatan yang meng-crowdsource soal-soal sulit dari para pakar di seluruh dunia untuk menguji model AI
Menarik bahwa soal yang mudah bagi manusia masih sulit bagi AI
Pada akhirnya saya melihat masa depan pelatihan AI bergantung pada pengalaman di dunia nyata (meatspace) dan anotasi penalaran
- Perusahaan seperti Mercor dan Micro1 sudah menghasilkan pendapatan tahunan 9 digit dengan pendekatan seperti ini
Saya menganggap benchmark itu mirip skor SAT. Bukan prediksi yang sempurna, tetapi cukup berguna sebagai sinyal kasar
LLM memang berkembang ke arah yang bermakna, dan benchmark sampai tingkat tertentu mencerminkan hal itu
- Tetapi tidak ada alasan ujian untuk manusia harus bisa memprediksi performa kerja LLM. Misalnya, soal perkalian sederhana berkorelasi dengan kecerdasan manusia, tetapi tidak berarti apa-apa bagi komputer
- Ini seperti ujian untuk menilai kritikus seni. Upaya menilai hasil yang subjektif secara objektif itu sendiri kontradiktif
- Ungkapan “jelas berkembang” mengaburkan pokok persoalan. Yang sebenarnya masih diperdebatkan adalah apakah perkembangannya sendiri memang bermakna
Mata rantai terlemah dalam boom LLM saat ini adalah benchmark
Perbandingan antar model hampir berada di tingkat kekacauan pseudoscience.
Saya memakai leaderboard LMArena, tetapi hasil antar model berbeda dengan cara yang tidak bisa dijelaskan
Prompt sangat terikat dengan versi model, sehingga yang berjalan baik di GPT-4 justru rusak di GPT-5
Karena itu akhir-akhir ini saya cenderung memakai Gemini saja
- Evaluasi LMArena terlalu mudah dimanipulasi. Evaluator manusia juga mudah tertipu oleh jawaban yang menjilat
  Tuning berbasis umpan balik seperti ini memperburuk masalah overconfidence pada LLM
- Saya membuat situs bernama AImodelReview untuk membandingkan output dari berbagai model
  Tetapi pengguna tidak ingin menilai langsung dan lebih menginginkan peringkat ala leaderboard
  Ada juga pendekatan memakai LLM sebagai juri, tetapi terasa ada yang salah.
  Pada akhirnya dibutuhkan evaluasi berbasis reviewer ahli, tetapi biayanya mahal
- Ini mengingatkan saya bahwa tes psikologis manusia juga sulit dengan cara yang mirip
Di level pengembang individu, solusinya adalah membuat benchmark sendiri
Buat pengujian berdasarkan soal coding yang pernah Anda selesaikan, lalu cek metrik seperti tok/s atau TTFT
- Saya hanya memakai LLM dalam lingkungan agent wrapper, jadi benchmark-nya sederhana. Saya mencoba model baru untuk pekerjaan tertentu lalu menilai lulus/gagal berdasarkan feeling
  Pada akhirnya, evaluasi yang paling realistis adalah pengguna mencobanya sendiri
- Jika Anda menambahkan evaluasi ke GitHub OpenAI, model berikutnya akan menjadi lebih baik pada masalah itu
- Evaluasi buatan sendiri seperti ini disebut evals, dan wajib jika proyek AI Anda serius
- Situs seperti AI Stupid Level juga mengambil pendekatan seperti ini
- Hanya saja, jangan lupa bahwa “menyelesaikan masalah” bisa jadi sekadar pengenalan pola
Ada yang mencontohkan soal ujian tanpa kalkulator (AIME) dan mengatakan bahwa benchmark yang hanya menangani angka kecil tidak mencerminkan kemampuan nyata
Tetapi saya melihat kemampuan model untuk mempelajari strategi menghadapi ujian seperti manusia juga merupakan bentuk kemajuan. Itu lebih dekat ke penalaran ala manusia
- Sebaliknya, ada juga pendapat bahwa jika itu benar-benar kemampuan bernalar, maka model juga harus bisa menyelesaikan soal dengan angka besar
- Mahasiswa yang menyelesaikan soal dengan strategi ujian hanyalah salah satu bagian dari evaluasi manusia, tetapi LLM mengemas itu seolah-olah sebagai kemampuan keseluruhan
  Saya ingin evaluasi yang tidak digamifikasi. Saat ini ini cuma autocomplete yang pintar
- Soal perhitungan pada akhirnya akan hilang sebagai masalah begitu kemampuan menggunakan alat muncul
- Video Forbidden Technique yang membahas diskusi terkait juga menarik
- Jika LLM dibuat memanfaatkan alat eksternal seperti Excel atau Mathematica, mereka bisa menyelesaikan soal hitungan seperti manusia
Ada usulan agar kita membuat repo Git berisi kumpulan bug yang menyebalkan untuk menguji LLM
Misalnya, bug Yjs/CRDT dicoba dengan Claude Code, GPT5-codex, dan GLM-4.6, tetapi pada akhirnya hanya bisa disiasati, bukan diselesaikan
Baru ada kemajuan ketika log frontend dikirim ke backend agar AI bisa melihatnya secara real-time
- Membiarkan AI memakai library Playwright secara langsung efektif untuk menyelesaikan masalah frontend
- Tetapi usulan seperti ini pada dasarnya juga bisa berarti memberikan data berkualitas tinggi gratis untuk pelatihan AI
- Saya juga secara pribadi membuat kumpulan bug dan mencoba menyuruh LLM menulis kode uji, tetapi model terbaru pun masih gagal
- Sebenarnya, sebagian besar pengguna LLM yang mahir sudah menjaga benchmark privat mereka sendiri
  Jika dibuka ke publik, itu akan terserap menjadi data pelatihan dan jadi tidak berguna.
  Dengan menjaga benchmark pribadi seperti ini, kita bisa melihat kecepatan kemajuan nyata model dengan jauh lebih dingin
Pada akhirnya benchmark hanyalah spesifikasi dalam konteks tertentu. Ia hanya menunjukkan bahwa kode bekerja baik dalam situasi tertentu, bukan menjamin semua kasus
- Seperti kata Dijkstra, “testing can show the presence of bugs, but not prove their absence”
  Jika diterapkan ke LLM, itu menjadi, “benchmark hanya menunjukkan tugas yang mungkin bisa dilakukan, tetapi tidak membuktikan tugas yang mustahil dilakukan”
Dalam penelitian kali ini, 445 benchmark ditinjau, dan dikatakan bahwa sebagian besar kekurangan validitas konstruk
Untuk benar-benar mengukur kecerdasan, kita harus menilai kebaruan (novelty).
Menyelesaikan pola yang mirip dengan soal yang sudah pernah dilihat hanyalah hafalan belaka
Tetapi hampir mustahil membuat soal yang benar-benar baru sambil menghindari ratusan petabyte data pelatihan
Karena itulah muncul ilusi kecerdasan
- Membagi pemecahan masalah hanya menjadi ‘ingatan’ vs ‘kreativitas’ adalah pendekatan yang keliru
  Pada kenyataannya ada tak terhitung banyaknya wilayah abu-abu di antara dua konsep itu.
  Bahkan soal yang sepenuhnya baru pun tetap perlu memiliki tingkat kemiripan tertentu agar bisa diselesaikan

Riset mengungkap kelemahan dalam cara evaluasi sistem AI

Gambaran riset

Temuan utama

Contoh masalah

Rekomendasi perbaikan

Makna riset

Informasi lain

Bacaan terkait

1 komentar

Komentar Hacker News