- Studi skala besar yang dipimpin Oxford Internet Institute (OII) dengan partisipasi 42 peneliti dari seluruh dunia mengonfirmasi kurangnya ketelitian ilmiah pada benchmark yang digunakan untuk mengevaluasi large language model (LLM)
- Hasil peninjauan terhadap 445 benchmark AI menunjukkan bahwa lebih dari separuh memiliki definisi konsep yang tidak jelas atau metode analisis yang lemah, sehingga sulit menghasilkan kesimpulan yang dapat dipercaya
- Dari studi yang ditinjau, hanya 16% yang menggunakan metode statistik, dan dalam banyak kasus konsep abstrak seperti ‘penalaran’ atau ‘ketidakberbahayaan’ tidak didefinisikan dengan jelas
- Tim peneliti mengajukan 8 rekomendasi perbaikan, termasuk memperjelas definisi, evaluasi yang representatif, dan penguatan analisis statistik, serta merilis alat Construct Validity Checklist untuk mendukungnya
- Menjamin validitas ilmiah benchmark AI muncul sebagai tantangan inti bagi perkembangan teknologi AI dan keandalan regulasi
Gambaran riset
- Ini adalah studi yang dipimpin oleh Oxford Internet Institute (OII) dengan partisipasi institusi utama seperti EPFL, Stanford, TUM, UC Berkeley, dan Yale
- Judul makalahnya adalah Measuring What Matters: Construct Validity in Large Language Model Benchmarks dan dijadwalkan dipresentasikan di konferensi NeurIPS 2025
- Riset ini secara sistematis meninjau 445 benchmark AI untuk menganalisis validitas ilmiah dari kriteria evaluasi
Temuan utama
- Kurangnya ketelitian statistik: hanya 16% dari studi yang ditinjau menggunakan metode perbandingan statistik
- Ada kemungkinan bahwa perbedaan performa antar model atau klaim keunggulan merupakan hasil kebetulan
- Definisi yang samar atau diperdebatkan: sekitar setengah dari benchmark tidak mendefinisikan dengan jelas konsep abstrak seperti ‘penalaran’ dan ‘ketidakberbahayaan’
- Ketiadaan definisi konsep yang jelas menyebabkan ketidaksesuaian antara tujuan evaluasi dan apa yang benar-benar diukur
Contoh masalah
- Kebingungan aturan format: jika model diminta menyelesaikan teka-teki logika sederhana tetapi harus menyerahkan jawaban dalam format yang rumit, jawaban benar pun bisa dianggap gagal karena kesalahan format
- Performa yang rapuh: ada kasus model kuat pada soal matematika sederhana, tetapi gagal hanya karena angka atau struktur kalimat sedikit diubah
- Klaim tanpa dasar: skor tinggi pada soal ujian medis dapat disalahartikan sebagai memiliki keahlian setingkat dokter
Rekomendasi perbaikan
- Tim peneliti menilai masalah ini dapat diatasi dan mengajukan 8 rekomendasi dengan mengacu pada metodologi validasi dari psikometri dan bidang kedokteran
- Define and isolate: mendefinisikan dengan jelas konsep yang diukur dan mengendalikan faktor yang tidak relevan
- Build representative evaluations: mencerminkan lingkungan nyata dan mencakup seluruh cakupan keterampilan yang dituju
- Strengthen analysis and justification: melaporkan ketidakpastian statistik, melakukan analisis kesalahan, dan menyajikan dasar validitas benchmark
- Melalui Construct Validity Checklist, peneliti, pengembang, dan regulator dapat memeriksa validitas desain benchmark terlebih dahulu
Makna riset
- Benchmark berfungsi sebagai alat inti yang menentukan arah riset AI, persaingan model, serta standar kebijakan dan regulasi
- Benchmark dengan dasar ilmiah yang lemah berisiko menimbulkan kesalahpahaman tentang performa dan keamanan AI
- Studi ini diposisikan sebagai model kolaborasi internasional untuk memastikan keandalan evaluasi AI
Informasi lain
- Makalah ini dijadwalkan dipresentasikan di NeurIPS 2025 pada 2–7 Desember 2025
- Dukungan riset berasal dari berbagai lembaga, termasuk Clarendon Scholarship, ESRC, EPSRC, dan Meta LLM Evaluation Research Grant
- Selama 25 tahun terakhir, OII telah meneliti dampak sosial teknologi baru seperti kecerdasan buatan, platform digital, dan sistem otonom
Belum ada komentar.