4 poin oleh GN⁺ 2025-11-09 | Belum ada komentar. | Bagikan ke WhatsApp
  • Studi skala besar yang dipimpin Oxford Internet Institute (OII) dengan partisipasi 42 peneliti dari seluruh dunia mengonfirmasi kurangnya ketelitian ilmiah pada benchmark yang digunakan untuk mengevaluasi large language model (LLM)
  • Hasil peninjauan terhadap 445 benchmark AI menunjukkan bahwa lebih dari separuh memiliki definisi konsep yang tidak jelas atau metode analisis yang lemah, sehingga sulit menghasilkan kesimpulan yang dapat dipercaya
  • Dari studi yang ditinjau, hanya 16% yang menggunakan metode statistik, dan dalam banyak kasus konsep abstrak seperti ‘penalaran’ atau ‘ketidakberbahayaan’ tidak didefinisikan dengan jelas
  • Tim peneliti mengajukan 8 rekomendasi perbaikan, termasuk memperjelas definisi, evaluasi yang representatif, dan penguatan analisis statistik, serta merilis alat Construct Validity Checklist untuk mendukungnya
  • Menjamin validitas ilmiah benchmark AI muncul sebagai tantangan inti bagi perkembangan teknologi AI dan keandalan regulasi

Gambaran riset

  • Ini adalah studi yang dipimpin oleh Oxford Internet Institute (OII) dengan partisipasi institusi utama seperti EPFL, Stanford, TUM, UC Berkeley, dan Yale
  • Judul makalahnya adalah Measuring What Matters: Construct Validity in Large Language Model Benchmarks dan dijadwalkan dipresentasikan di konferensi NeurIPS 2025
  • Riset ini secara sistematis meninjau 445 benchmark AI untuk menganalisis validitas ilmiah dari kriteria evaluasi

Temuan utama

  • Kurangnya ketelitian statistik: hanya 16% dari studi yang ditinjau menggunakan metode perbandingan statistik
    • Ada kemungkinan bahwa perbedaan performa antar model atau klaim keunggulan merupakan hasil kebetulan
  • Definisi yang samar atau diperdebatkan: sekitar setengah dari benchmark tidak mendefinisikan dengan jelas konsep abstrak seperti ‘penalaran’ dan ‘ketidakberbahayaan’
    • Ketiadaan definisi konsep yang jelas menyebabkan ketidaksesuaian antara tujuan evaluasi dan apa yang benar-benar diukur

Contoh masalah

  • Kebingungan aturan format: jika model diminta menyelesaikan teka-teki logika sederhana tetapi harus menyerahkan jawaban dalam format yang rumit, jawaban benar pun bisa dianggap gagal karena kesalahan format
  • Performa yang rapuh: ada kasus model kuat pada soal matematika sederhana, tetapi gagal hanya karena angka atau struktur kalimat sedikit diubah
  • Klaim tanpa dasar: skor tinggi pada soal ujian medis dapat disalahartikan sebagai memiliki keahlian setingkat dokter

Rekomendasi perbaikan

  • Tim peneliti menilai masalah ini dapat diatasi dan mengajukan 8 rekomendasi dengan mengacu pada metodologi validasi dari psikometri dan bidang kedokteran
    • Define and isolate: mendefinisikan dengan jelas konsep yang diukur dan mengendalikan faktor yang tidak relevan
    • Build representative evaluations: mencerminkan lingkungan nyata dan mencakup seluruh cakupan keterampilan yang dituju
    • Strengthen analysis and justification: melaporkan ketidakpastian statistik, melakukan analisis kesalahan, dan menyajikan dasar validitas benchmark
  • Melalui Construct Validity Checklist, peneliti, pengembang, dan regulator dapat memeriksa validitas desain benchmark terlebih dahulu

Makna riset

  • Benchmark berfungsi sebagai alat inti yang menentukan arah riset AI, persaingan model, serta standar kebijakan dan regulasi
  • Benchmark dengan dasar ilmiah yang lemah berisiko menimbulkan kesalahpahaman tentang performa dan keamanan AI
  • Studi ini diposisikan sebagai model kolaborasi internasional untuk memastikan keandalan evaluasi AI

Informasi lain

  • Makalah ini dijadwalkan dipresentasikan di NeurIPS 2025 pada 2–7 Desember 2025
  • Dukungan riset berasal dari berbagai lembaga, termasuk Clarendon Scholarship, ESRC, EPSRC, dan Meta LLM Evaluation Research Grant
  • Selama 25 tahun terakhir, OII telah meneliti dampak sosial teknologi baru seperti kecerdasan buatan, platform digital, dan sistem otonom

Belum ada komentar.

Belum ada komentar.