4 poin oleh GN⁺ 2025-11-09 | 1 komentar | Bagikan ke WhatsApp
  • Studi skala besar yang dipimpin Oxford Internet Institute (OII) dengan partisipasi 42 peneliti dari seluruh dunia mengonfirmasi kurangnya ketelitian ilmiah pada benchmark yang digunakan untuk mengevaluasi large language model (LLM)
  • Hasil peninjauan terhadap 445 benchmark AI menunjukkan bahwa lebih dari separuh memiliki definisi konsep yang tidak jelas atau metode analisis yang lemah, sehingga sulit menghasilkan kesimpulan yang dapat dipercaya
  • Dari studi yang ditinjau, hanya 16% yang menggunakan metode statistik, dan dalam banyak kasus konsep abstrak seperti ‘penalaran’ atau ‘ketidakberbahayaan’ tidak didefinisikan dengan jelas
  • Tim peneliti mengajukan 8 rekomendasi perbaikan, termasuk memperjelas definisi, evaluasi yang representatif, dan penguatan analisis statistik, serta merilis alat Construct Validity Checklist untuk mendukungnya
  • Menjamin validitas ilmiah benchmark AI muncul sebagai tantangan inti bagi perkembangan teknologi AI dan keandalan regulasi

Gambaran riset

  • Ini adalah studi yang dipimpin oleh Oxford Internet Institute (OII) dengan partisipasi institusi utama seperti EPFL, Stanford, TUM, UC Berkeley, dan Yale
  • Judul makalahnya adalah Measuring What Matters: Construct Validity in Large Language Model Benchmarks dan dijadwalkan dipresentasikan di konferensi NeurIPS 2025
  • Riset ini secara sistematis meninjau 445 benchmark AI untuk menganalisis validitas ilmiah dari kriteria evaluasi

Temuan utama

  • Kurangnya ketelitian statistik: hanya 16% dari studi yang ditinjau menggunakan metode perbandingan statistik
    • Ada kemungkinan bahwa perbedaan performa antar model atau klaim keunggulan merupakan hasil kebetulan
  • Definisi yang samar atau diperdebatkan: sekitar setengah dari benchmark tidak mendefinisikan dengan jelas konsep abstrak seperti ‘penalaran’ dan ‘ketidakberbahayaan’
    • Ketiadaan definisi konsep yang jelas menyebabkan ketidaksesuaian antara tujuan evaluasi dan apa yang benar-benar diukur

Contoh masalah

  • Kebingungan aturan format: jika model diminta menyelesaikan teka-teki logika sederhana tetapi harus menyerahkan jawaban dalam format yang rumit, jawaban benar pun bisa dianggap gagal karena kesalahan format
  • Performa yang rapuh: ada kasus model kuat pada soal matematika sederhana, tetapi gagal hanya karena angka atau struktur kalimat sedikit diubah
  • Klaim tanpa dasar: skor tinggi pada soal ujian medis dapat disalahartikan sebagai memiliki keahlian setingkat dokter

Rekomendasi perbaikan

  • Tim peneliti menilai masalah ini dapat diatasi dan mengajukan 8 rekomendasi dengan mengacu pada metodologi validasi dari psikometri dan bidang kedokteran
    • Define and isolate: mendefinisikan dengan jelas konsep yang diukur dan mengendalikan faktor yang tidak relevan
    • Build representative evaluations: mencerminkan lingkungan nyata dan mencakup seluruh cakupan keterampilan yang dituju
    • Strengthen analysis and justification: melaporkan ketidakpastian statistik, melakukan analisis kesalahan, dan menyajikan dasar validitas benchmark
  • Melalui Construct Validity Checklist, peneliti, pengembang, dan regulator dapat memeriksa validitas desain benchmark terlebih dahulu

Makna riset

  • Benchmark berfungsi sebagai alat inti yang menentukan arah riset AI, persaingan model, serta standar kebijakan dan regulasi
  • Benchmark dengan dasar ilmiah yang lemah berisiko menimbulkan kesalahpahaman tentang performa dan keamanan AI
  • Studi ini diposisikan sebagai model kolaborasi internasional untuk memastikan keandalan evaluasi AI

Informasi lain

  • Makalah ini dijadwalkan dipresentasikan di NeurIPS 2025 pada 2–7 Desember 2025
  • Dukungan riset berasal dari berbagai lembaga, termasuk Clarendon Scholarship, ESRC, EPSRC, dan Meta LLM Evaluation Research Grant
  • Selama 25 tahun terakhir, OII telah meneliti dampak sosial teknologi baru seperti kecerdasan buatan, platform digital, dan sistem otonom

1 komentar

 
GN⁺ 2025-11-09
Komentar Hacker News
  • Saya menangani benchmark LLM dan evaluasi manusia di sebuah lab penelitian
    Sejujurnya, bidang ini sekarang benar-benar seperti wild west. Tidak ada solusi yang benar-benar matang, dan para peneliti juga tidak ingin hanya terpaku pada benchmarking
    Pada akhirnya, di tingkat produk, A/B testing tradisional adalah metode yang paling realistis. Karena metrik langsung bisa diukur dalam skala besar
    Tentu ada juga hal seperti ‘benchmarketing’, tetapi kebanyakan orang sungguh ingin membuat benchmark yang baik. Hanya saja itu terlalu sulit atau memang mustahil

    • Saya menangani infrastruktur platform di hyperscaler, dan benchmark di bidang kami juga berantakan
      Metrik yang bisa diukur sebenarnya jelas, tetapi pengolahan statistiknya buruk. Kebanyakan hanya membandingkan perbedaan rata-rata, dan bahkan perhitungan p-value pun sulit dipercaya
      Selain itu, hampir tidak ada korelasi dengan performa beban kerja nyata. Eksperimen produksi terlalu penuh noise sehingga kerugian mudah terlewat
      Di AI kondisinya lebih parah. Objek yang diukur tidak jelas, dan ada insentif untuk melakukan pengukuran noise demi harga saham. Dalam situasi seperti ini, wajar kalau benchmark LLM berantakan
    • A/B testing juga berbahaya. Pada akhirnya itu semacam optimasi tidak langsung terhadap umpan balik pengguna, dan evaluator manusia mudah dimanipulasi
      B bisa saja menaikkan skor hanya dengan cara ‘menipu orang’. Kasus 4o dari OpenAI adalah contoh yang representatif
    • Saya terkejut melihat model bisa menyelesaikan soal matematika tingkat SD, tetapi salah begitu angka atau kalimatnya sedikit diubah. Pada akhirnya itu hanya hafalan pola
    • Menurut saya, masalah yang lebih besar adalah perusahaan teknologi dan media tidak mengungkapkan masalah ini secara transparan. Mereka memasarkan skor benchmark seolah-olah itu metrik objektif
    • Saya juga mengerjakan evaluasi LLM, dan jika dilihat secara sinis, sebagian besar benchmark adalah tugas palsu. Karena hampir tidak ada kasus penggunaan nyata
      Jika dilihat dengan lebih longgar, masalahnya adalah sulit untuk mem-benchmark kecerdasan itu sendiri. Kecocokan seseorang untuk suatu pekerjaan pun sulit dinilai dengan pertanyaan yang distandardisasi, apalagi AI
  • Saya bekerja di bidang TTS(Text-to-Speech), dan di sini bahkan lebih kacau daripada LLM
    Demonya sempurna, tetapi ketika menghasilkan audio selama ratusan menit, terus muncul volume drift, perubahan kecepatan, dan kesalahan pengucapan
    Masalah terbesar adalah tidak adanya benchmark standar untuk sintesis suara jangka panjang.
    Saya merangkum usulan kriteria seperti itu di Death of Demo

  • Saya menulis tentang proyek Humanity’s Last Exam
    Ini adalah pendekatan yang meng-crowdsource soal-soal sulit dari para pakar di seluruh dunia untuk menguji model AI
    Menarik bahwa soal yang mudah bagi manusia masih sulit bagi AI
    Pada akhirnya saya melihat masa depan pelatihan AI bergantung pada pengalaman di dunia nyata (meatspace) dan anotasi penalaran

    • Perusahaan seperti Mercor dan Micro1 sudah menghasilkan pendapatan tahunan 9 digit dengan pendekatan seperti ini
  • Saya menganggap benchmark itu mirip skor SAT. Bukan prediksi yang sempurna, tetapi cukup berguna sebagai sinyal kasar
    LLM memang berkembang ke arah yang bermakna, dan benchmark sampai tingkat tertentu mencerminkan hal itu

    • Tetapi tidak ada alasan ujian untuk manusia harus bisa memprediksi performa kerja LLM. Misalnya, soal perkalian sederhana berkorelasi dengan kecerdasan manusia, tetapi tidak berarti apa-apa bagi komputer
    • Ini seperti ujian untuk menilai kritikus seni. Upaya menilai hasil yang subjektif secara objektif itu sendiri kontradiktif
    • Ungkapan “jelas berkembang” mengaburkan pokok persoalan. Yang sebenarnya masih diperdebatkan adalah apakah perkembangannya sendiri memang bermakna
  • Mata rantai terlemah dalam boom LLM saat ini adalah benchmark
    Perbandingan antar model hampir berada di tingkat kekacauan pseudoscience.
    Saya memakai leaderboard LMArena, tetapi hasil antar model berbeda dengan cara yang tidak bisa dijelaskan
    Prompt sangat terikat dengan versi model, sehingga yang berjalan baik di GPT-4 justru rusak di GPT-5
    Karena itu akhir-akhir ini saya cenderung memakai Gemini saja

    • Evaluasi LMArena terlalu mudah dimanipulasi. Evaluator manusia juga mudah tertipu oleh jawaban yang menjilat
      Tuning berbasis umpan balik seperti ini memperburuk masalah overconfidence pada LLM
    • Saya membuat situs bernama AImodelReview untuk membandingkan output dari berbagai model
      Tetapi pengguna tidak ingin menilai langsung dan lebih menginginkan peringkat ala leaderboard
      Ada juga pendekatan memakai LLM sebagai juri, tetapi terasa ada yang salah.
      Pada akhirnya dibutuhkan evaluasi berbasis reviewer ahli, tetapi biayanya mahal
    • Ini mengingatkan saya bahwa tes psikologis manusia juga sulit dengan cara yang mirip
  • Di level pengembang individu, solusinya adalah membuat benchmark sendiri
    Buat pengujian berdasarkan soal coding yang pernah Anda selesaikan, lalu cek metrik seperti tok/s atau TTFT

    • Saya hanya memakai LLM dalam lingkungan agent wrapper, jadi benchmark-nya sederhana. Saya mencoba model baru untuk pekerjaan tertentu lalu menilai lulus/gagal berdasarkan feeling
      Pada akhirnya, evaluasi yang paling realistis adalah pengguna mencobanya sendiri
    • Jika Anda menambahkan evaluasi ke GitHub OpenAI, model berikutnya akan menjadi lebih baik pada masalah itu
    • Evaluasi buatan sendiri seperti ini disebut evals, dan wajib jika proyek AI Anda serius
    • Situs seperti AI Stupid Level juga mengambil pendekatan seperti ini
    • Hanya saja, jangan lupa bahwa “menyelesaikan masalah” bisa jadi sekadar pengenalan pola
  • Ada yang mencontohkan soal ujian tanpa kalkulator (AIME) dan mengatakan bahwa benchmark yang hanya menangani angka kecil tidak mencerminkan kemampuan nyata
    Tetapi saya melihat kemampuan model untuk mempelajari strategi menghadapi ujian seperti manusia juga merupakan bentuk kemajuan. Itu lebih dekat ke penalaran ala manusia

    • Sebaliknya, ada juga pendapat bahwa jika itu benar-benar kemampuan bernalar, maka model juga harus bisa menyelesaikan soal dengan angka besar
    • Mahasiswa yang menyelesaikan soal dengan strategi ujian hanyalah salah satu bagian dari evaluasi manusia, tetapi LLM mengemas itu seolah-olah sebagai kemampuan keseluruhan
      Saya ingin evaluasi yang tidak digamifikasi. Saat ini ini cuma autocomplete yang pintar
    • Soal perhitungan pada akhirnya akan hilang sebagai masalah begitu kemampuan menggunakan alat muncul
    • Video Forbidden Technique yang membahas diskusi terkait juga menarik
    • Jika LLM dibuat memanfaatkan alat eksternal seperti Excel atau Mathematica, mereka bisa menyelesaikan soal hitungan seperti manusia
  • Ada usulan agar kita membuat repo Git berisi kumpulan bug yang menyebalkan untuk menguji LLM
    Misalnya, bug Yjs/CRDT dicoba dengan Claude Code, GPT5-codex, dan GLM-4.6, tetapi pada akhirnya hanya bisa disiasati, bukan diselesaikan
    Baru ada kemajuan ketika log frontend dikirim ke backend agar AI bisa melihatnya secara real-time

    • Membiarkan AI memakai library Playwright secara langsung efektif untuk menyelesaikan masalah frontend
    • Tetapi usulan seperti ini pada dasarnya juga bisa berarti memberikan data berkualitas tinggi gratis untuk pelatihan AI
    • Saya juga secara pribadi membuat kumpulan bug dan mencoba menyuruh LLM menulis kode uji, tetapi model terbaru pun masih gagal
    • Sebenarnya, sebagian besar pengguna LLM yang mahir sudah menjaga benchmark privat mereka sendiri
      Jika dibuka ke publik, itu akan terserap menjadi data pelatihan dan jadi tidak berguna.
      Dengan menjaga benchmark pribadi seperti ini, kita bisa melihat kecepatan kemajuan nyata model dengan jauh lebih dingin
  • Pada akhirnya benchmark hanyalah spesifikasi dalam konteks tertentu. Ia hanya menunjukkan bahwa kode bekerja baik dalam situasi tertentu, bukan menjamin semua kasus

    • Seperti kata Dijkstra, “testing can show the presence of bugs, but not prove their absence”
      Jika diterapkan ke LLM, itu menjadi, “benchmark hanya menunjukkan tugas yang mungkin bisa dilakukan, tetapi tidak membuktikan tugas yang mustahil dilakukan
  • Dalam penelitian kali ini, 445 benchmark ditinjau, dan dikatakan bahwa sebagian besar kekurangan validitas konstruk
    Untuk benar-benar mengukur kecerdasan, kita harus menilai kebaruan (novelty).
    Menyelesaikan pola yang mirip dengan soal yang sudah pernah dilihat hanyalah hafalan belaka
    Tetapi hampir mustahil membuat soal yang benar-benar baru sambil menghindari ratusan petabyte data pelatihan
    Karena itulah muncul ilusi kecerdasan

    • Membagi pemecahan masalah hanya menjadi ‘ingatan’ vs ‘kreativitas’ adalah pendekatan yang keliru
      Pada kenyataannya ada tak terhitung banyaknya wilayah abu-abu di antara dua konsep itu.
      Bahkan soal yang sepenuhnya baru pun tetap perlu memiliki tingkat kemiripan tertentu agar bisa diselesaikan