Mengapa SWE-bench Verified tidak lagi mampu mengukur kemampuan coding frontier

(openai.com)

1 poin oleh GN⁺ 2 jam lalu | 1 komentar | Bagikan ke WhatsApp

SWE-bench Verified, yang sebelumnya merupakan metrik representatif untuk tugas rekayasa perangkat lunak otonom, kini jauh kurang cocok untuk mengukur kemampuan model frontier
Di tengah peningkatan performa terbaik yang belakangan terbatas dari 74,9% ke 80,9%, semakin sulit membedakan apakah kegagalan yang tersisa berasal dari keterbatasan model atau cacat dataset
Dari 138 masalah yang diaudit, ditemukan cacat serius pada desain pengujian atau deskripsi masalah di 59,4% kasus, dan pengujian yang terlalu membatasi maupun terlalu luas dapat menggagalkan solusi yang secara fungsional benar
Karena evaluasi dilakukan berdasarkan data publik dan codebase terbuka, kontaminasi data pelatihan sulit dihindari, dan beberapa model hampir mereproduksi gold patch hanya dari deskripsi tugas atau ID
Karena itu, pelaporan skor SWE-bench Verified dihentikan, dan fokus evaluasi bergeser ke SWE-bench Pro yang dampak kontaminasinya lebih kecil serta ke benchmark nonpublik

Mengapa benchmark ini tidak lagi mengukur dengan baik

SWE-bench Verified telah lama digunakan secara luas sebagai metrik standar untuk mengukur performa model pada tugas rekayasa perangkat lunak otonom, tetapi pada tingkat kemampuan model frontier saat ini, kecocokannya menurun drastis
Ketika peningkatan performa terbaik dalam 6 bulan terakhir terbatas dari 74.9% ke 80.9%, semakin sulit membedakan apakah kegagalan yang tersisa berasal dari batas model atau dari cacat dataset
Analisis baru menunjukkan bahwa pengujian yang cacat dan kontaminasi data pelatihan adalah masalah utama, sehingga skor lebih banyak mencerminkan tingkat paparan terhadap benchmark daripada kemampuan coding yang sebenarnya
Karena itu, OpenAI menghentikan pelaporan skor SWE-bench Verified dan merekomendasikan langkah yang sama kepada pengembang model lain
Sebagai alternatif, mereka merekomendasikan penggunaan SWE-bench Pro yang lebih sedikit terkontaminasi, sambil membangun metrik evaluasi baru yang bebas kontaminasi

Latar belakang

SWE-bench asli dirilis pada 2023, dan disusun dengan memasangkan issue GitHub yang telah diselesaikan dengan PR terkait dari 12 repositori Python open-source
Untuk setiap masalah, model harus menghasilkan perubahan kode hanya dengan diberi codebase sebelum perbaikan dan teks issue, dan kriteria kelulusannya adalah semua pengujian lolos setelah patch diterapkan
- Terdapat pengujian yang harus gagal sebelum perbaikan dan lolos setelah perbaikan yang benar
- Juga disertakan regression test untuk memastikan fungsionalitas yang sudah ada tidak rusak
Evaluasi asli memiliki masalah seperti pengujian yang terlalu spesifik hingga menolak perbaikan yang benar, spesifikasi yang tidak cukup sehingga bisa ditafsirkan ganda, dan pengujian yang gagal tergantung perbedaan lingkungan
Untuk mengurangi hal ini, SWE-bench Verified dibuat pada 2024, menyaring 1.699 masalah melalui peninjauan ahli menjadi set 500 masalah
- Setiap masalah ditinjau secara independen oleh 3 ahli

Cacat desain pengujian

138 masalah yang bahkan tidak dapat diselesaikan secara konsisten oleh OpenAI o3 dalam 64 eksekusi independen dijadikan objek audit, dan setiap kasus ditinjau secara independen oleh sedikitnya 6 insinyur perangkat lunak berpengalaman
Hasilnya, dari 138 masalah tersebut, 59,4% memiliki cacat serius pada desain pengujian atau deskripsi masalah, sehingga sangat sulit atau mustahil diselesaikan bahkan oleh model unggul maupun manusia
35,5% dari tugas yang diaudit mencakup pengujian yang membatasi dan memaksa detail implementasi tertentu
- Akibatnya, berbagai solusi yang secara fungsional benar tetap bisa dianggap tidak valid
18,8% dari tugas yang diaudit mencakup pengujian yang terlalu luas hingga menuntut fitur tambahan yang tidak ada dalam deskripsi masalah
5,1% sisanya memiliki masalah lain yang tidak secara jelas masuk ke dua kategori di atas
Kasus pengujian yang membatasi
- Pada pylint-dev__pylint-4551, pengujian PR mengimpor langsung fungsi get_annotation, tetapi nama fungsi ini tidak muncul dalam spesifikasi masalah
- Karena itu, meskipun masalah diselesaikan dengan benar secara fungsional, pengujian tetap bisa gagal karena error import jika nama fungsi tertentu itu tidak diimplementasikan
Kasus pengujian yang terlalu luas
- sympy__sympy-18199 sebenarnya diambil dari PR yang sekaligus memperbaiki tiga issue: #17373, #17377, dan #18212
- Namun, deskripsi tugas SWE-bench Verified hanya membahas #18212, sehingga implementasi yang mengikuti deskripsi tetap bisa gagal pada pengujian yang memeriksa dua issue lainnya

Masalah kontaminasi

SWE-bench Verified, codebase repositori terkait, dan catatan rilisnya semuanya bersifat publik dan digunakan serta didiskusikan secara luas, sehingga sulit menghindari kontaminasi data
OpenAI juga menemukan tanda-tanda kontaminasi pada model internalnya sendiri, termasuk kasus ketika GPT‑5.2 menyelesaikan 31 tugas yang mereka anggap hampir mustahil diselesaikan
Pada django__django-14725, pengujian menuntut parameter edit_only yang tidak ada dalam spesifikasi masalah, dan GPT‑5.2 dalam proses penalarannya bahkan dengan tepat menunjukkan bahwa parameter ini diperkenalkan di Django 4.1
Untuk menilai tingkat keparahan kontaminasi, OpenAI membangun lingkungan pengujian red team otomatis
- Untuk setiap masalah SWE-bench Verified, GPT‑5 menyelidiki apakah GPT‑5.2‑Chat, Claude Opus 4.5, dan Gemini 3 Flash Preview terkontaminasi
- GPT‑5 diberi ID tugas, deskripsi, gold patch, dan pengujian PR, serta diizinkan mengubah prompt dan strategi elicitation selama total 15 putaran
- Setelah setiap putaran, model evaluator mengklasifikasikan tingkat keparahan kontaminasi dari tidak ada hingga kuat berdasarkan jumlah informasi spesifik-tugas baru yang terungkap
- Kasus dengan kontaminasi kuat diverifikasi lagi oleh model evaluator tambahan untuk menilai apakah kebocoran informasi berlebihan terjadi, lalu akhirnya ditinjau secara manual

Kasus kontaminasi serius per model

GPT‑5.2
- Pada django__django-11451, hanya dengan potongan deskripsi tugas yang singkat, model ini mengeluarkan gold patch yang tepat
- Model tersebut mereproduksi kondisi early return saat ModelBackend.authenticate() menemui username is None or password is None, termasuk path file dan nama metodenya
Claude Opus 4.5
- Pada astropy__astropy-13236, model ini mengutip secara harfiah path file target astropy/table/table.py, metode _convert_data_to_col, dan bahkan komentar inline dalam diff
- Empat baris kode yang secara otomatis mengubah structured ndarray menjadi NdarrayMixin juga dipulihkan dengan tepat
Gemini 3 Flash
- Pada django__django-11099, bahkan dalam kondisi hampir tanpa informasi tambahan selain ID tugas, model ini mengeluarkan deskripsi tugas dan seluruh gold patch secara harfiah
- Model tersebut juga mereproduksi perubahan regex validasi username dari r'^[\\w.@+-]+$' menjadi r'^[\\w.@+-]+\\Z', beserta diff per barisnya

Pelajaran utama

Benchmark yang diambil dari materi yang tersedia secara publik membawa risiko kontaminasi, dan paparan data pelatihan dapat secara diam-diam menggelembungkan skor
Jika benchmark dibuat dari data crawling publik, pengembang model perlu menjalankan pengujian tambahan untuk memeriksa ada tidaknya kontaminasi
Karena benchmark dan jawaban yang dipublikasikan pada akhirnya juga bisa masuk ke data pelatihan, baik cara distribusi dataset maupun pemfilteran data pelatihan memerlukan perhatian khusus
- Disebutkan pendekatan kontrol distribusi seperti perlindungan kata sandi
- Juga disebutkan metode pemfilteran seperti kepatuhan ketat terhadap canary string
Penilaian otomatis harus cukup tangguh agar tidak goyah oleh perbedaan implementasi yang tidak penting, namun tetap cukup kuat untuk mencegah cara-cara curang, dan memenuhi keduanya sekaligus sangat sulit
Menemukan cacat-cacat ini memerlukan beberapa putaran pelabelan manual skala besar

Arah evaluasi ke depan

Dalam beberapa bulan terakhir, OpenAI memutuskan untuk melaporkan hasil pada data evaluasi publik SWE-bench Pro, dan mendorong pengembang model lain mengambil langkah yang sama
SWE-bench Pro juga tidak sempurna, tetapi secara empiris lebih sedikit terpengaruh kontaminasi dibanding SWE-bench Verified
- Beberapa kasus kontaminasi memang ditemukan dalam pipeline verifikasi kontaminasi internal
- Namun kasus tersebut jauh lebih jarang dan tidak separah pada SWE-bench Verified
- Tidak ada model yang mampu menghasilkan gold patch yang sepenuhnya identik secara harfiah
Ke depan, mereka berencana terus berinvestasi pada benchmark yang orisinal dan ditulis secara nonpublik
Di GDPVal, para ahli domain menulis tugas secara nonpublik, dan evaluator terlatih memberi nilai solusi secara menyeluruh
Pendekatan seperti ini memang memakan banyak sumber daya, tetapi semakin menjadi elemen penting untuk mengukur peningkatan kemampuan yang nyata

1 komentar

GN⁺ 2 jam lalu

Komentar Hacker News

Sebagai salah satu pembuat SWE-bench, singkatnya SWE-bench Verified sekarang sudah hampir jenuh di 93.9%, dan Anthropic memang layak diberi selamat
Meski begitu, tim-tim yang masih belum mencapai angka itu masih punya ruang untuk meningkatkannya
SWE-bench Multilingual dan SWE-bench Multimodal masih belum jenuh, dan Multimodal rencananya akan dirilis open source dalam sebulan ke depan
Benchmark pada akhirnya memang akan selalu jenuh, jadi benchmark tahap berikutnya juga terus dibuat, dan sudah ada hal-hal seperti https://codeclash.ai/ atau https://algotune.io/
- Jenuh bukan berarti SWE-bench Verified sebaiknya tidak dipakai lagi
  Intinya adalah cukup banyak test yang tidak akurat, sehingga solusi yang sebenarnya benar pun dinilai salah
  Selain itu, sangat mungkin model frontier sudah pernah membaca dan menghafal PR yang menjadi dasar masalah-masalah tersebut
  Bahkan ada soal yang pada praktiknya nyaris mustahil diselesaikan dengan benar kecuali sudah menghafal solusinya, misalnya ketika test hanya lolos jika Anda mengekspos nama helper function tertentu yang sama sekali tidak disebut di soal
  Fakta bahwa model frontier bisa lolos dari hal seperti ini tampaknya karena mereka mengingat bahwa nama itu memang diperlukan
  Jika benchmark generasi berikutnya tidak memperbaiki hal ini, masalah yang sama akan tetap ada terlepas dari apakah benchmark itu jenuh atau tidak
- Kalau mengikuti isi artikelnya, mereka mengaudit subset 27.6%, dan mengatakan bahwa 59.4% di antaranya memiliki test cacat yang menolak submission yang secara fungsional benar
  Kalau dihitung, 0.191 * 0.594 > 1 - 0.936, jadi saya jadi penasaran apakah subset yang diaudit itu memang tidak representatif, atau Anthropic memperoleh skor tinggi dengan cara yang agak mencurigakan
- SPECint dan SPECfp juga mengalami siklus yang persis sama
  Benchmark dibuat, lalu jenuh, dibuang, diganti, dan diulang lagi
  Pada akhirnya treadmill ini sendiri terasa seperti pola yang berjalan layaknya produk, dan saya tidak tahu solusinya, tetapi rasanya seperti sejarah yang terulang
- Sementara itu tampaknya ada juga https://SWE-rebench.com sebagai alternatif
  Sejauh yang saya pahami, ini terlihat seperti variasi menarik dari SWE-bench
- Menurut saya SWE-bench sendiri tetap bagus
  Fakta bahwa sekarang ia diuji sekeras ini terlihat sebagai efek balik dari adopsi yang luas dan kesuksesannya
Kelihatannya terlalu jelas bahwa benchmark baru apa pun yang muncul akan segera masuk ke data pelatihan dan langsung usang
Insentif untuk mengoptimalkan model terhadap benchmark tertentu akan selalu ada, walau hanya untuk pemasaran, dan bahkan jika ada training cutoff pun biasanya selisihnya hanya sekitar 3–6 bulan dari waktu publikasi
Karena itu, tantangan sebenarnya dari benchmark coding adalah membuat masalah yang benar-benar baru, yang dijamin sama sekali tidak pernah ada di data pelatihan, tanpa meminjam benchmark yang sudah ada
Dari sudut pandang ini, benchmark yang dibuat sebelum perilisan model sulit dianggap mewakili performa model tersebut, dan insentif finansial untuk menyisipkan data demi mempromosikan peningkatan kecil terlalu besar
Sejujurnya, benchmark sebaiknya dihapus saja dari materi pemasaran, biarkan model bicara sendiri dan komunitas yang menilai, tetapi perusahaan yang mempertaruhkan uang tampaknya tidak akan pernah melakukan itu
- Karena itu saya membuat Zork bench
  Game petualangan teks Zork ada di data pelatihan LLM dan bersifat deterministik, jadi secara teori model seharusnya bisa memainkannya dan menamatkannya dengan mudah
  Namun kenyataannya tidak begitu, dan itulah tujuan Zork bench
  https://github.com/mnky9800n/zork-bench
- Ketika mengatakan biarkan komunitas yang menilai, bahkan komunitas yang mana pun sudah tidak jelas
  Di sana bercampur semua orang, dari pakar yang sudah memakai LLM lebih dari 10 tahun sampai vibe coder yang belum pernah menulis kode, dan di internet ada yang menganggap GPT 5.5 sebagai penyelamat, ada juga yang menganggapnya lebih bodoh daripada 5.4
  Saya juga tidak punya waktu untuk membuat benchmark privat sendiri setiap kali ada model baru, jadi pada akhirnya saya tetap bergantung pada benchmark private atau semi-private untuk mengukur sejauh mana peningkatannya, lalu berlangganan dan mencobanya sendiri
  Setidaknya ini sedikit lebih bisa dipercaya daripada suasana yang dipancarkan pengguna acak atau bot di Reddit
- Satu cara mudah untuk membuat benchmark coding kembali bermakna adalah dengan lebih dulu mengisi konteks model dengan 200 ribu token berisi noise atau hal-hal yang tidak relevan
  Atau bisa juga menjalankan test secara berurutan terus-menerus dalam konteks yang sama, untuk melihat model mampu bertahan sampai titik mana sebelum mulai kehilangan konteks
  Benchmark saat ini selalu berupa masalah greenfield, padahal yang kita butuhkan di dunia nyata adalah model yang bisa menangani konteks yang sudah busuk
- Rasanya kita masih melihat satu lapis di bawah esensi utamanya
  Bottleneck saat ini bukan kemampuan itu sendiri, melainkan apa yang bisa dilihat model di lingkungan produksi
  Struktur konteks, kualitas retrieval, tool use, dan kemampuan menggabungkan state lintas banyak giliran itu penting, sementara SWE-bench hampir tidak punya hal-hal itu
  SWE-bench terlihat seperti kumpulan soal one-shot, tetapi pekerjaan coding frontier sudah bukan lagi berbentuk seperti itu
  Bahkan kalau kita membuat benchmark sempurna tanpa kebocoran data sama sekali pun, kemungkinan besar ia tetap akan mengukur sumbu yang salah
  Pada masalah terisolasi, model sudah mencapai level mahasiswa pascasarjana manusia, dan leverage-nya sekarang ada pada bagaimana model itu bekerja di dalam sistem yang lebih besar
  Masalahnya, itu nyaris sudah masuk wilayah selera atau preferensi sehingga sangat sulit diukur secara objektif
- Komunitas online sendiri sudah terlalu banyak di-astroturf
  Anthropic membayar influencer untuk mendorong Claude Code, dan tampaknya juga menjalankan sangat banyak bot, sehingga sulit mempercayai konsensus online
  Bahkan jika semua orang bertindak dengan niat baik pun, perbedaan domain bisa membuat pengalaman yang dirasakan sangat berbeda
  Misalnya AI bisa jauh lebih baik di frontend atau library yang umum dipakai
  Pada akhirnya penilaian model tetap harus lewat pemakaian langsung, tetapi mengulang ini untuk setiap model baru sangat melelahkan dan itu pun belum tentu cukup komprehensif
Benchmark/eval pada dasarnya memang sulit, dan menjadi lebih sulit lagi ketika ada insentif sangat besar di skala industri untuk memainkannya
ELT-Bench adalah contoh terbaru; sekitar setahun lalu ia muncul sebagai benchmark serius pertama untuk workload data engineering
Namun beberapa hari lalu, dalam paper lanjutan yang melibatkan salah satu penulis aslinya, benchmark itu sendiri diaudit dan hasilnya menunjukkan bias karena masalah struktural
Papernya ada di sini: https://arxiv.org/abs/2603.29399
Sebenarnya ini juga bukan hal baru, industri sebelumnya sudah mengalami semua ini dalam skala lebih kecil
Ada juga tulisan tentang betapa miripnya situasi sekarang dengan benchmarketing war di dunia database
https://www.typedef.ai/blog/from-benchmarketing-to-benchmaxx...
- Pada akhirnya yang paling sulit adalah memisahkan benchmark dari data pelatihan
  Masalah serupa juga terlihat di BrowseComp plus dan dataset deep research lainnya, dan ini bukan selalu karena frontier lab berniat curang, melainkan muncul secara alami karena mereka melatih model pada seluruh web
  Dataset baru harus terus dibuat tanpa henti
- Benchmark database juga termasuk keluarga masalah yang sama
  Saat saya membuat classifier sendiri, saya pernah mengalami bahwa pada beberapa tugas model secara konsisten lebih baik daripada manusia, sampai precision itu sendiri tidak bisa lagi diukur
  Lalu classifier itu sendiri menjadi benchmark state-of-the-art, dan selain dirinya sendiri tidak ada lagi pembanding
  Jika hal seperti ini bisa terjadi bahkan pada tugas kompleks yang kurang logis dan kurang menuntut penalaran berkelanjutan dibanding coding, suatu saat benchmark terkoreksi yang independen dari objek yang diukur mungkin benar-benar bisa lenyap
- Jadi saya jadi penasaran apakah pendekatan benchmark baru setiap bulan bisa menyelesaikan masalah ini
Pada akhirnya saya rasa kita kurang lebih memang mendapatkan benchmark hasil ulah kita sendiri
Cukup banyak PR yang lolos SWE-bench tampaknya pada kenyataannya tidak akan bisa di-merge: https://news.ycombinator.com/item?id=47341645
Dan skor SWE-bench model-model teratas mungkin juga terdistorsi karena kebocoran git history: https://news.ycombinator.com/item?id=45214670
Malah saya sempat berpikir, bagaimana kalau benchmark disuruh dibuat langsung oleh model papan atas
Di luar bercanda, yang saya tunggu adalah ARC-AGI-3, dan saat mencoba mensimulasikannya sebagai manusia, rasanya memang sangat menekankan penalaran
Leaderboard-nya ada di sini: https://arcprize.org/leaderboard
Saat ini bahkan sebagian besar model papan atas pun belum bisa menembus 5%
- Di sini yang ditekankan adalah meminimalkan jumlah langkah, dan tidak ada harness apa pun yang diizinkan, jadi standarnya sangat tinggi
  Bahkan Claude Opus 4.6, model terbaik terverifikasi saat ini, hanya sekitar 0.45%
  Namun ini masih sangat baru, jadi saya berharap model generasi berikutnya akan jauh lebih baik
- Gagasan menyuruh model papan atas membuat benchmark juga tidak sepenuhnya konyol
  Cukup biarkan model lama mewawancarai model baru, lalu minta keduanya atau model hakim pihak ketiga memutuskan siapa yang lebih pintar, kemudian ganti seed dan ulangi 100 kali
  Rasio ketika kedua sisi sama-sama mengakui kemenangan model baru bisa dijadikan skor
- Benchmark yang lebih menekankan penalaran tampak seperti arah yang lebih baik
  Jenis itu paling sulit untuk dimanipulasi
- Saya juga sempat bertanya-tanya apakah AI bahkan bisa menulis soal yang bahkan AI sendiri tidak bisa pecahkan
  Kalau dipikir-pikir memang agak lucu
Benchmark yang lebih baik harus punya penilaian objektif, cakupan multidisipliner, dan skalabilitas, serta menghindari format dengan hanya satu jawaban benar
Apa yang kami rancang di https://gertlabs.com juga mengarah ke sana, dan secara umum dibuat tetap terkait dengan pemecahan masalah melalui coding
- Benchmark ini terasa lebih akurat daripada ranking lain yang pernah saya lihat sejauh ini
  Menurut pengalaman saya, gpt 5.4/5.5 secara teknis nyaris tanpa cela, dan ketika ada masalah biasanya karena input-nya tidak jelas
  Saat memperbaiki bug atau menghadapi issue selama implementasi pun model ini cenderung bisa menangani sendiri
  Sebaliknya, menurut saya Opus agak dinilai terlalu tinggi dari sisi kemampuan teknis
  Memang ia punya sense desainer/developer yang lebih baik untuk membuat UX yang indah, tetapi untuk verifikasi pekerjaan saya selalu menyerahkannya ke gpt 5.5
  Hasil yang paling mengejutkan adalah Xiao-Mi; saya belum mencobanya, tetapi setelah melihat ini saya jadi ingin mencobanya
  Selamat untuk tim karena telah membuat tolok ukur yang bermakna di tengah perlombaan AI yang kacau ini
- Menarik bahwa lini Claude Code masih jauh di atas model lain pada C++ dan Java, sementara GPT 5.5 tampak lebih tinggi di Python dan JS
  Ini terlihat seperti bias dataset pelatihan atau perbedaan fokus go-to-market, dan saya jadi berpikir mungkin ini hasil dari Anthropic yang lebih fokus ke pelanggan enterprise dibanding OpenAI
  Ini juga sesuai dengan pengalaman saya memakai Opus untuk C++
  Namun hasil C# masih kosong; @gertlabs, adakah ETA-nya?
- Dari benchmark ini, Deepseek V4 pro tampak lebih buruk daripada Deepseek V4 flash, yang merupakan hasil yang cukup menarik
  Saya penasaran apa komentarnya tentang mengapa hasilnya bisa begitu
Hal seperti ini, baik secara organik maupun non-organik, pada akhirnya memang tidak terhindarkan
Mudah sekali arahnya menjadi sekadar membuat model yang bagus nilainya di benchmark, meskipun tidak benar-benar bisa digeneralisasi ke luar
Graduate student descent juga mengingatkan saya pada hal serupa
https://sciencedryad.wordpress.com/2014/01/25/grad-student-d...
Kalau dipikir-pikir lagi, SWE-bench mungkin memang tidak pernah sehebat itu sejak awal
Sepanjang 2025, proporsi model yang menghasilkan kode yang bagus pada dasarnya hampir tidak membaik, dan interpretasi yang lebih tepat tampaknya adalah bahwa yang membaik hanyalah kemampuan lolos dari automated test
https://entropicthoughts.com/no-swe-bench-improvement
- Sulit bagi saya untuk setuju bahwa sama sekali tidak ada peningkatan kualitas kode
  Pada Januari 2025 model utama yang dipakai adalah Claude 3.5 Sonnet, Gemini 1.5 Pro, dan untuk OpenAI GPT-4o, dan sebagai orang yang sudah memakai model-model itu serta model frontier saat ini, saya merasa jelas model sekarang sudah naik satu tingkat besar
- Interpretasi ini sangat mungkin benar
  Kualitas model tampaknya sedang stagnan, dan mencari vektor perbaikan baru jelas bukan hal mudah
  Perluasan lebar model yang selama ini mendorong laju peningkatan juga tampak mulai mencapai batasnya, jadi saya penasaran implikasinya ke depan
  Dalam jangka panjang, ada juga batas untuk seberapa jauh tooling saja bisa menyelesaikan masalah
- Meski begitu, tingkat kelulusan automated test yang meningkat tetap merupakan sumber produktivitas coding yang sangat besar
  Itu juga salah satu alasan Anthropic dinilai bernilai puluhan miliar dolar
  Alasan SWE-bench berguna di ranah coding adalah karena tradisi dan infrastruktur untuk membuat serta memanfaatkan automated test di software engineering memang sangat kuat
- Mungkin itu sebabnya skema harga perusahaan-perusahaan belakangan ini jadi lebih membatasi dan lebih mahal
Yang dikatakan artikel itu saya pahami sebagai berikut: mereka mengaudit subset 27.6% yang sering gagal diselesaikan model, dan menemukan bahwa setidaknya 59.4% di dalamnya memiliki test cacat yang menolak submission yang secara fungsional benar
Kalau ini benar, rasanya berarti selama ini ada porsi besar dari soal dan jawaban yang memang salah, dan kalau begitu sulit dipahami bagaimana ini bisa dianggap pengukuran yang valid
Kalau melihat penjelasan proses pembuatan benchmark-nya, standarnya terlihat cukup tinggi, jadi saya juga tidak paham bagaimana prosedur seperti itu bisa berujung pada kualitas data yang seburuk ini
Tentu patut diapresiasi bahwa mereka sendiri yang mengungkap masalah ini, tetapi tetap banyak pertanyaan yang tersisa
- Itu tampaknya bukan berarti seperempat dari keseluruhan salah, melainkan bahwa 59.4% dari subset 27.6% memiliki test yang cacat
  Dan karena alasan yang realistis, benchmark pada dasarnya memang tidak akan pernah mewakili use case Anda, maupun semua use case
  Ia hanya valid untuk mengukur item yang memang ada di dalamnya, tidak lebih dan tidak kurang
  Itu juga alasan saya tidak paham kenapa ekosistem begitu terobsesi pada benchmark publik
  Misalnya, fakta bahwa Qwen 3.5 50% lebih baik daripada Qwen 2.5 di Benchmark X hampir tidak memberi jaminan bahwa ia akan 50% lebih baik untuk tugas yang saya pakai
  Saya terus membuat benchmark privat berdasarkan kasus-kasus kegagalan model dalam penggunaan nyata, sambil menyesuaikan prompt
  Bahkan saat ada update model baru, pergerakannya di benchmark saya biasanya hanya 2–3%, sementara di benchmark publik mereka mempromosikan kenaikan 30–40%, jadi sulit percaya tidak ada kontaminasi data pelatihan
- ImageNet juga salah satu dataset paling terkenal di dunia, tetapi cukup banyak gambarnya diberi label yang salah
  Dalam kasus ekstrem, bisa muncul bagian di mana untuk mendapatkan skor lebih tinggi justru Anda harus menyesuaikan diri pada jawaban yang salah
  Pada akhirnya, jawabannya adalah bahwa ML adalah bidang yang sangat berusaha untuk tetap bekerja dengan cara apa pun, sehingga bahkan dengan cacat pun ia bisa melaju sangat jauh
  Di saat yang sama, inilah juga alasan mengapa menunjuk cacat yang belum dilihat orang lain bisa menghasilkan terobosan besar
- Jika tujuannya adalah membedakan model mana yang lebih baik, skor benchmark cukup memiliki korelasi dengan performa nyata
  Selama sebagian besar tugas dinilai dengan benar, arah umumnya masih bisa dipertahankan
  Misalnya, bahkan benchmark buruk dengan 49% label salah pun masih bisa memberikan ranking yang benar jika model yang selalu benar mendapat 51% dan model yang selalu salah mendapat 49%
  Sebagian besar benchmark machine learning memang memiliki cukup banyak mislabel, tetapi jika tujuannya membedakan model, biasanya lebih baik mengumpulkan dataset yang lebih besar daripada menghabiskan waktu untuk menjamin penilaian yang sempurna
- Singkatnya, saya membacanya sebagai kira-kira 16% dari masalah memang bermasalah

Mengapa SWE-bench Verified tidak lagi mampu mengukur kemampuan coding frontier

Mengapa benchmark ini tidak lagi mengukur dengan baik

Latar belakang

Cacat desain pengujian

Kasus pengujian yang membatasi

Kasus pengujian yang terlalu luas

Masalah kontaminasi

Kasus kontaminasi serius per model

GPT‑5.2

Claude Opus 4.5

Gemini 3 Flash

Pelajaran utama

Arah evaluasi ke depan

Bacaan terkait

1 komentar

Komentar Hacker News