Benchmark harian untuk melacak penurunan performa Claude Code

(marginlab.ai)

9 poin oleh GN⁺ 2026-01-30 | 2 komentar | Bagikan ke WhatsApp

Sistem pelacakan yang mengukur performa tugas SWE dari Claude Code Opus 4.5 setiap hari untuk mendeteksi penurunan performa yang signifikan secara statistik
Menggunakan subset terpilih dari SWE-Bench-Pro untuk mengevaluasi 50 instance pengujian per hari, dan hasilnya mencerminkan performa model nyata yang dijalankan langsung di lingkungan CLI
Selama 30 hari terakhir, terdeteksi penurunan 4.1% yang signifikan secara statistik dibanding baseline, dengan rata-rata tingkat kelulusan 54% vs baseline 58%
Hasil harian dan mingguan dianalisis berdasarkan interval kepercayaan 95% dan ambang signifikansi (±14.0%, ±5.6%) untuk membedakan fluktuasi jangka pendek dan tren jangka panjang
Dioperasikan oleh pihak ketiga yang independen, sebagai alat untuk mendeteksi lebih awal penurunan performa akibat perubahan model atau lingkungan eksekusi

Ringkasan

Tujuan tracker ini adalah mendeteksi penurunan yang signifikan secara statistik pada performa tugas SWE dari Claude Code Opus 4.5
- Evaluasi dilakukan setiap hari menggunakan subset tahan kontaminasi dari SWE-Bench-Pro
- Dijalankan langsung di Claude Code CLI, tanpa harness kustom terpisah, sehingga mencerminkan lingkungan pengguna yang sebenarnya
Merupakan organisasi pihak ketiga yang independen, tidak berafiliasi dengan penyedia frontier model
Dioperasikan sebagai sumber daya untuk mendeteksi lebih awal kasus serupa di masa depan setelah postmortem Anthropic terkait penurunan performa pada September 2025

Ringkasan performa

Tingkat kelulusan baseline: 58%
Tingkat kelulusan 30 hari terakhir: 54% (berdasarkan 655 evaluasi)
Tingkat kelulusan 7 hari terakhir: 53% (berdasarkan 250 evaluasi)
Tingkat kelulusan 1 hari terakhir: 50% (berdasarkan 50 evaluasi)
Penurunan performa selama 30 hari signifikan secara statistik pada tingkat p < 0.05
- Perubahan 30 hari: -4.1%
- Ambang signifikansi: ±3.4%
Perubahan 1 hari (-8.0%) dan 7 hari (-4.8%) tidak signifikan secara statistik

Tren harian dan mingguan

Tren harian (Daily Trend)
- Memvisualisasikan tingkat kelulusan per hari selama 30 hari terakhir
- Baseline 58%, rentang ambang signifikansi ±14.0%
- Dapat menampilkan interval kepercayaan 95%, dan rentangnya makin lebar saat ukuran sampel lebih kecil
Tren mingguan (Weekly Trend)
- Menyediakan tren yang menghaluskan volatilitas harian melalui moving average 7 hari
- Baseline 58%, rentang ambang signifikansi ±5.6%
- Sama-sama dapat menampilkan interval kepercayaan 95%

Ikhtisar perubahan (Change Overview)

Perubahan 1 hari (dibanding kemarin): -8.0%, tidak signifikan secara statistik
- Berdasarkan 50 evaluasi, diperlukan perubahan ±14.0% (p < 0.05)
Perubahan 7 hari (dibanding minggu lalu): -4.8%, tidak signifikan secara statistik
- Berdasarkan 250 evaluasi, diperlukan perubahan ±5.6% (p < 0.05)
Perubahan 30 hari (dibanding bulan lalu): -4.1%, signifikan secara statistik
- Berdasarkan 655 evaluasi, diperlukan perubahan ±3.4% (p < 0.05)

Metodologi (Methodology)

Setiap pengujian dimodelkan sebagai variabel acak Bernoulli, lalu dihitung interval kepercayaan 95%
Menganalisis perbedaan statistik pada tingkat kelulusan harian, mingguan, dan bulanan untuk melaporkan apakah ada penurunan performa yang signifikan
Evaluasi dilakukan dengan 50 instance pengujian per hari, sehingga ada volatilitas jangka pendek
Hasil agregasi mingguan dan bulanan memberikan estimasi yang lebih stabil
Dapat mendeteksi penurunan performa akibat perubahan model maupun perubahan harness eksekusi

Fitur notifikasi

Mengirim notifikasi email jika penurunan performa terdeteksi secara statistik
Pengguna dapat berlangganan dengan mendaftarkan alamat email
Setelah konfirmasi langganan, notifikasi dapat diterima, dengan panduan untuk mencoba lagi jika terjadi kesalahan

2 komentar

iolothebard 2026-01-31

Bukan karena Claude Code jadi lebih bodoh… bisa jadi karena penggunanya jadi lebih mahir memanfaatkan Claude…

GN⁺ 2026-01-30

Komentar Hacker News

Saya Thariq dari tim Claude Code
Saya sudah memperbaiki masalah harness yang terjadi pada 26 Januari. Perbaikannya juga sudah langsung di-rollback pada 28 Januari, jadi saya menyarankan untuk memperbarui ke versi terbaru dengan perintah claude update
- Versi Claude 2.1.x sering macet atau memakai CPU 100%, sampai-sampai nyaris tidak bisa dipakai. Isu terkait ada di GitHub #18532
- Claude membuang-buang token, jadi saya penasaran apakah ada kompensasi untuk itu
- Saya ingin tahu lebih jelas apa yang dimaksud dengan “harness issue”, dan dampak apa yang ditimbulkannya
- Masalah ini sudah ada sejak sebelum 26 Januari. Sejak saat itu Claude mulai mengubah rencana seenaknya dengan dalih “perbaikan”
- Saya lebih penasaran dengan sistem quality control-nya daripada modelnya sendiri. Apakah ada proses internal seperti pemeriksaan sampel output secara berkala atau pemantauan penurunan performa lewat benchmark. Dari sisi keamanan AI juga, verifikasi seperti ini sangat penting
Saya salah satu rekan penulis SWE-bench
Saat ini sepertinya pengujian hanya dijalankan sekali sehari untuk 50 tugas. Untuk meningkatkan akurasi, seharusnya pengujian dilakukan 5~10 kali per hari terhadap 300 tugas lalu dirata-ratakan. Faktor acak seperti beban server bisa sangat memengaruhi hasil
- Bukankah penurunan performa akibat server overload juga seharusnya ikut diukur? Kecuali kalau yang ingin diukur hanya distilasi model
- Mungkin masalahnya ada pada biaya menjalankan model. Akan bagus kalau Anthropic bisa memberi sedikit dukungan kredit, atau membuka tautan donasi
- Bisa jadi perbedaan performa berdasarkan jam dalam sehari justru lebih besar
- Ada kekhawatiran bahwa biaya menjalankan SWE-bench terlalu mahal sehingga sulit dijalankan dalam jumlah cukup. mafia-arena.com mengalami masalah serupa
- Pernyataan “server overload jadi pengukurannya tidak akurat” terdengar aneh. Kalau begitu, apakah ada jam kerja tertentu saat Claude berfungsi dengan baik?
Saya merangkum alasan kenapa saya tidak percaya Anthropic sengaja memberi pengguna model yang lebih buruk
1. Penurunan akurasi kecil dan naik-turunnya berbentuk osilasi
2. Tidak ada baseline pembanding untuk Sonnet 4.5, dan saat GPU terbebani Opus juga bisa turun ke level Sonnet
3. Sangat mungkin mereka sedang A/B testing beberapa checkpoint. Pembaruan versi Claude Code atau non-determinisme sampling token juga bisa jadi penyebab
- Saya paham penjelasan ilmiahnya, tapi kalau dipakai setiap hari memang terasa jelas performanya memburuk
- Saya juga merasa A/B testing adalah penyebab utama. Akan bagus kalau hal-hal seperti batas context window atau perubahan system prompt diungkap secara transparan. Idealnya pengguna bisa memilih versinya sendiri lalu memberi feedback
- Saya penasaran kenapa grafiknya dimulai dari 8 Januari. Bisa jadi saat itu adalah hari yang anomali tinggi
- Bisa jadi ada mekanisme yang otomatis mengubah trade-off performa-biaya sesuai beban. Mungkin awalnya berjalan dalam mode performa tinggi lalu secara bertahap diperkecil demi penghematan biaya, misalnya dengan mengurangi jumlah expert MoE
- Klaim bahwa “penurunannya terlalu kecil” hanyalah penilaian subjektif yang mengabaikan signifikansi statistik
Metodologi statistiknya aneh
Mereka hanya melihat interval kepercayaan dari nilai sebelumnya lalu memeriksa apakah nilai baru berada di luar itu, padahal itu bukan cara yang benar untuk menguji signifikansi statistik dari perbedaan. Karena kedua pengukuran sama-sama punya ketidakpastian, yang harus dihitung adalah interval kepercayaan dari selisihnya. Selain itu, kalau perbandingannya bulanan maka data 60~31 hari lalu harus dibandingkan dengan data 30 hari lalu sampai kemarin, jadi grafiknya minimal harus menampilkan dua bulan data
Sekitar seminggu lalu Claude sempat down selama kira-kira satu jam. Tepat setelah pulih, entah karena jumlah pengguna menurun, kecepatannya jadi lebih dari 3 kali lipat. Dalam satu jam itu saya menyelesaikan pekerjaan yang biasanya butuh setengah hari. Rasanya seperti sempat melihat sekilas masa depan tanpa keterbatasan sumber daya
- Saat libur nasional di AS juga, pembatasan penggunaan dilonggarkan sehingga semuanya berjalan jauh lebih mulus
- Saya juga mengalami hal yang sama beberapa hari lalu. Sampai-sampai saya mencari “claude speed boost” karena begitu cepat. Rasanya seperti kecepatan kilat sesaat, seperti waktu dulu upgrade modem
- Kalau terlalu cepat malah jadi agak sayang. Sekarang saya bisa merasakan modelnya sedang bekerja keras, dan itu juga enak
Kalau frekuensi kata makian dalam prompt pengguna diukur, mungkin bisa mendeteksi meningkatnya permusuhan pengguna saat performa model menurun
- Tapi memang ada cara untuk “sekadar” memindai prompt pengguna Claude?
- Ada korelasi antara meningkatnya makian dengan permintaan feedback tepat setelah pertanyaan seperti “How’s Claude Doing This Session?”
- Saya memang dari awal sering ngomel, jadi datanya mungkin bias
- Saya juga begitu, jadi agak lega
- Kadang kalau jawabannya terlalu bodoh, saya jadi refleks memaki. Itu reaksi karena ekspektasinya tinggi
Ada kemungkinan model di-quantize secara bertahap seiring waktu. Ini akan memudahkan skalabilitas dan penghematan biaya, sekaligus membuat versi baru tampak “lebih bagus”
- Saya memakainya 5~10 jam setiap hari, dan dalam seminggu terakhir memang terasa jelas jadi lebih bodoh. Meski mereka membantah, secara pengalaman pemakaian terasa ada perubahan
- Bahkan tanpa quantization pun, beban bisa dikurangi dengan memendekkan panjang percakapan atau mempercepat waktu inferensi
- Model terbuka GPT-OSS dan Kimi K2.x juga dilatih dengan layer 4bit. Opus 4.5 kemungkinan model yang lebih besar karena biaya per token-nya 8 kali lebih mahal, tetapi sulit dibandingkan secara sederhana karena struktur harga berbasis langganan
- Anthropic tidak terlihat seperti perusahaan yang sangat tertekan oleh biaya infrastruktur. Di situasi persaingan ketat, sengaja menurunkan kualitas adalah strategi yang buruk. Mungkin pengguna hanya jadi lebih peka terhadap kekurangan setelah efek honeymoon berakhir
- Meski begitu, strategi penurunan bertahap seperti ini tetap terasa sangat mungkin. Karena bisa memaksimalkan efek peningkatan relatif dari model baru
Dalam mode API, begitu Claude melewati jumlah token tertentu, ia tiba-tiba jadi bodoh, lalu melakukan hal aneh seperti bilang “ada bug di baris ke-23” tapi malah menghapus seluruh fungsinya. Bahkan perbaikan sederhana yang bisa dilakukan ChatGPT 3.5 pun gagal. Saya tidak paham kenapa ini bisa terjadi
- Kemungkinan karena keterbatasan resource. Daripada memberi jawaban bagus ke sebagian pengguna, mereka mungkin memilih memberi jawaban yang cukup ke lebih banyak pengguna
- Saya juga mengalami hal yang sama. Claude terasa makin malas
Dalam seminggu terakhir, kualitas kode Claude terasa menurun secara mencolok. Misalnya menyarankan frozen pada Enum, atau menyarankan urlparse lagi pada fungsi yang sudah memakai urlparse. Dulu ia tidak membuat kesalahan dasar seperti ini
Keluhan besar saya terhadap penyedia LLM adalah kurangnya konsistensi kemampuan penalaran. ChatGPT juga sama: saat input melewati 45k token, kecerdasannya turun drastis atau input-nya terpotong. Lebih baik diberi pesan “ditolak” daripada diam-diam di-downgrade, karena itu merusak kepercayaan. Transparansi benar-benar penting
- Mungkin ini terkait fenomena Maximum Effective Context Window