- Sistem pelacakan yang mengukur performa tugas SWE dari Claude Code Opus 4.5 setiap hari untuk mendeteksi penurunan performa yang signifikan secara statistik
- Menggunakan subset terpilih dari SWE-Bench-Pro untuk mengevaluasi 50 instance pengujian per hari, dan hasilnya mencerminkan performa model nyata yang dijalankan langsung di lingkungan CLI
- Selama 30 hari terakhir, terdeteksi penurunan 4.1% yang signifikan secara statistik dibanding baseline, dengan rata-rata tingkat kelulusan 54% vs baseline 58%
- Hasil harian dan mingguan dianalisis berdasarkan interval kepercayaan 95% dan ambang signifikansi (±14.0%, ±5.6%) untuk membedakan fluktuasi jangka pendek dan tren jangka panjang
- Dioperasikan oleh pihak ketiga yang independen, sebagai alat untuk mendeteksi lebih awal penurunan performa akibat perubahan model atau lingkungan eksekusi
Ringkasan
- Tujuan tracker ini adalah mendeteksi penurunan yang signifikan secara statistik pada performa tugas SWE dari Claude Code Opus 4.5
- Evaluasi dilakukan setiap hari menggunakan subset tahan kontaminasi dari SWE-Bench-Pro
- Dijalankan langsung di Claude Code CLI, tanpa harness kustom terpisah, sehingga mencerminkan lingkungan pengguna yang sebenarnya
- Merupakan organisasi pihak ketiga yang independen, tidak berafiliasi dengan penyedia frontier model
- Dioperasikan sebagai sumber daya untuk mendeteksi lebih awal kasus serupa di masa depan setelah postmortem Anthropic terkait penurunan performa pada September 2025
Ringkasan performa
- Tingkat kelulusan baseline: 58%
- Tingkat kelulusan 30 hari terakhir: 54% (berdasarkan 655 evaluasi)
- Tingkat kelulusan 7 hari terakhir: 53% (berdasarkan 250 evaluasi)
- Tingkat kelulusan 1 hari terakhir: 50% (berdasarkan 50 evaluasi)
- Penurunan performa selama 30 hari signifikan secara statistik pada tingkat p < 0.05
- Perubahan 30 hari: -4.1%
- Ambang signifikansi: ±3.4%
- Perubahan 1 hari (-8.0%) dan 7 hari (-4.8%) tidak signifikan secara statistik
Tren harian dan mingguan
- Tren harian (Daily Trend)
- Memvisualisasikan tingkat kelulusan per hari selama 30 hari terakhir
- Baseline 58%, rentang ambang signifikansi ±14.0%
- Dapat menampilkan interval kepercayaan 95%, dan rentangnya makin lebar saat ukuran sampel lebih kecil
- Tren mingguan (Weekly Trend)
- Menyediakan tren yang menghaluskan volatilitas harian melalui moving average 7 hari
- Baseline 58%, rentang ambang signifikansi ±5.6%
- Sama-sama dapat menampilkan interval kepercayaan 95%
Ikhtisar perubahan (Change Overview)
- Perubahan 1 hari (dibanding kemarin): -8.0%, tidak signifikan secara statistik
- Berdasarkan 50 evaluasi, diperlukan perubahan ±14.0% (p < 0.05)
- Perubahan 7 hari (dibanding minggu lalu): -4.8%, tidak signifikan secara statistik
- Berdasarkan 250 evaluasi, diperlukan perubahan ±5.6% (p < 0.05)
- Perubahan 30 hari (dibanding bulan lalu): -4.1%, signifikan secara statistik
- Berdasarkan 655 evaluasi, diperlukan perubahan ±3.4% (p < 0.05)
Metodologi (Methodology)
- Setiap pengujian dimodelkan sebagai variabel acak Bernoulli, lalu dihitung interval kepercayaan 95%
- Menganalisis perbedaan statistik pada tingkat kelulusan harian, mingguan, dan bulanan untuk melaporkan apakah ada penurunan performa yang signifikan
- Evaluasi dilakukan dengan 50 instance pengujian per hari, sehingga ada volatilitas jangka pendek
- Hasil agregasi mingguan dan bulanan memberikan estimasi yang lebih stabil
- Dapat mendeteksi penurunan performa akibat perubahan model maupun perubahan harness eksekusi
Fitur notifikasi
- Mengirim notifikasi email jika penurunan performa terdeteksi secara statistik
- Pengguna dapat berlangganan dengan mendaftarkan alamat email
- Setelah konfirmasi langganan, notifikasi dapat diterima, dengan panduan untuk mencoba lagi jika terjadi kesalahan
2 komentar
Bukan karena Claude Code jadi lebih bodoh… bisa jadi karena penggunanya jadi lebih mahir memanfaatkan Claude…
Komentar Hacker News
Saya Thariq dari tim Claude Code
Saya sudah memperbaiki masalah harness yang terjadi pada 26 Januari. Perbaikannya juga sudah langsung di-rollback pada 28 Januari, jadi saya menyarankan untuk memperbarui ke versi terbaru dengan perintah
claude updateSaya salah satu rekan penulis SWE-bench
Saat ini sepertinya pengujian hanya dijalankan sekali sehari untuk 50 tugas. Untuk meningkatkan akurasi, seharusnya pengujian dilakukan 5~10 kali per hari terhadap 300 tugas lalu dirata-ratakan. Faktor acak seperti beban server bisa sangat memengaruhi hasil
Saya merangkum alasan kenapa saya tidak percaya Anthropic sengaja memberi pengguna model yang lebih buruk
Metodologi statistiknya aneh
Mereka hanya melihat interval kepercayaan dari nilai sebelumnya lalu memeriksa apakah nilai baru berada di luar itu, padahal itu bukan cara yang benar untuk menguji signifikansi statistik dari perbedaan. Karena kedua pengukuran sama-sama punya ketidakpastian, yang harus dihitung adalah interval kepercayaan dari selisihnya. Selain itu, kalau perbandingannya bulanan maka data 60~31 hari lalu harus dibandingkan dengan data 30 hari lalu sampai kemarin, jadi grafiknya minimal harus menampilkan dua bulan data
Sekitar seminggu lalu Claude sempat down selama kira-kira satu jam. Tepat setelah pulih, entah karena jumlah pengguna menurun, kecepatannya jadi lebih dari 3 kali lipat. Dalam satu jam itu saya menyelesaikan pekerjaan yang biasanya butuh setengah hari. Rasanya seperti sempat melihat sekilas masa depan tanpa keterbatasan sumber daya
Kalau frekuensi kata makian dalam prompt pengguna diukur, mungkin bisa mendeteksi meningkatnya permusuhan pengguna saat performa model menurun
Ada kemungkinan model di-quantize secara bertahap seiring waktu. Ini akan memudahkan skalabilitas dan penghematan biaya, sekaligus membuat versi baru tampak “lebih bagus”
Dalam mode API, begitu Claude melewati jumlah token tertentu, ia tiba-tiba jadi bodoh, lalu melakukan hal aneh seperti bilang “ada bug di baris ke-23” tapi malah menghapus seluruh fungsinya. Bahkan perbaikan sederhana yang bisa dilakukan ChatGPT 3.5 pun gagal. Saya tidak paham kenapa ini bisa terjadi
Dalam seminggu terakhir, kualitas kode Claude terasa menurun secara mencolok. Misalnya menyarankan
frozenpada Enum, atau menyarankanurlparselagi pada fungsi yang sudah memakaiurlparse. Dulu ia tidak membuat kesalahan dasar seperti iniKeluhan besar saya terhadap penyedia LLM adalah kurangnya konsistensi kemampuan penalaran. ChatGPT juga sama: saat input melewati 45k token, kecerdasannya turun drastis atau input-nya terpotong. Lebih baik diberi pesan “ditolak” daripada diam-diam di-downgrade, karena itu merusak kepercayaan. Transparansi benar-benar penting