Postmortem gangguan Claude Code dari Anthropic: 23 April 2025
(anthropic.com)Selama sebulan terakhir, sejumlah pengguna terus melaporkan bahwa kualitas respons Claude menurun. Setelah menelusurinya, Anthropic mengonfirmasi bahwa penyebabnya adalah tiga perubahan berbeda yang memengaruhi Claude Code, Claude Agent SDK, dan Claude Cowork. API itu sendiri tidak terdampak, dan mereka menyatakan bahwa per 20 April 2025 (v2.1.116), semua masalah telah diselesaikan. Postmortem ini membahas penyebab masalah, perbaikan yang dilakukan, dan langkah pencegahan agar tidak terulang.
Penyebab dan kronologi tiga gangguan
- Penurunan nilai default reasoning effort (4 Maret): Tingkat reasoning effort default Claude Code diubah dari
highmenjadimedium. Langkah ini diambil untuk mengurangi waktu tunggu yang begitu lama hingga UI terlihat seperti membeku, tetapi pengguna merasakan penurunan kualitas respons, sehingga pada 7 April pengaturan ini akhirnya dikembalikan seperti semula. Saat ini, nilai default ditetapkan kexhighuntuk Opus 4.7, danhighuntuk model lainnya. - Penghapusan riwayat penalaran akibat bug optimasi caching (26 Maret): Saat melanjutkan sesi yang telah idle lebih dari 1 jam, sebuah fitur yang dirancang untuk membersihkan riwayat penalaran (
thinking) sebelumnya hanya sekali malah, karena bug, berulang kali menghapusnya pada setiap giliran percakapan berikutnya. Akibatnya, Claude tidak dapat mengingat mengapa ia melakukan tugas tertentu, yang menyebabkan "pelupa", respons berulang, dan pemilihan tool yang tidak normal seperti yang dialami pengguna. Efek samping lainnya adalah cache miss (kondisi ketika data tersimpan tidak ditemukan) terus terjadi berulang, sehingga batas penggunaan habis lebih cepat dari perkiraan. Ini diperbaiki pada 10 April. - Instruksi keringkasan berlebihan dalam system prompt (16 April): Untuk mengurangi keluaran Opus 4.7 yang terlalu panjang, ditambahkan system prompt berbunyi "teks di antara pemanggilan tool maksimal 25 kata, respons akhir maksimal 100 kata". Tidak ada masalah dalam pengujian internal, tetapi kemudian dipastikan berdampak negatif pada kualitas coding di dunia nyata, sehingga dihapus pada 20 April.
Mengapa masalah terlambat ditemukan
- Ketiga perubahan diterapkan pada waktu berbeda dan cakupan trafik berbeda, sehingga tampak seperti penurunan kualitas yang umum namun tidak konsisten, dan sulit mengidentifikasi penyebab masing-masing.
- Ada perbedaan antara lingkungan pengujian internal dan lingkungan pengguna nyata. Dalam kasus bug caching, eksperimen terpisah yang sedang berjalan secara internal dan perbedaan cara UI menampilkan informasi membuat reproduksi masalah itu sendiri tidak mudah.
- Sistem evaluasi yang ada (
eval suite) belum cukup luas. Dampak perubahan system prompt baru terlihat sebagai penurunan performa 3% setelah evaluasi yang lebih beragam dijalankan.
Langkah pencegahan agar tidak terulang
- Mewajibkan karyawan internal menggunakan build publik yang sebenarnya untuk mengurangi kesenjangan dengan build pengujian internal.
- Memperketat kontrol atas perubahan system prompt. Setiap perubahan akan dievaluasi secara luas untuk tiap model, dampak tiap baris akan dianalisis secara individual (ablation), dan akan diterapkan peluncuran bertahap serta periode verifikasi yang cukup (soak period).
- Meningkatkan tool Code Review. Dari temuan bahwa Opus 4.7 benar-benar dapat menemukan bug caching ketika seluruh repositori kode terkait diberikan sebagai konteks, cakupan repositori yang bisa dirujuk saat code review akan diperluas.
- Membuka kanal komunikasi pengguna baru (@ClaudeDevs) untuk membagikan latar belakang keputusan produk secara transparan.
Tentang pernyataan bahwa "tidak ada penurunan kualitas yang disengaja"
- Anthropic menyatakan bahwa mereka tidak pernah sengaja menurunkan kualitas model, dan menegaskan bahwa API serta inference layer tidak terdampak. Namun, benar bahwa perubahan konfigurasi dan bug pada product layer (Claude Code) secara gabungan menurunkan kualitas yang dirasakan pengguna. Mereka juga mengumumkan langkah untuk mereset batas penggunaan bagi semua pelanggan berlangganan.
Belum ada komentar.