- Sejak Agustus hingga awal September, terjadi fenomena penurunan kualitas respons Claude yang disebabkan oleh tiga bug infrastruktur
- Penyebab utama masing-masing masalah adalah kesalahan routing context window, korupsi output, dan error approximate top-k XLA:TPU yang tidak terkompilasi
- Setiap bug saling tumpang tindih di berbagai hardware dan jalur deployment, sehingga diagnosis menjadi jauh lebih sulit
- Faktor yang menunda deteksi dan perbaikan mencakup celah dalam proses verifikasi serta pembatasan akses akibat kebijakan privasi
- Anthropic mengambil langkah pencegahan insiden serupa dengan memperkuat evaluasi dan pemantauan serta mengembangkan alat debugging yang lebih cepat
Ikhtisar dan latar belakang
- Sejak Agustus hingga awal September, dilaporkan adanya penurunan kualitas respons Claude yang terjadi secara intermiten
- Pada awalnya, hal ini dianggap sebagai variasi normal dalam umpan balik pengguna, tetapi investigasi dimulai setelah laporan terus meningkat
- Anthropic menegaskan dengan jelas bahwa penyebab masalah ini bukan permintaan atau beban server, melainkan semata-mata bug infrastruktur
- Claude melayani jutaan pengguna melalui berbagai platform (API, Amazon Bedrock, Google Vertex AI, dll.), dan memiliki standar verifikasi yang ketat untuk menjamin hasil yang setara di berbagai hardware seperti AWS Trainium, NVIDIA GPU, dan Google TPU
- Analisis pascainsiden ini menjelaskan penyebab bug, alasan keterlambatan diagnosis dan perbaikan, serta langkah-langkah pencegahan agar tidak terulang
Cara Claude melayani pada skala besar
- Layanan Claude mempertahankan deployment global melalui berbagai hardware (Trainium, GPU, TPU)
- Standar kesetaraan implementasi untuk menjamin kualitas yang sama di setiap platform sangat ketat
- Saat ada perubahan infrastruktur, diperlukan proses verifikasi yang presisi di semua platform dan konfigurasi
Linimasa utama terjadinya isu
- 5 Agustus: bug pertama, memengaruhi sekitar 0,8% permintaan Sonnet 4
- 25 dan 26 Agustus: bug kedua dan ketiga masing-masing dideploy
- 29 Agustus: perubahan load balancing menyebabkan lonjakan trafik bermasalah, sehingga lebih banyak pengguna terdampak
- Gejala dari tiap bug saling tumpang tindih, sehingga tingkat kesulitan diagnosis menjadi sangat tinggi
Tiga bug yang saling tumpang tindih dan proses penyelesaiannya
1. Kesalahan routing context window
- Pada 5 Agustus, sebagian permintaan Sonnet 4 salah diarahkan ke server untuk context window 1M token
- Setelah perubahan load balancing, dampaknya mencapai hingga 16% permintaan Sonnet 4, dan juga sedikit memengaruhi Amazon Bedrock serta Google Vertex AI
- Karena metode routing bersifat "sticky", setelah terhubung ke server yang salah, koneksi berikutnya terus diarahkan ke server yang sama
- Perbaikan: logika routing ditingkatkan, patch diterapkan ke platform internal pada 4 September, dideploy ke Google Cloud hingga 16 September, dan sedang diterapkan bertahap ke Bedrock
2. Korupsi output (bug)
- Pada 25 Agustus, konfigurasi yang salah diterapkan ke server TPU Claude API sehingga memicu error saat generasi token
- Muncul gejala seperti karakter yang tidak semestinya bercampur dalam jawaban berbahasa Inggris, misalnya bahasa Thai atau Tionghoa, serta kesalahan sintaks yang jelas tersisip ke dalam kode
- Hanya memengaruhi Opus 4.1, Opus 4, dan Sonnet 4; platform pihak ketiga tidak terdampak
- Perbaikan: perubahan di-rollback pada 2 September, dan pengujian untuk mendeteksi keluaran karakter abnormal ditambahkan ke proses deployment
3. Error approximate top-k XLA:TPU yang tidak terkompilasi
- Pada 25 Agustus, ketika metode pemilihan token sedang ditingkatkan, terungkap bug laten pada compiler XLA:TPU
- Memengaruhi Claude Haiku 3.5, sebagian Sonnet 4, dan Opus 3
- Platform pihak ketiga tidak terdampak
- Perbaikan: Haiku 3.5 di-rollback pada 4 September, Opus 3 pada 12 September, dan Sonnet 4 juga di-rollback sebagai tindakan pencegahan meski tidak direproduksi secara langsung
- Secara paralel, Anthropic bekerja sama dengan tim XLA:TPU untuk memperbaiki bug compiler dan beralih ke metode top-k yang akurat
Analisis detail bug compiler XLA
- Dalam proses generasi token, Claude melakukan perhitungan probabilitas untuk setiap kandidat dan proses sampling
- TPU beroperasi dalam lingkungan terdistribusi, sehingga perhitungan probabilitas token harus disinkronkan, yang menambah kompleksitas
- Pada Desember 2024, ditemukan masalah di mana token dengan probabilitas tertinggi terlewat karena error akibat penggunaan mixed precision bf16-32-bit, dan perbaikan sementara untuk hal ini telah dideploy
- Pada 26 Agustus, saat kode sampling dirombak untuk menyelesaikan akar masalah, terungkap bug yang lebih dalam, yaitu bahwa operasi approximate top-k dalam kasus tertentu menghasilkan keluaran yang sepenuhnya salah
- Bug ini sebelumnya tertutupi oleh perbaikan sementara tersebut
- Selain itu, gejala bug pada operasi approximate top-k berubah secara tidak teratur tergantung lingkungan produksi dan ukuran batch
- Sebagai pengganti approximate top-k, belakangan ini Anthropic beralih ke exact top-k, yang kini memiliki beban performa jauh lebih rendah, serta meningkatkan operasi utama dengan standarisasi fp32
Penyebab keterlambatan deteksi
- Digunakan prosedur seperti evaluasi otomatis berkala dan deployment ke kelompok awal lebih dulu
- Insiden kali ini menunjukkan adanya celah dalam proses evaluasi. Misalnya, item evaluasi yang kurang mampu mendeteksi situasi bermasalah, serta kebijakan privasi internal (engineer tidak dapat mengakses permintaan pengguna secara spesifik) yang menyulitkan analisis cepat
- Gejala muncul secara beragam tergantung platform dan versi, sehingga sulit mengidentifikasi satu penyebab tunggal
- Bahkan ketika laporan online meningkat tajam, keterkaitannya dengan perubahan load balancing standar tidak langsung disadari
Peningkatan dan langkah penanganan ke depan
- Mengembangkan item evaluasi dengan sensitivitas tinggi dan memperkuat evaluasi otomatis agar dapat lebih jelas membedakan kondisi rusak dan implementasi normal
- Memperluas sistem evaluasi dan pemantauan ke seluruh lingkungan produksi nyata, misalnya dengan evaluasi yang berfokus pada kondisi operasional seperti error routing context window
- Membangun alat debugging yang lebih cepat dan lebih canggih, serta mengembangkan infrastruktur dan alat kustom agar umpan balik komunitas dapat dianalisis cepat sambil tetap menjaga privasi
- Selain evaluasi internal, Anthropic juga menekankan pentingnya keandalan pengumpulan umpan balik pengguna secara berkelanjutan: untuk error atau bug yang sulit diprediksi, laporan pengguna nyata berperan sebagai sinyal penting
- Anthropic secara aktif mendorong penggunaan perintah
"/bug" atau fitur 'thumbs down', serta pengiriman lewat email tentang cara mengevaluasi kualitas model
Penjelasan referensi
- XLA:TPU adalah compiler yang mengubah kode bahasa optimisasi tingkat tinggi XLA menjadi instruksi TPU
- Karena ukuran model besar, model dibagi ke beberapa chip, bukan dijalankan pada satu chip saja, dan operasi seperti sorting perlu diimplementasikan dalam bentuk vektorisasi
- Operasi approximate top-k digunakan untuk meningkatkan performa, tetapi dapat mengandung masalah serius seperti mengabaikan token dengan probabilitas tertinggi
- Saat ini metode exact top-k telah diadopsi, dan mungkin ada perubahan halus pada pola token yang disertakan di dekat ambang top-p. Dalam beberapa kasus, pengguna mungkin perlu menyesuaikan nilai top-p
1 komentar
Pendapat Hacker News
/bugyang bisa digunakan. Jika laporan dikirim lewat perintah itu, engineer kemungkinan bisa melihat konteksnya, tetapi sebagai pengguna saya berharap prosedur ini diberi tahu dengan sangat jelas (saya bukan pengguna Claude Code). <br> > Panduan untuk menggunakan tombol "thumbs down" di aplikasi Claude agak mengkhawatirkan. Kebanyakan pengguna mungkin tidak menganggap bahwa menekan tombol ini punya bobot yang setara dengan melepaskan privasi merekarope_scalinghanya ditambahkan saat memang membutuhkan konteks panjang, dan faktornya juga disesuaikan dengan panjang input rata-rata aplikasi. Misalnya jika berada di sekitar 520 ribu token, lebih baik setfactorke 2.0 <br> Sumber (halaman penjelasan Qwen3-Next-80B)