- Pada paket Pro Max 5x (konteks 1M), hanya dengan Q&A dan pekerjaan development tingkat sedang pun bisa terjadi batas token terlampaui dalam 1,5 jam
- Penyebab yang disorot adalah bug perhitungan token
cache_read dengan rasio penuh (1.0x), sehingga efek caching hilang dan konsumsi meningkat tajam
- Pemanggilan otomatis sesi background, auto-compact, dan input konteks besar secara gabungan mempercepat laju konsumsi
- Komunitas menganalisis bahwa TTL cache yang dipersingkat (1 jam→5 menit) serta fenomena cache invalidation (cache busting) adalah penyebab utama
- Anthropic sedang mengerjakan pengurangan konteks default (400k), perbaikan UX, dan optimasi pemanggilan tidak aktif, sambil mengumpulkan umpan balik pengguna
Masalah habisnya kuota secara cepat pada paket Pro Max 5x
- Pada paket Pro Max 5x (claude-opus-4-6, konteks 1M), dilaporkan terjadi kuota habis dalam 1,5 jam hanya dengan Q&A tingkat menengah dan development ringan
- Pada 5 jam development intens sebelumnya konsumsi masih normal, tetapi setelah reset konsumsi melonjak drastis
- Lingkungan yang digunakan adalah Claude Code CLI on WSL2, terjadi pada satu sesi saja (dengan auto-compact 2 kali)
- Bug perhitungan token
cache_read dengan rasio penuh (1.0x) ditunjuk sebagai penyebab utama
- Secara normal
cache_read seharusnya dihitung dengan rasio 1/10, dan jika tidak demikian maka efek caching hilang
- Penggunaan token dianalisis melalui objek
usage pada log sesi (~/.claude/projects/.../*.jsonl)
- Pemanggilan otomatis sesi background, pemrosesan mahal pada auto-compact, dan input besar pada jendela konteks 1M bekerja bersama-sama mempercepat konsumsi
- Menurut analisis komunitas, sebagian pengguna menunjuk TTL cache yang dipersingkat (1 jam→5 menit) dan fenomena cache invalidation (cache busting) sebagai penyebab utama
- Tim Anthropic sedang mengerjakan pengurangan konteks default (400k), perbaikan UX, dan optimasi pemanggilan tidak aktif, serta meminta pengumpulan data tambahan melalui umpan balik pengguna
Konsumsi token yang terukur
-
Window 1 (15:00–20:00, 5 jam, development intens)
- 2.715 pemanggilan API, Cache read 1.044M, Cache create 16.8M, output 1.15M token
- Input efektif (jika rasio 1/10 diterapkan) 121.8M token
- Menjalankan implementasi server Express + aplikasi iOS, pipeline graphify, dan koordinasi multi-agent berbasis SPEC
-
Window 2 (20:00–21:30, 1,5 jam, penggunaan tingkat sedang)
- Sesi utama (vibehq): API 222 kali, Cache read 23.2M, Cache create 1.4M, output 91k
- Sesi background (termasuk token-analysis, career-ops): total 691 kali pemanggilan, Cache read 103.9M, output 387k
- Total 13.1M token efektif (jika rasio 1/10 diterapkan) → secara normal seharusnya tidak melewati kuota
- Dalam praktiknya menjadi 105.7M token (jika dihitung 1.0x) → setara 70.5M per jam, sesuai dengan habisnya kuota
Ringkasan masalah utama
-
1. Bug perhitungan batas biaya untuk token Cache read
- Ekspektasi:
cache_read dihitung dengan rasio 1/10
- Kenyataan: dihitung dengan rasio penuh sehingga efek caching menjadi tidak berlaku
- Dalam lingkungan konteks 1M, 100~960k token dikirim per panggilan, sehingga lebih dari 200 panggilan bisa menghabiskan kuota dalam hitungan menit
-
2. Kuota bersama terkuras oleh sesi background
- Sesi tidak aktif (seperti token-analysis, career-ops) juga terus menguras kuota bersama lewat auto-compact dan pemanggilan post-processing
-
3. Pemanggilan mahal dari auto-compact
- Sebelum kompresi, seluruh konteks (~966k token) dikirim sebagai
cache_creation, sehingga pemanggilan termahal terjadi secara otomatis
-
4. Efek samping jendela konteks 1M
- Konteks besar meningkatkan jumlah token per panggilan secara drastis sehingga mempercepat laju konsumsi kuota
Langkah reproduksi
- Jalankan Claude Code dengan model Opus pada paket Pro Max 5x
- Sertakan sekitar 30 file aturan di
~/.claude/rules/ (overhead 19k token)
- Lakukan pekerjaan yang berpusat pada tool seperti membaca file, build, dan test
- Gunakan perintah
/context untuk memeriksa pertambahan konteks
- Setelah 200~300 panggilan, konfirmasi penurunan kuota yang tajam
- Pertahankan 2~3 sesi di terminal lain
- Setelah reset pun, konfirmasi kuota kembali habis dalam waktu singkat
Perbandingan perilaku yang diharapkan dan yang terjadi
-
Diharapkan:
cache_read dihitung dengan rasio 1/10
- Sesi tidak aktif hanya menimbulkan konsumsi minimum
- Auto-compact tidak menimbulkan konsumsi berlebihan
- Dengan penggunaan tingkat sedang dapat bertahan 2~3 jam
-
Yang terjadi:
- Habis dalam 1,5 jam
- Sesi background menghabiskan 78% konsumsi
- Total 105.7M token terkirim sehingga diduga
cache_read dihitung dengan rasio penuh
Usulan perbaikan
- Perjelas metode perhitungan
cache_read — cantumkan rasio perhitungan batas biaya yang sebenarnya dalam dokumentasi
- Batas berdasarkan token efektif — perbaiki agar
cache_read dihitung dengan rasio 1/10
- Deteksi sesi idle — cegah pemanggilan otomatis pada sesi tidak aktif atau tampilkan peringatan
- Visualisasi konsumsi token secara real-time — tampilkan penggunaan untuk
cache_read, cache_create, input, dan output
- Prediksi biaya berbasis konteks — tampilkan estimasi biaya token sebelum pekerjaan dimulai
Analisis dan diskusi komunitas
-
cnighswonger
- Mengumpulkan data 1.500 pemanggilan selama 24 jam menggunakan interceptor
claude-code-cache-fix
- Saat menguji tiga hipotesis (
cache_read 0.0x, 0.1x, 1.0x), hanya model 0.0x yang menunjukkan hasil konsisten pada jendela 5 jam (CV 34.4%)
- Kesimpulan:
cache_read secara praktis hampir tidak memengaruhi kuota, cache bekerja normal
- Namun, verifikasi tambahan masih diperlukan karena datanya berasal dari satu akun saja
-
henu-wang
- Setelah regresi berupa TTL cache dipersingkat dari 1 jam menjadi 5 menit, setiap kali sesi dijeda akan terjadi
cache_create yang memicu biaya 12,5 kali lebih tinggi
- Semakin panjang konteks, biaya meningkat secara nonlinier
- Sebagai solusi sementara, disarankan mempertahankan sesi singkat, aktif menggunakan perintah
/compact, dan preload konteks inti di CLAUDE.md
-
bcherny (tim Anthropic)
- Mengakui bahwa prompt cache miss saat memakai jendela konteks 1M menimbulkan biaya tinggi
- Sedang menguji perbaikan UX (mengarahkan penggunaan
/clear saat melanjutkan sesi panjang) dan mengurangi konteks default menjadi 400k
- Juga menemukan kasus tugas tidak aktif menghabiskan token secara berlebihan saat memakai multi-agent dan plugin, lalu sedang mengerjakan pembersihan otomatis dan peningkatan scheduling
-
wadabum
- Menunjuk bug bahwa cache sama sekali tidak terkena hit pada sesi baru (#47098, #47107)
- Prompt sistem berbasis
git status dan blok CLAUDE.md berubah di setiap sesi, sehingga terjadi cache invalidation (cache busting)
- cnighswonger menjawab bahwa interceptor memang melakukan sebagian stabilisasi urutan, tetapi masalah
git-status perlu diperbaiki secara terpisah
Ringkasan usulan komunitas
- RockyMM: saat sesi mencapai batas, arahkan untuk melanjutkan setelah ringkasan otomatis, dan pendekkan TTL menjadi 10 menit
- mikebutash: melaporkan bahwa pada paket Pro hanya bisa melakukan 2 prompt per 5 jam, dan mengonfirmasi peningkatan 3~4 kali setelah rollback ke v2.1.81 serta memasang cache-fix
- wutlu: mengurangi masalah dengan menginisialisasi ulang sesi untuk tiap pekerjaan
- dprkh: membantu identifikasi penyebab dengan membagikan skill mode debug (Skill.md)
Kesimpulan
- Masalah habisnya kuota secara cepat pada paket Pro Max 5x terkonfirmasi sebagai dampak gabungan dari perilaku cache, regresi TTL, pembengkakan konteks, dan pemanggilan background
- Komunitas menilai bahwa cache invalidation dan pemendekan TTL lebih mungkin menjadi penyebab utama dibanding bug perhitungan
cache_read
- Tim Anthropic sedang mengerjakan pengurangan konteks default, perbaikan UX cache, dan optimasi pemanggilan tidak aktif, serta meminta tambahan data melalui umpan balik pengguna (
/feedback)
2 komentar
Kalau soal kualitas, memang tidak ada penggantinya.
Akan bagus kalau bisa dipakai lebih lama hanya dengan patch sederhana.
Pendapat Hacker News
Saya Boris dari tim Claude Code. Setelah menyelidiki masalah yang baru-baru ini dilaporkan, ada dua penyebab utama
CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000 claudeJika Anda mengalami masalah ini, kirimkan masukan melalui perintah
/feedbackkarena itu akan membantu proses debugging/clearbukan solusi. Jika cache dibersihkan, pada akhirnya harus dibangun ulang juga sehingga biayanya sama. Mengarahkan pengguna ke konteks yang lebih kecil lewat UX berarti menurunkan kualitas layanan. Jika masalahnya biaya, yang perlu diperbaiki adalah harga atau arsitekturnyaBelakangan Claude terasa jelas lebih lambat dan tidak efisien. Bahkan ketika file sudah ditentukan, ia bisa masuk loop eksplorasi lebih dari 5 menit, lalu cepat sekali mencapai batas sesi. Dipakai tiga kali sehari saja sudah menghabiskan 25% batas mingguan. Karena itu saya pindah ke paket Codex $100, dan dari sisi akurasi dan kelonggaran jauh lebih baik. Hanya saja gaya bicara Codex agak mengganggu, jadi saya menambahkan instruksi khusus di Agents.md. Dari sisi rasa UI, Claude Code lama masih lebih enak, tetapi untuk debugging backend dan pemecahan masalah kompleks, Codex lebih unggul. Saat ini saya merekomendasikan membandingkan Codex dengan paket Cursor $20
Setelah melihat-lihat issue, saya jadi paham kenapa Anthropic cepat menutup tiket. Sebagian besar tampak seperti noise buatan AI. Solusi saya sebagai berikut
Yang paling membuat saya kesal adalah Anthropic memaksakan model 1M
/model opusatau/model sonnetRasanya kita mulai mendekati akhir era subsidi. Di komunitas Google Gemini juga baru-baru ini keluhan soal pengecilan kuota meledak (tautan issue). Saya sendiri akhirnya pindah ke kombinasi Kiro IDE dan Codex CLI, dan sejauh ini puas
Cukup mengkhawatirkan bahwa issue yang menunjuk akar penyebab masalah justru ditutup sebagai “Not planned”
Setelah rollback ke versi 2.1.34, sebagian besar masalah kuota dan cache terselesaikan.
Di
~/.claude/settings.jsonsaya menambahkan"effortLevel": "high","CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING": 1, dan semacamnya, lalu menghapus versi lain.Adaptive thinking memang masih belum matang, tetapi kalau nanti membaik seharusnya bisa membantu. Meski begitu, saya tetap sedang mempertimbangkan pindah ke Codex
CLAUDE_CODE_MAX_OUTPUT_TOKENS=64000,DISABLE_AUTOUPDATER=1, dan lain-lain di~/.bashrcMasalah serupa juga terjadi pada model yang lebih rendah. Menurut saya, transaksi yang adil dimulai dari pengukuran yang transparan. Langganan bulan ini kemungkinan akan saya batalkan
Tahun ini saya mencoba eksperimen pelaporan pajak dengan agent AI. Saya memakai Opus 4.6, Codex 5.4, dan Antigravity 3.1 masing-masing dalam paket $20.
Codex menyelesaikannya dengan sempurna dalam 12 menit, Antigravity sempat melewatkan satu halaman tetapi cepat diperbaiki. Claude Code berhenti karena melewati batas penggunaan, dan bahkan setelah dicoba lagi masih ada kesalahan. Sangat di bawah ekspektasi
Sejak pengumuman pembaruan di Reddit, Claude berubah sampai tidak layak dipakai untuk coding sehari-hari. Kredit akun Pro habis hanya dalam satu jam, jadi saya kembali ke Gemini atau ChatGPT
Pada akhirnya, tampaknya struktur penagihan token Anthropic dirancang merugikan pengguna biasa. Begitu dipakai langsung, terasa jelas betapa besar uang yang mereka inginkan