7 poin oleh GN⁺ 7 hari lalu | 2 komentar | Bagikan ke WhatsApp
  • Pada paket Pro Max 5x (konteks 1M), hanya dengan Q&A dan pekerjaan development tingkat sedang pun bisa terjadi batas token terlampaui dalam 1,5 jam
  • Penyebab yang disorot adalah bug perhitungan token cache_read dengan rasio penuh (1.0x), sehingga efek caching hilang dan konsumsi meningkat tajam
  • Pemanggilan otomatis sesi background, auto-compact, dan input konteks besar secara gabungan mempercepat laju konsumsi
  • Komunitas menganalisis bahwa TTL cache yang dipersingkat (1 jam→5 menit) serta fenomena cache invalidation (cache busting) adalah penyebab utama
  • Anthropic sedang mengerjakan pengurangan konteks default (400k), perbaikan UX, dan optimasi pemanggilan tidak aktif, sambil mengumpulkan umpan balik pengguna

Masalah habisnya kuota secara cepat pada paket Pro Max 5x

  • Pada paket Pro Max 5x (claude-opus-4-6, konteks 1M), dilaporkan terjadi kuota habis dalam 1,5 jam hanya dengan Q&A tingkat menengah dan development ringan
    • Pada 5 jam development intens sebelumnya konsumsi masih normal, tetapi setelah reset konsumsi melonjak drastis
    • Lingkungan yang digunakan adalah Claude Code CLI on WSL2, terjadi pada satu sesi saja (dengan auto-compact 2 kali)
  • Bug perhitungan token cache_read dengan rasio penuh (1.0x) ditunjuk sebagai penyebab utama
    • Secara normal cache_read seharusnya dihitung dengan rasio 1/10, dan jika tidak demikian maka efek caching hilang
    • Penggunaan token dianalisis melalui objek usage pada log sesi (~/.claude/projects/.../*.jsonl)
  • Pemanggilan otomatis sesi background, pemrosesan mahal pada auto-compact, dan input besar pada jendela konteks 1M bekerja bersama-sama mempercepat konsumsi
  • Menurut analisis komunitas, sebagian pengguna menunjuk TTL cache yang dipersingkat (1 jam→5 menit) dan fenomena cache invalidation (cache busting) sebagai penyebab utama
  • Tim Anthropic sedang mengerjakan pengurangan konteks default (400k), perbaikan UX, dan optimasi pemanggilan tidak aktif, serta meminta pengumpulan data tambahan melalui umpan balik pengguna

Konsumsi token yang terukur

  • Window 1 (15:00–20:00, 5 jam, development intens)

    • 2.715 pemanggilan API, Cache read 1.044M, Cache create 16.8M, output 1.15M token
    • Input efektif (jika rasio 1/10 diterapkan) 121.8M token
    • Menjalankan implementasi server Express + aplikasi iOS, pipeline graphify, dan koordinasi multi-agent berbasis SPEC
  • Window 2 (20:00–21:30, 1,5 jam, penggunaan tingkat sedang)

    • Sesi utama (vibehq): API 222 kali, Cache read 23.2M, Cache create 1.4M, output 91k
    • Sesi background (termasuk token-analysis, career-ops): total 691 kali pemanggilan, Cache read 103.9M, output 387k
    • Total 13.1M token efektif (jika rasio 1/10 diterapkan) → secara normal seharusnya tidak melewati kuota
    • Dalam praktiknya menjadi 105.7M token (jika dihitung 1.0x) → setara 70.5M per jam, sesuai dengan habisnya kuota

Ringkasan masalah utama

  • 1. Bug perhitungan batas biaya untuk token Cache read

    • Ekspektasi: cache_read dihitung dengan rasio 1/10
    • Kenyataan: dihitung dengan rasio penuh sehingga efek caching menjadi tidak berlaku
    • Dalam lingkungan konteks 1M, 100~960k token dikirim per panggilan, sehingga lebih dari 200 panggilan bisa menghabiskan kuota dalam hitungan menit
  • 2. Kuota bersama terkuras oleh sesi background

    • Sesi tidak aktif (seperti token-analysis, career-ops) juga terus menguras kuota bersama lewat auto-compact dan pemanggilan post-processing
  • 3. Pemanggilan mahal dari auto-compact

    • Sebelum kompresi, seluruh konteks (~966k token) dikirim sebagai cache_creation, sehingga pemanggilan termahal terjadi secara otomatis
  • 4. Efek samping jendela konteks 1M

    • Konteks besar meningkatkan jumlah token per panggilan secara drastis sehingga mempercepat laju konsumsi kuota

Langkah reproduksi

  1. Jalankan Claude Code dengan model Opus pada paket Pro Max 5x
  2. Sertakan sekitar 30 file aturan di ~/.claude/rules/ (overhead 19k token)
  3. Lakukan pekerjaan yang berpusat pada tool seperti membaca file, build, dan test
  4. Gunakan perintah /context untuk memeriksa pertambahan konteks
  5. Setelah 200~300 panggilan, konfirmasi penurunan kuota yang tajam
  6. Pertahankan 2~3 sesi di terminal lain
  7. Setelah reset pun, konfirmasi kuota kembali habis dalam waktu singkat

Perbandingan perilaku yang diharapkan dan yang terjadi

  • Diharapkan:

    • cache_read dihitung dengan rasio 1/10
    • Sesi tidak aktif hanya menimbulkan konsumsi minimum
    • Auto-compact tidak menimbulkan konsumsi berlebihan
    • Dengan penggunaan tingkat sedang dapat bertahan 2~3 jam
  • Yang terjadi:

    • Habis dalam 1,5 jam
    • Sesi background menghabiskan 78% konsumsi
    • Total 105.7M token terkirim sehingga diduga cache_read dihitung dengan rasio penuh

Usulan perbaikan

  1. Perjelas metode perhitungan cache_read — cantumkan rasio perhitungan batas biaya yang sebenarnya dalam dokumentasi
  2. Batas berdasarkan token efektif — perbaiki agar cache_read dihitung dengan rasio 1/10
  3. Deteksi sesi idle — cegah pemanggilan otomatis pada sesi tidak aktif atau tampilkan peringatan
  4. Visualisasi konsumsi token secara real-time — tampilkan penggunaan untuk cache_read, cache_create, input, dan output
  5. Prediksi biaya berbasis konteks — tampilkan estimasi biaya token sebelum pekerjaan dimulai

Analisis dan diskusi komunitas

  • cnighswonger

    • Mengumpulkan data 1.500 pemanggilan selama 24 jam menggunakan interceptor claude-code-cache-fix
    • Saat menguji tiga hipotesis (cache_read 0.0x, 0.1x, 1.0x), hanya model 0.0x yang menunjukkan hasil konsisten pada jendela 5 jam (CV 34.4%)
    • Kesimpulan: cache_read secara praktis hampir tidak memengaruhi kuota, cache bekerja normal
    • Namun, verifikasi tambahan masih diperlukan karena datanya berasal dari satu akun saja
  • henu-wang

    • Setelah regresi berupa TTL cache dipersingkat dari 1 jam menjadi 5 menit, setiap kali sesi dijeda akan terjadi cache_create yang memicu biaya 12,5 kali lebih tinggi
    • Semakin panjang konteks, biaya meningkat secara nonlinier
    • Sebagai solusi sementara, disarankan mempertahankan sesi singkat, aktif menggunakan perintah /compact, dan preload konteks inti di CLAUDE.md
  • bcherny (tim Anthropic)

    • Mengakui bahwa prompt cache miss saat memakai jendela konteks 1M menimbulkan biaya tinggi
    • Sedang menguji perbaikan UX (mengarahkan penggunaan /clear saat melanjutkan sesi panjang) dan mengurangi konteks default menjadi 400k
    • Juga menemukan kasus tugas tidak aktif menghabiskan token secara berlebihan saat memakai multi-agent dan plugin, lalu sedang mengerjakan pembersihan otomatis dan peningkatan scheduling
  • wadabum

    • Menunjuk bug bahwa cache sama sekali tidak terkena hit pada sesi baru (#47098, #47107)
    • Prompt sistem berbasis git status dan blok CLAUDE.md berubah di setiap sesi, sehingga terjadi cache invalidation (cache busting)
    • cnighswonger menjawab bahwa interceptor memang melakukan sebagian stabilisasi urutan, tetapi masalah git-status perlu diperbaiki secara terpisah

Ringkasan usulan komunitas

  • RockyMM: saat sesi mencapai batas, arahkan untuk melanjutkan setelah ringkasan otomatis, dan pendekkan TTL menjadi 10 menit
  • mikebutash: melaporkan bahwa pada paket Pro hanya bisa melakukan 2 prompt per 5 jam, dan mengonfirmasi peningkatan 3~4 kali setelah rollback ke v2.1.81 serta memasang cache-fix
  • wutlu: mengurangi masalah dengan menginisialisasi ulang sesi untuk tiap pekerjaan
  • dprkh: membantu identifikasi penyebab dengan membagikan skill mode debug (Skill.md)

Kesimpulan

  • Masalah habisnya kuota secara cepat pada paket Pro Max 5x terkonfirmasi sebagai dampak gabungan dari perilaku cache, regresi TTL, pembengkakan konteks, dan pemanggilan background
  • Komunitas menilai bahwa cache invalidation dan pemendekan TTL lebih mungkin menjadi penyebab utama dibanding bug perhitungan cache_read
  • Tim Anthropic sedang mengerjakan pengurangan konteks default, perbaikan UX cache, dan optimasi pemanggilan tidak aktif, serta meminta tambahan data melalui umpan balik pengguna (/feedback)

2 komentar

 
kimjoin2 7 hari lalu

Kalau soal kualitas, memang tidak ada penggantinya.
Akan bagus kalau bisa dipakai lebih lama hanya dengan patch sederhana.

 
GN⁺ 7 hari lalu
Pendapat Hacker News
  • Saya Boris dari tim Claude Code. Setelah menyelidiki masalah yang baru-baru ini dilaporkan, ada dua penyebab utama

    1. Saat menggunakan jendela konteks 1M token, cache miss pada prompt sangat mahal. Saat ini TTL cache adalah 1 jam, jadi jika Anda meninggalkan sesi lebih dari satu jam, sesi akan kedaluwarsa dan seluruh cache harus dimuat ulang. Untuk memperbaikinya, kami telah merilis peningkatan UX, dan sedang mempertimbangkan opsi untuk menurunkan default ke 400k. Jika ingin langsung mengujinya sekarang, gunakan perintah CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000 claude
    2. Menjalankan terlalu banyak plugin atau agent secara bersamaan menyebabkan pemborosan token. Untuk mengatasinya, kami sedang mengerjakan peningkatan UX serta pembersihan dan penjadwalan otomatis untuk tugas-tugas non-utama
      Jika Anda mengalami masalah ini, kirimkan masukan melalui perintah /feedback karena itu akan membantu proses debugging
    • Boris, cerita pengalaman pengguna yang muncul di komunitas sekarang bukan sekadar pengecualian. Seperti kata Jeff Bezos, ada kalanya anekdot mengungkap kebenaran, bukan data. Perlu ditinjau serius apakah metrik kalian salah
    • Saya penasaran kenapa masalah ini tiba-tiba muncul, lalu setelah menyelidiki ternyata penyebabnya adalah TTL cache prompt yang dipangkas dari 1 jam menjadi 5 menit. Bahkan jika memulai sesi baru, pada akhirnya semuanya harus dibangun ulang, jadi ini tidak efisien. Struktur yang mengharuskan pengguna memantau masa berlaku cache bertentangan dengan filosofi CC
    • Dalam kasus saya, regresi paling parah adalah bagian ketika system prompt mencoba memindai malware pada file setiap saat. Ini membuat token cepat habis, dan respons “not a malware” terus muncul. Desain seperti ini adalah keputusan yang buruk. Saya akhirnya menghentikan proyek dan pindah ke Qwen, dan sejauh ini cukup bagus
    • Notifikasi /clear bukan solusi. Jika cache dibersihkan, pada akhirnya harus dibangun ulang juga sehingga biayanya sama. Mengarahkan pengguna ke konteks yang lebih kecil lewat UX berarti menurunkan kualitas layanan. Jika masalahnya biaya, yang perlu diperbaiki adalah harga atau arsitekturnya
    • OpenAI dulu mereset batas penggunaan saat ada masalah, tetapi Anthropic tidak melakukan hal seperti itu. Kejadian kali ini terasa seperti sesuatu yang disengaja
  • Belakangan Claude terasa jelas lebih lambat dan tidak efisien. Bahkan ketika file sudah ditentukan, ia bisa masuk loop eksplorasi lebih dari 5 menit, lalu cepat sekali mencapai batas sesi. Dipakai tiga kali sehari saja sudah menghabiskan 25% batas mingguan. Karena itu saya pindah ke paket Codex $100, dan dari sisi akurasi dan kelonggaran jauh lebih baik. Hanya saja gaya bicara Codex agak mengganggu, jadi saya menambahkan instruksi khusus di Agents.md. Dari sisi rasa UI, Claude Code lama masih lebih enak, tetapi untuk debugging backend dan pemecahan masalah kompleks, Codex lebih unggul. Saat ini saya merekomendasikan membandingkan Codex dengan paket Cursor $20

    • Saya juga mengalami hal serupa. Beberapa hari lalu Claude seperti macet hanya berpikir, lalu keesokan harinya kembali normal
    • Saya memakai paket Codex Business (30 euro), dan belakangan terasa kuotanya berkurang. Meski begitu, syaratnya masih jauh lebih baik daripada Claude Code
    • Saat ini saya sedang membandingkan perilaku confidence score pada model Opus, Haiku, dan Sonnet. Opus paling efisien untuk tugas tingkat menengah
    • Saya sudah mencoba CC, Gemini-cli, dan Codex, dan CC masih yang terbaik. Saya penasaran apakah kombinasi Cursor atau Aider lebih bagus
    • Coding dengan AI cenderung sangat boros konteks, jadi jika cakupannya dibatasi dengan sandbox kustom, efisiensinya meningkat
  • Setelah melihat-lihat issue, saya jadi paham kenapa Anthropic cepat menutup tiket. Sebagian besar tampak seperti noise buatan AI. Solusi saya sebagai berikut

    1. Mengaktifkan max thinking di semua sesi agar eksplorasi jalur yang tidak perlu berkurang
    2. Menjaga sesi tetap aktif terus. Jika cache kedaluwarsa dalam 5 menit, token harus dibangun ulang
    3. Begitu mencapai 200k token, langsung jalankan compact
      Yang paling membuat saya kesal adalah Anthropic memaksakan model 1M
    • Saya juga tertawa saat membaca issue itu. Mungkin hasilnya karena mereka menyuruh Claude Code, “cari tahu kenapa tokennya habis”
    • Ada yang bilang thinking harus dinyalakan, ada juga yang bilang dimatikan. Ironis juga kalau keduanya sama-sama diklaim menghemat token
    • Inti masalahnya adalah bug yang membuat cache dinonaktifkan secara acak. Klien API tampaknya mengakhiri cache pelanggan terlalu cepat. Ditambah lagi, biaya token input juga diam-diam dinaikkan
    • Saya juga mengonfirmasi hal itu. max effort membantu. Menjaga konteks di bawah 25% itu penting. Saya penasaran apakah ada cara untuk memeriksa status kedaluwarsa cache
    • Anda bisa mematikan model 1M dengan perintah /model opus atau /model sonnet
  • Rasanya kita mulai mendekati akhir era subsidi. Di komunitas Google Gemini juga baru-baru ini keluhan soal pengecilan kuota meledak (tautan issue). Saya sendiri akhirnya pindah ke kombinasi Kiro IDE dan Codex CLI, dan sejauh ini puas

    • Perubahan seperti ini sebenarnya sudah bisa diperkirakan. Di masa token gratis, strategi yang cerdas adalah membangun library yang diperlukan lebih dulu
    • Anthropic sekarang tampaknya sedang beralih berfokus pada pelanggan enterprise, dan OpenAI juga menempuh arah serupa. Di Reddit dan Discord memang ada gerakan mencari open model atau alternatif dari Tiongkok, tetapi belum ada pengganti yang benar-benar setara
    • antigravity memang cepat menghabiskan kuota pro, tetapi mode flash jauh lebih longgar. Saat mengerjakan proyek STM32, produktivitas saya naik 3 kali lipat
    • Pada akhirnya, ujung dari tren ini mungkin adalah era output yang ditempeli iklan
    • Ini mengingatkan saya pada taksi Uber $3 dulu
  • Cukup mengkhawatirkan bahwa issue yang menunjuk akar penyebab masalah justru ditutup sebagai “Not planned”

    • Isi jawabannya terasa tidak alami seperti ditulis AI. Logika bahwa “TTL 1 jam lebih mahal” juga terasa aneh. Sulit menerima alasan bahwa tidak diberi toggle karena biaya
    • Tidak perlu terlalu takut. Jika kualitasnya memburuk, ya tinggal berhenti pakai
    • Saya melihat Anthropic menjual token seperti kasino, dan tidak peduli pengguna kehilangan uang. Jika tidak suka model seperti ini, menurut saya lebih baik pakai LLM lokal
  • Setelah rollback ke versi 2.1.34, sebagian besar masalah kuota dan cache terselesaikan.
    Di ~/.claude/settings.json saya menambahkan "effortLevel": "high", "CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING": 1, dan semacamnya, lalu menghapus versi lain.
    Adaptive thinking memang masih belum matang, tetapi kalau nanti membaik seharusnya bisa membantu. Meski begitu, saya tetap sedang mempertimbangkan pindah ke Codex

    • Saya juga menambahkan CLAUDE_CODE_MAX_OUTPUT_TOKENS=64000, DISABLE_AUTOUPDATER=1, dan lain-lain di ~/.bashrc
  • Masalah serupa juga terjadi pada model yang lebih rendah. Menurut saya, transaksi yang adil dimulai dari pengukuran yang transparan. Langganan bulan ini kemungkinan akan saya batalkan

    • Ada juga kasus ketika sesi dimulai saat komputer dalam mode tidur sehingga token tetap terpakai. Bahkan pertanyaan sederhana seperti “jam berapa sekarang?” bisa menghabiskan 10%
  • Tahun ini saya mencoba eksperimen pelaporan pajak dengan agent AI. Saya memakai Opus 4.6, Codex 5.4, dan Antigravity 3.1 masing-masing dalam paket $20.
    Codex menyelesaikannya dengan sempurna dalam 12 menit, Antigravity sempat melewatkan satu halaman tetapi cepat diperbaiki. Claude Code berhenti karena melewati batas penggunaan, dan bahkan setelah dicoba lagi masih ada kesalahan. Sangat di bawah ekspektasi

    • Saya juga melakukan eksperimen serupa, tetapi dalam kasus saya Claude seakurat akuntan profesional. Menarik bahwa hasilnya bisa berbeda antar sesi untuk tugas yang sama. Dukungan pelanggan di era perangkat lunak non-deterministik benar-benar terasa asing
  • Sejak pengumuman pembaruan di Reddit, Claude berubah sampai tidak layak dipakai untuk coding sehari-hari. Kredit akun Pro habis hanya dalam satu jam, jadi saya kembali ke Gemini atau ChatGPT

  • Pada akhirnya, tampaknya struktur penagihan token Anthropic dirancang merugikan pengguna biasa. Begitu dipakai langsung, terasa jelas betapa besar uang yang mereka inginkan