Anthropic mempersingkat cache TTL dari 1 jam menjadi 5 menit pada 6 Maret 2026
(github.com/anthropics)- Pada awal Maret 2026, cache TTL Claude Code berubah dari 1 jam menjadi 5 menit, dan perubahan ini teridentifikasi sebagai akibat perbedaan konfigurasi sisi server meski pola penggunaan tetap sama
- Akibat pemendekan TTL, biaya regenerasi cache naik 20~32% dan pada sesi berdurasi panjang konsumsi kuota melonjak tajam
- Hasil analisis menunjukkan ada biaya tambahan sekitar 17% per model, dan sebagian pengguna mulai mencapai batas kuota 5 jam
- Anthropic menjelaskan bahwa perubahan pada 6 Maret adalah tindakan yang disengaja, dan TTL diterapkan berbeda per permintaan untuk menekan biaya total
- Komunitas mengkritik kenaikan biaya, kurangnya transparansi, dan tidak adanya pemberitahuan sebelumnya, serta menuntut hak pengguna untuk memilih pengaturan TTL
Laporan masalah biaya dan kuota akibat perubahan Cache TTL
- Pada awal Maret 2026, dianalisis bahwa nilai default cache TTL Claude Code milik Anthropic berubah dari 1 jam menjadi 5 menit
- Analisis didasarkan pada 119.866 data panggilan API dari 11 Januari hingga 11 April 2026
- Antara 6~8 Maret, TTL 5 menit kembali muncul dan TTL 1 jam secara bertahap menghilang
- Karena terjadi pada versi klien yang sama dan pola penggunaan yang sama, hal ini dikonfirmasi sebagai perubahan konfigurasi sisi server
- Karena perubahan TTL, biaya pembuatan cache naik 20~32%, dan terlihat lonjakan konsumsi kuota pada pengguna berlangganan
- TTL 5 menit membuat cache kedaluwarsa jika sesi berhenti lebih dari 5 menit, sehingga seluruh konteks harus diunggah ulang
- Regenerasi cache bisa hingga 12,5 kali lebih mahal daripada membaca cache, dan biayanya menumpuk semakin besar pada sesi coding yang panjang
- Tingkat pemborosan pada Februari saat TTL 1 jam dipertahankan adalah 1,1%, tetapi setelah Maret melonjak menjadi 15~53%
-
Hasil analisis biaya
- Model
claude-sonnet-4-6: total biaya $5,561.17 → $4,612.09 jika memakai TTL 1 jam (sekitar 17,1% pengeluaran berlebih) - Model
claude-opus-4-6: total biaya $9,268.97 → $7,687.17 jika memakai TTL 1 jam (sekitar 17,1% pengeluaran berlebih) - Rasio pemborosan yang sama muncul secara konsisten di berbagai model
- Model
-
Dampak pada kuota
- Token pembuatan cache dihitung penuh ke kuota, sedangkan pembacaan cache dihitung dengan bobot lebih rendah
- Setelah Maret, pengguna berlangganan untuk pertama kalinya mulai mencapai batas kuota 5 jam
Tanggapan resmi Anthropic
- Mengakui adanya perubahan: perubahan pada 6 Maret adalah tindakan yang disengaja dan dilakukan sebagai bagian dari optimasi cache
- Sistem dirancang agar TTL diterapkan berbeda menurut jenis permintaan, dan tidak ada nilai default global tunggal
- Jika TTL 1 jam diterapkan ke semua permintaan, biaya justru bisa meningkat
- TTL 5 menit lebih efisien untuk permintaan yang tidak digunakan ulang, dan pada kombinasi seluruh permintaan memberikan penghematan biaya total
- Perbaikan bug: pada v2.1.90 diperbaiki bug klien yang membuat sesi yang sudah menghabiskan seluruh kuota langganan terkunci ke TTL 5 menit sampai sesi berakhir
- Jawaban atas permintaan pengguna
- Memang ada perubahan, dan itu sengaja diterapkan pada 6 Maret
- TTL dipilih secara dinamis per permintaan, dan tidak ada nilai default global
- Tidak ada rencana mengembalikan TTL 1 jam sebagai default atau menyediakan opsi pengaturan
- Cara token pembacaan cache dihitung ke kuota akan dijelaskan lebih lanjut pada isu terpisah
Reaksi komunitas
-
Banyak pengguna menyatakan ketidakpuasan sambil menyoroti kenaikan biaya dan turunnya kenyamanan penggunaan
- Banyak yang berpendapat, “TTL 5 menit pada praktiknya membuat sesi seperti harus dimulai ulang setiap 5 menit dan menurunkan produktivitas”
- Ada juga kritik bahwa, “Pengguna berlangganan sudah membayar di muka, tetapi perubahan TTL mengurangi waktu pakai efektif”
- Tuntutan bahwa “Perubahan seperti ini yang memengaruhi biaya pengguna wajib diumumkan sebelumnya” terus bermunculan
-
Sebagian pengguna menyebut ini sebagai perubahan positif bagi pengguna API, tetapi pengguna lain membantah dengan mengatakan, “API memang sejak awal memakai TTL 5 menit sebagai default”
-
Kritik juga terfokus pada kurangnya transparansi
- “Perubahan infrastruktur yang berkaitan dengan biaya perlu diumumkan sebelumnya, bukan dijelaskan setelah kejadian”
- “Perubahan diam-diam seperti ini merusak kepercayaan dan membebani pengguna karena harus menelusuri sendiri sumber masalahnya”
-
Menurut catatan dokumentasi, cache default memakai TTL 5 menit, dan TTL 1 jam disediakan sebagai opsi berbiaya tambahan
- Penjelasan yang sama juga tercantum dalam dokumentasi resmi per Januari 2026
Kesimpulan
- Pada 6 Maret 2026, Anthropic mengubah kebijakan cache TTL Claude Code dari 1 jam menjadi 5 menit
- Perusahaan menjelaskannya sebagai penyesuaian yang disengaja untuk optimasi biaya, tetapi pengguna menyoroti kenaikan biaya, habisnya kuota, dan kurangnya transparansi sebagai masalah
- Komunitas kini menuntut hak pengguna untuk memilih pengaturan TTL dan pemberitahuan lebih awal atas perubahan kebijakan di masa depan
1 komentar
Pendapat Hacker News
Dalam beberapa bulan terakhir, rasanya sentimen para engineer terhadap Claude/Codex memang berubah jelas
Terutama karena makin banyak perubahan yang tidak diumumkan, sehingga orang makin cemas dan tidak yakin apakah produk yang dulu mereka bayar masih sama seperti sekarang
Akhir-akhir ini, kalau Anthropic dibahas, rasanya kebanyakan muncul dalam konteks negatif
Pernah juga ada lonjakan pemakaian sampai 21x, dan secara keseluruhan ini terlihat seperti upaya penghematan biaya
Saya masih suka Claude, tapi makin sulit merekomendasikannya ke teman
EVP kami memperlihatkan dua demo yang dibuat saat akhir pekan dan menyuruh semua orang mengikuti itu, tetapi seminggu kemudian keluar pengumuman penghentian penggunaan karena pemborosan token
Sejak itu, tiap minggu modelnya terasa makin lemah, jadi saya penasaran bagaimana perasaan EVP sekarang
Setelah pindah ke Codex, hasilnya jauh lebih stabil
Dugaan saya, setelah rilis awal performanya dijaga kuat, lalu seiring waktu sengaja diturunkan untuk membangun ekspektasi terhadap rilis berikutnya
Saya sudah mengubah banyak pengaturan dan memodifikasi system prompt lewat skrip, tetapi modelnya tetap sering masuk ke logical loop
Sulit membedakan apakah ini bug, pelemahan yang disengaja, atau cuma perasaan saya saja
Mungkin karena saya menyuruh Claude melakukan refactor langkah demi langkah
Dulu saat saya bertanya soal konfigurasi Grafana, Claude pernah menjawab, “saya cuma menebak”, dan akhirnya menghabiskan 35k token hanya untuk memberi tahu satu checkbox sederhana
Rekan-rekan saya merasa performanya turun dan sedang pindah ke Cursor, tetapi saya masih tetap memakai Claude karena suka alur percakapannya
Akhir-akhir ini Claude Code dan layanan langganannya jauh kurang berguna dibanding sebelumnya
Berbagai masalah menumpuk: bug, laju habisnya kuota, penurunan performa model, masalah invalidasi cache, kecurigaan quantization, dan lain-lain
Dulu saya bisa membuat prototipe dalam sekali jalan, tetapi sekarang bahkan dengan spesifikasi detail pun hampir mustahil
ChatGPT juga tampak melemah dengan cara serupa
Baik Anthropic maupun OpenAI tampaknya bukan solusi mendasar
Beberapa bulan lalu banyak yang bilang Cursor sudah mati, tetapi sekarang justru dipakai dengan baik
Batas kuota sesi sekarang terlalu ketat, sehingga UX-nya masuk ke lingkaran setan
Setelah cache satu jam habis, biaya untuk memulai lagi jadi lebih besar, dan akhirnya sesi berikutnya pun habis lebih cepat
Pada pertengahan Maret, bahkan di paket Pro sesi bisa habis dalam waktu kurang dari satu jam, jadi levelnya praktis tidak bisa dipakai
Penulisan judulnya salah dan menimbulkan salah paham
Harusnya pakai “min”, bukan “M”, karena terlihat seolah TTL naik dari 1 jam menjadi 5 bulan
Belakangan Claude bahkan sering salah menjawab pertanyaan car wash
Ia cenderung melebih-lebihkan tingkat kesulitan pemecahan masalah, atau memilih jalan mudah dengan alasan “akan memakan terlalu banyak waktu”
Kalau melihat log JSON, kalimat seperti “ini terlalu rumit, jadi kita hardcode saja” terus berulang
Sepertinya Anthropic sedang mencoba menyeimbangkan kekurangan sumber daya komputasi dan lonjakan pengguna baru
Agak agresif, tapi memang efektif sebagai cara memotivasi LLM
Anthropic memberikan tanggapan resmi di issue GitHub
Saya membuat sendiri tool chat berbasis API dan menambahkan cache
Dengan cache 5 menit, ritme percakapan sering tidak cocok sehingga cache terlalu sering kedaluwarsa, tetapi pada tool yang punya prefix bersama, penghematannya besar
Kalau cache dimanfaatkan dengan baik, pengurangan biaya bisa sangat signifikan
Karena kebijakan kedaluwarsa cache tidak cocok dengan sesi 5 jam, saya sedang mempertimbangkan cara menjaga cache tetap hidup dengan skrip yang mengonsumsi token minimum setiap 4 menit 50 detik saat penggunaan sesi sudah sekitar 97%
Di podcast Dwarkesh saya mendengar bahwa Anthropic berhati-hati dalam menambah sumber daya komputasi
Saat permintaan melonjak, upaya untuk mengurangi jumlah komputasi tampaknya tidak terhindarkan
Ini bukan masalah yang bisa selesai dalam jangka pendek hanya dengan menambah uang
Terlepas dari perubahan aneh di Anthropic/Claude, kalau melihat data tabel di postingan ini, biaya dan jumlah panggilan pada Februari dan April terlihat hampir sama, jadi agak membingungkan
Saya tidak yakin apa yang saya lewatkan