Anthropic mempersingkat cache TTL dari 1 jam menjadi 5 menit pada 6 Maret 2026

(github.com/anthropics)

1 poin oleh GN⁺ 2026-04-13 | 1 komentar | Bagikan ke WhatsApp

Pada awal Maret 2026, cache TTL Claude Code berubah dari 1 jam menjadi 5 menit, dan perubahan ini teridentifikasi sebagai akibat perbedaan konfigurasi sisi server meski pola penggunaan tetap sama
Akibat pemendekan TTL, biaya regenerasi cache naik 20~32% dan pada sesi berdurasi panjang konsumsi kuota melonjak tajam
Hasil analisis menunjukkan ada biaya tambahan sekitar 17% per model, dan sebagian pengguna mulai mencapai batas kuota 5 jam
Anthropic menjelaskan bahwa perubahan pada 6 Maret adalah tindakan yang disengaja, dan TTL diterapkan berbeda per permintaan untuk menekan biaya total
Komunitas mengkritik kenaikan biaya, kurangnya transparansi, dan tidak adanya pemberitahuan sebelumnya, serta menuntut hak pengguna untuk memilih pengaturan TTL

Laporan masalah biaya dan kuota akibat perubahan Cache TTL

Pada awal Maret 2026, dianalisis bahwa nilai default cache TTL Claude Code milik Anthropic berubah dari 1 jam menjadi 5 menit
- Analisis didasarkan pada 119.866 data panggilan API dari 11 Januari hingga 11 April 2026
- Antara 6~8 Maret, TTL 5 menit kembali muncul dan TTL 1 jam secara bertahap menghilang
- Karena terjadi pada versi klien yang sama dan pola penggunaan yang sama, hal ini dikonfirmasi sebagai perubahan konfigurasi sisi server
Karena perubahan TTL, biaya pembuatan cache naik 20~32%, dan terlihat lonjakan konsumsi kuota pada pengguna berlangganan
- TTL 5 menit membuat cache kedaluwarsa jika sesi berhenti lebih dari 5 menit, sehingga seluruh konteks harus diunggah ulang
- Regenerasi cache bisa hingga 12,5 kali lebih mahal daripada membaca cache, dan biayanya menumpuk semakin besar pada sesi coding yang panjang
- Tingkat pemborosan pada Februari saat TTL 1 jam dipertahankan adalah 1,1%, tetapi setelah Maret melonjak menjadi 15~53%
Hasil analisis biaya
- Model claude-sonnet-4-6: total biaya $5,561.17 → $4,612.09 jika memakai TTL 1 jam (sekitar 17,1% pengeluaran berlebih)
- Model claude-opus-4-6: total biaya $9,268.97 → $7,687.17 jika memakai TTL 1 jam (sekitar 17,1% pengeluaran berlebih)
- Rasio pemborosan yang sama muncul secara konsisten di berbagai model
Dampak pada kuota
- Token pembuatan cache dihitung penuh ke kuota, sedangkan pembacaan cache dihitung dengan bobot lebih rendah
- Setelah Maret, pengguna berlangganan untuk pertama kalinya mulai mencapai batas kuota 5 jam

Tanggapan resmi Anthropic

Mengakui adanya perubahan: perubahan pada 6 Maret adalah tindakan yang disengaja dan dilakukan sebagai bagian dari optimasi cache
- Sistem dirancang agar TTL diterapkan berbeda menurut jenis permintaan, dan tidak ada nilai default global tunggal
- Jika TTL 1 jam diterapkan ke semua permintaan, biaya justru bisa meningkat
- TTL 5 menit lebih efisien untuk permintaan yang tidak digunakan ulang, dan pada kombinasi seluruh permintaan memberikan penghematan biaya total
Perbaikan bug: pada v2.1.90 diperbaiki bug klien yang membuat sesi yang sudah menghabiskan seluruh kuota langganan terkunci ke TTL 5 menit sampai sesi berakhir
Jawaban atas permintaan pengguna
1. Memang ada perubahan, dan itu sengaja diterapkan pada 6 Maret
2. TTL dipilih secara dinamis per permintaan, dan tidak ada nilai default global
3. Tidak ada rencana mengembalikan TTL 1 jam sebagai default atau menyediakan opsi pengaturan
4. Cara token pembacaan cache dihitung ke kuota akan dijelaskan lebih lanjut pada isu terpisah

Reaksi komunitas

Banyak pengguna menyatakan ketidakpuasan sambil menyoroti kenaikan biaya dan turunnya kenyamanan penggunaan
- Banyak yang berpendapat, “TTL 5 menit pada praktiknya membuat sesi seperti harus dimulai ulang setiap 5 menit dan menurunkan produktivitas”
- Ada juga kritik bahwa, “Pengguna berlangganan sudah membayar di muka, tetapi perubahan TTL mengurangi waktu pakai efektif”
- Tuntutan bahwa “Perubahan seperti ini yang memengaruhi biaya pengguna wajib diumumkan sebelumnya” terus bermunculan
Sebagian pengguna menyebut ini sebagai perubahan positif bagi pengguna API, tetapi pengguna lain membantah dengan mengatakan, “API memang sejak awal memakai TTL 5 menit sebagai default”
Kritik juga terfokus pada kurangnya transparansi
- “Perubahan infrastruktur yang berkaitan dengan biaya perlu diumumkan sebelumnya, bukan dijelaskan setelah kejadian”
- “Perubahan diam-diam seperti ini merusak kepercayaan dan membebani pengguna karena harus menelusuri sendiri sumber masalahnya”
Menurut catatan dokumentasi, cache default memakai TTL 5 menit, dan TTL 1 jam disediakan sebagai opsi berbiaya tambahan
- Penjelasan yang sama juga tercantum dalam dokumentasi resmi per Januari 2026

Kesimpulan

Pada 6 Maret 2026, Anthropic mengubah kebijakan cache TTL Claude Code dari 1 jam menjadi 5 menit
Perusahaan menjelaskannya sebagai penyesuaian yang disengaja untuk optimasi biaya, tetapi pengguna menyoroti kenaikan biaya, habisnya kuota, dan kurangnya transparansi sebagai masalah
Komunitas kini menuntut hak pengguna untuk memilih pengaturan TTL dan pemberitahuan lebih awal atas perubahan kebijakan di masa depan

1 komentar

GN⁺ 2026-04-13

Pendapat Hacker News

Dalam beberapa bulan terakhir, rasanya sentimen para engineer terhadap Claude/Codex memang berubah jelas
Terutama karena makin banyak perubahan yang tidak diumumkan, sehingga orang makin cemas dan tidak yakin apakah produk yang dulu mereka bayar masih sama seperti sekarang
Akhir-akhir ini, kalau Anthropic dibahas, rasanya kebanyakan muncul dalam konteks negatif
- Baru-baru ini Anthropic terlihat mengambil berbagai langkah seperti memblokir pengguna OpenClaw, melarang harness pihak ketiga, menurunkan intensitas reasoning, dan mengurangi panjang respons
  Pernah juga ada lonjakan pemakaian sampai 21x, dan secara keseluruhan ini terlihat seperti upaya penghematan biaya
  Saya masih suka Claude, tapi makin sulit merekomendasikannya ke teman
- Perusahaan kami (lebih dari 400 engineer) sebulan lalu membatalkan semua langganan IDE (Visual Studio, JetBrains, dll.) dan beralih ke Claude Code
  EVP kami memperlihatkan dua demo yang dibuat saat akhir pekan dan menyuruh semua orang mengikuti itu, tetapi seminggu kemudian keluar pengumuman penghentian penggunaan karena pemborosan token
  Sejak itu, tiap minggu modelnya terasa makin lemah, jadi saya penasaran bagaimana perasaan EVP sekarang
- Sampai beberapa bulan lalu Claude Code itu luar biasa, tetapi sekarang error dan salah paham-nya begitu banyak sampai hampir tidak bisa dipakai
  Setelah pindah ke Codex, hasilnya jauh lebih stabil
  Dugaan saya, setelah rilis awal performanya dijaga kuat, lalu seiring waktu sengaja diturunkan untuk membangun ekspektasi terhadap rilis berikutnya
- Setelah berlangganan, saya benar-benar merasa ada penurunan kemampuan reasoning
  Saya sudah mengubah banyak pengaturan dan memodifikasi system prompt lewat skrip, tetapi modelnya tetap sering masuk ke logical loop
  Sulit membedakan apakah ini bug, pelemahan yang disengaja, atau cuma perasaan saya saja
- Saya sendiri tidak merasa ada masalah besar
  Mungkin karena saya menyuruh Claude melakukan refactor langkah demi langkah
  Dulu saat saya bertanya soal konfigurasi Grafana, Claude pernah menjawab, “saya cuma menebak”, dan akhirnya menghabiskan 35k token hanya untuk memberi tahu satu checkbox sederhana
  Rekan-rekan saya merasa performanya turun dan sedang pindah ke Cursor, tetapi saya masih tetap memakai Claude karena suka alur percakapannya
Akhir-akhir ini Claude Code dan layanan langganannya jauh kurang berguna dibanding sebelumnya
Berbagai masalah menumpuk: bug, laju habisnya kuota, penurunan performa model, masalah invalidasi cache, kecurigaan quantization, dan lain-lain
Dulu saya bisa membuat prototipe dalam sekali jalan, tetapi sekarang bahkan dengan spesifikasi detail pun hampir mustahil
ChatGPT juga tampak melemah dengan cara serupa
Baik Anthropic maupun OpenAI tampaknya bukan solusi mendasar
- Seorang teman puas memakai fitur multi-model di Cursor
  Beberapa bulan lalu banyak yang bilang Cursor sudah mati, tetapi sekarang justru dipakai dengan baik
- Karena ledakan permintaan, sepertinya mayoritas pengguna tanpa pemberitahuan menerima model yang di-quantize lebih agresif
- Sebagian besar layanan AI seperti ini pada dasarnya adalah model subsidi rugi, jadi seiring waktu kualitas turun dan harga naik adalah alur yang wajar
Batas kuota sesi sekarang terlalu ketat, sehingga UX-nya masuk ke lingkaran setan
Setelah cache satu jam habis, biaya untuk memulai lagi jadi lebih besar, dan akhirnya sesi berikutnya pun habis lebih cepat
Pada pertengahan Maret, bahkan di paket Pro sesi bisa habis dalam waktu kurang dari satu jam, jadi levelnya praktis tidak bisa dipakai
Penulisan judulnya salah dan menimbulkan salah paham
Harusnya pakai “min”, bukan “M”, karena terlihat seolah TTL naik dari 1 jam menjadi 5 bulan
- Sangat disayangkan judulnya diubah dengan cara yang terasa seperti menyembunyikan skala masalahnya
- Saya juga awalnya bingung, “M itu apa?”
Belakangan Claude bahkan sering salah menjawab pertanyaan car wash
Ia cenderung melebih-lebihkan tingkat kesulitan pemecahan masalah, atau memilih jalan mudah dengan alasan “akan memakan terlalu banyak waktu”
- Dalam beberapa minggu terakhir, rasanya system prompt membatasi seberapa besar usaha model
  Kalau melihat log JSON, kalimat seperti “ini terlalu rumit, jadi kita hardcode saja” terus berulang
  Sepertinya Anthropic sedang mencoba menyeimbangkan kekurangan sumber daya komputasi dan lonjakan pengguna baru
- Saya juga pernah mendengar kasus ketika Claude awalnya menolak tugas dengan alasan “ini butuh beberapa minggu”, tetapi setelah dibujuk ternyata selesai dalam 30 detik
- Ini terlihat seperti tahapan klasik “jual rugi → panik → merusak produk”
- Laju konsumsi token juga makin cepat; dulu saya bisa menjalankan 3~5 proyek paralel, sekarang menyelesaikan satu saja sulit
- Kalau diberi prompt yang keras seperti “jangan pedulikan risiko, kerjakan saja!”, modelnya kembali bertindak lebih aktif
  Agak agresif, tapi memang efektif sebagai cara memotivasi LLM
Anthropic memberikan tanggapan resmi di issue GitHub
- Saat membaca thread-nya, rasanya seperti Claude sedang berbicara dengan Claude lain
- Menarik bahwa mereka mengakui perubahan pada 6 Maret. Salut untuk orang-orang yang membuktikannya lewat analisis prompt
- Penjelasan perusahaan itu terdengar logis, tetapi istilah seperti “cache read likelihood” terdengar seperti jargon sok canggih, jadi komunitas tampaknya tidak menerimanya dengan baik
Saya membuat sendiri tool chat berbasis API dan menambahkan cache
Dengan cache 5 menit, ritme percakapan sering tidak cocok sehingga cache terlalu sering kedaluwarsa, tetapi pada tool yang punya prefix bersama, penghematannya besar
Kalau cache dimanfaatkan dengan baik, pengurangan biaya bisa sangat signifikan
Karena kebijakan kedaluwarsa cache tidak cocok dengan sesi 5 jam, saya sedang mempertimbangkan cara menjaga cache tetap hidup dengan skrip yang mengonsumsi token minimum setiap 4 menit 50 detik saat penggunaan sesi sudah sekitar 97%
Di podcast Dwarkesh saya mendengar bahwa Anthropic berhati-hati dalam menambah sumber daya komputasi
Saat permintaan melonjak, upaya untuk mengurangi jumlah komputasi tampaknya tidak terhindarkan
Ini bukan masalah yang bisa selesai dalam jangka pendek hanya dengan menambah uang
- Fenomena seperti ini biasanya sering muncul pada tahap pretraining model baru. Dulu saat 3.x juga begitu
Terlepas dari perubahan aneh di Anthropic/Claude, kalau melihat data tabel di postingan ini, biaya dan jumlah panggilan pada Februari dan April terlihat hampir sama, jadi agak membingungkan
Saya tidak yakin apa yang saya lewatkan

Anthropic mempersingkat cache TTL dari 1 jam menjadi 5 menit pada 6 Maret 2026

Laporan masalah biaya dan kuota akibat perubahan Cache TTL

Hasil analisis biaya

Dampak pada kuota

Tanggapan resmi Anthropic

Reaksi komunitas

Kesimpulan

Bacaan terkait

1 komentar

Pendapat Hacker News