1 poin oleh GN⁺ 7 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Pada awal Maret 2026, cache TTL Claude Code berubah dari 1 jam menjadi 5 menit, dan perubahan ini teridentifikasi sebagai akibat perbedaan konfigurasi sisi server meski pola penggunaan tetap sama
  • Akibat pemendekan TTL, biaya regenerasi cache naik 20~32% dan pada sesi berdurasi panjang konsumsi kuota melonjak tajam
  • Hasil analisis menunjukkan ada biaya tambahan sekitar 17% per model, dan sebagian pengguna mulai mencapai batas kuota 5 jam
  • Anthropic menjelaskan bahwa perubahan pada 6 Maret adalah tindakan yang disengaja, dan TTL diterapkan berbeda per permintaan untuk menekan biaya total
  • Komunitas mengkritik kenaikan biaya, kurangnya transparansi, dan tidak adanya pemberitahuan sebelumnya, serta menuntut hak pengguna untuk memilih pengaturan TTL

Laporan masalah biaya dan kuota akibat perubahan Cache TTL

  • Pada awal Maret 2026, dianalisis bahwa nilai default cache TTL Claude Code milik Anthropic berubah dari 1 jam menjadi 5 menit
    • Analisis didasarkan pada 119.866 data panggilan API dari 11 Januari hingga 11 April 2026
    • Antara 6~8 Maret, TTL 5 menit kembali muncul dan TTL 1 jam secara bertahap menghilang
    • Karena terjadi pada versi klien yang sama dan pola penggunaan yang sama, hal ini dikonfirmasi sebagai perubahan konfigurasi sisi server
  • Karena perubahan TTL, biaya pembuatan cache naik 20~32%, dan terlihat lonjakan konsumsi kuota pada pengguna berlangganan
    • TTL 5 menit membuat cache kedaluwarsa jika sesi berhenti lebih dari 5 menit, sehingga seluruh konteks harus diunggah ulang
    • Regenerasi cache bisa hingga 12,5 kali lebih mahal daripada membaca cache, dan biayanya menumpuk semakin besar pada sesi coding yang panjang
    • Tingkat pemborosan pada Februari saat TTL 1 jam dipertahankan adalah 1,1%, tetapi setelah Maret melonjak menjadi 15~53%
  • Hasil analisis biaya

    • Model claude-sonnet-4-6: total biaya $5,561.17 → $4,612.09 jika memakai TTL 1 jam (sekitar 17,1% pengeluaran berlebih)
    • Model claude-opus-4-6: total biaya $9,268.97 → $7,687.17 jika memakai TTL 1 jam (sekitar 17,1% pengeluaran berlebih)
    • Rasio pemborosan yang sama muncul secara konsisten di berbagai model
  • Dampak pada kuota

    • Token pembuatan cache dihitung penuh ke kuota, sedangkan pembacaan cache dihitung dengan bobot lebih rendah
    • Setelah Maret, pengguna berlangganan untuk pertama kalinya mulai mencapai batas kuota 5 jam

Tanggapan resmi Anthropic

  • Mengakui adanya perubahan: perubahan pada 6 Maret adalah tindakan yang disengaja dan dilakukan sebagai bagian dari optimasi cache
    • Sistem dirancang agar TTL diterapkan berbeda menurut jenis permintaan, dan tidak ada nilai default global tunggal
    • Jika TTL 1 jam diterapkan ke semua permintaan, biaya justru bisa meningkat
    • TTL 5 menit lebih efisien untuk permintaan yang tidak digunakan ulang, dan pada kombinasi seluruh permintaan memberikan penghematan biaya total
  • Perbaikan bug: pada v2.1.90 diperbaiki bug klien yang membuat sesi yang sudah menghabiskan seluruh kuota langganan terkunci ke TTL 5 menit sampai sesi berakhir
  • Jawaban atas permintaan pengguna
    1. Memang ada perubahan, dan itu sengaja diterapkan pada 6 Maret
    2. TTL dipilih secara dinamis per permintaan, dan tidak ada nilai default global
    3. Tidak ada rencana mengembalikan TTL 1 jam sebagai default atau menyediakan opsi pengaturan
    4. Cara token pembacaan cache dihitung ke kuota akan dijelaskan lebih lanjut pada isu terpisah

Reaksi komunitas

  • Banyak pengguna menyatakan ketidakpuasan sambil menyoroti kenaikan biaya dan turunnya kenyamanan penggunaan

    • Banyak yang berpendapat, “TTL 5 menit pada praktiknya membuat sesi seperti harus dimulai ulang setiap 5 menit dan menurunkan produktivitas”
    • Ada juga kritik bahwa, “Pengguna berlangganan sudah membayar di muka, tetapi perubahan TTL mengurangi waktu pakai efektif”
    • Tuntutan bahwa “Perubahan seperti ini yang memengaruhi biaya pengguna wajib diumumkan sebelumnya” terus bermunculan
  • Sebagian pengguna menyebut ini sebagai perubahan positif bagi pengguna API, tetapi pengguna lain membantah dengan mengatakan, “API memang sejak awal memakai TTL 5 menit sebagai default”

  • Kritik juga terfokus pada kurangnya transparansi

    • “Perubahan infrastruktur yang berkaitan dengan biaya perlu diumumkan sebelumnya, bukan dijelaskan setelah kejadian”
    • “Perubahan diam-diam seperti ini merusak kepercayaan dan membebani pengguna karena harus menelusuri sendiri sumber masalahnya”
  • Menurut catatan dokumentasi, cache default memakai TTL 5 menit, dan TTL 1 jam disediakan sebagai opsi berbiaya tambahan

    • Penjelasan yang sama juga tercantum dalam dokumentasi resmi per Januari 2026

Kesimpulan

  • Pada 6 Maret 2026, Anthropic mengubah kebijakan cache TTL Claude Code dari 1 jam menjadi 5 menit
  • Perusahaan menjelaskannya sebagai penyesuaian yang disengaja untuk optimasi biaya, tetapi pengguna menyoroti kenaikan biaya, habisnya kuota, dan kurangnya transparansi sebagai masalah
  • Komunitas kini menuntut hak pengguna untuk memilih pengaturan TTL dan pemberitahuan lebih awal atas perubahan kebijakan di masa depan

1 komentar

 
GN⁺ 7 hari lalu
Pendapat Hacker News
  • Dalam beberapa bulan terakhir, rasanya sentimen para engineer terhadap Claude/Codex memang berubah jelas
    Terutama karena makin banyak perubahan yang tidak diumumkan, sehingga orang makin cemas dan tidak yakin apakah produk yang dulu mereka bayar masih sama seperti sekarang
    Akhir-akhir ini, kalau Anthropic dibahas, rasanya kebanyakan muncul dalam konteks negatif

    • Baru-baru ini Anthropic terlihat mengambil berbagai langkah seperti memblokir pengguna OpenClaw, melarang harness pihak ketiga, menurunkan intensitas reasoning, dan mengurangi panjang respons
      Pernah juga ada lonjakan pemakaian sampai 21x, dan secara keseluruhan ini terlihat seperti upaya penghematan biaya
      Saya masih suka Claude, tapi makin sulit merekomendasikannya ke teman
    • Perusahaan kami (lebih dari 400 engineer) sebulan lalu membatalkan semua langganan IDE (Visual Studio, JetBrains, dll.) dan beralih ke Claude Code
      EVP kami memperlihatkan dua demo yang dibuat saat akhir pekan dan menyuruh semua orang mengikuti itu, tetapi seminggu kemudian keluar pengumuman penghentian penggunaan karena pemborosan token
      Sejak itu, tiap minggu modelnya terasa makin lemah, jadi saya penasaran bagaimana perasaan EVP sekarang
    • Sampai beberapa bulan lalu Claude Code itu luar biasa, tetapi sekarang error dan salah paham-nya begitu banyak sampai hampir tidak bisa dipakai
      Setelah pindah ke Codex, hasilnya jauh lebih stabil
      Dugaan saya, setelah rilis awal performanya dijaga kuat, lalu seiring waktu sengaja diturunkan untuk membangun ekspektasi terhadap rilis berikutnya
    • Setelah berlangganan, saya benar-benar merasa ada penurunan kemampuan reasoning
      Saya sudah mengubah banyak pengaturan dan memodifikasi system prompt lewat skrip, tetapi modelnya tetap sering masuk ke logical loop
      Sulit membedakan apakah ini bug, pelemahan yang disengaja, atau cuma perasaan saya saja
    • Saya sendiri tidak merasa ada masalah besar
      Mungkin karena saya menyuruh Claude melakukan refactor langkah demi langkah
      Dulu saat saya bertanya soal konfigurasi Grafana, Claude pernah menjawab, “saya cuma menebak”, dan akhirnya menghabiskan 35k token hanya untuk memberi tahu satu checkbox sederhana
      Rekan-rekan saya merasa performanya turun dan sedang pindah ke Cursor, tetapi saya masih tetap memakai Claude karena suka alur percakapannya
  • Akhir-akhir ini Claude Code dan layanan langganannya jauh kurang berguna dibanding sebelumnya
    Berbagai masalah menumpuk: bug, laju habisnya kuota, penurunan performa model, masalah invalidasi cache, kecurigaan quantization, dan lain-lain
    Dulu saya bisa membuat prototipe dalam sekali jalan, tetapi sekarang bahkan dengan spesifikasi detail pun hampir mustahil
    ChatGPT juga tampak melemah dengan cara serupa
    Baik Anthropic maupun OpenAI tampaknya bukan solusi mendasar

    • Seorang teman puas memakai fitur multi-model di Cursor
      Beberapa bulan lalu banyak yang bilang Cursor sudah mati, tetapi sekarang justru dipakai dengan baik
    • Karena ledakan permintaan, sepertinya mayoritas pengguna tanpa pemberitahuan menerima model yang di-quantize lebih agresif
    • Sebagian besar layanan AI seperti ini pada dasarnya adalah model subsidi rugi, jadi seiring waktu kualitas turun dan harga naik adalah alur yang wajar
  • Batas kuota sesi sekarang terlalu ketat, sehingga UX-nya masuk ke lingkaran setan
    Setelah cache satu jam habis, biaya untuk memulai lagi jadi lebih besar, dan akhirnya sesi berikutnya pun habis lebih cepat
    Pada pertengahan Maret, bahkan di paket Pro sesi bisa habis dalam waktu kurang dari satu jam, jadi levelnya praktis tidak bisa dipakai

  • Penulisan judulnya salah dan menimbulkan salah paham
    Harusnya pakai “min”, bukan “M”, karena terlihat seolah TTL naik dari 1 jam menjadi 5 bulan

    • Sangat disayangkan judulnya diubah dengan cara yang terasa seperti menyembunyikan skala masalahnya
    • Saya juga awalnya bingung, “M itu apa?”
  • Belakangan Claude bahkan sering salah menjawab pertanyaan car wash
    Ia cenderung melebih-lebihkan tingkat kesulitan pemecahan masalah, atau memilih jalan mudah dengan alasan “akan memakan terlalu banyak waktu”

    • Dalam beberapa minggu terakhir, rasanya system prompt membatasi seberapa besar usaha model
      Kalau melihat log JSON, kalimat seperti “ini terlalu rumit, jadi kita hardcode saja” terus berulang
      Sepertinya Anthropic sedang mencoba menyeimbangkan kekurangan sumber daya komputasi dan lonjakan pengguna baru
    • Saya juga pernah mendengar kasus ketika Claude awalnya menolak tugas dengan alasan “ini butuh beberapa minggu”, tetapi setelah dibujuk ternyata selesai dalam 30 detik
    • Ini terlihat seperti tahapan klasik “jual rugi → panik → merusak produk”
    • Laju konsumsi token juga makin cepat; dulu saya bisa menjalankan 3~5 proyek paralel, sekarang menyelesaikan satu saja sulit
    • Kalau diberi prompt yang keras seperti “jangan pedulikan risiko, kerjakan saja!”, modelnya kembali bertindak lebih aktif
      Agak agresif, tapi memang efektif sebagai cara memotivasi LLM
  • Anthropic memberikan tanggapan resmi di issue GitHub

    • Saat membaca thread-nya, rasanya seperti Claude sedang berbicara dengan Claude lain
    • Menarik bahwa mereka mengakui perubahan pada 6 Maret. Salut untuk orang-orang yang membuktikannya lewat analisis prompt
    • Penjelasan perusahaan itu terdengar logis, tetapi istilah seperti “cache read likelihood” terdengar seperti jargon sok canggih, jadi komunitas tampaknya tidak menerimanya dengan baik
  • Saya membuat sendiri tool chat berbasis API dan menambahkan cache
    Dengan cache 5 menit, ritme percakapan sering tidak cocok sehingga cache terlalu sering kedaluwarsa, tetapi pada tool yang punya prefix bersama, penghematannya besar
    Kalau cache dimanfaatkan dengan baik, pengurangan biaya bisa sangat signifikan

  • Karena kebijakan kedaluwarsa cache tidak cocok dengan sesi 5 jam, saya sedang mempertimbangkan cara menjaga cache tetap hidup dengan skrip yang mengonsumsi token minimum setiap 4 menit 50 detik saat penggunaan sesi sudah sekitar 97%

  • Di podcast Dwarkesh saya mendengar bahwa Anthropic berhati-hati dalam menambah sumber daya komputasi
    Saat permintaan melonjak, upaya untuk mengurangi jumlah komputasi tampaknya tidak terhindarkan
    Ini bukan masalah yang bisa selesai dalam jangka pendek hanya dengan menambah uang

    • Fenomena seperti ini biasanya sering muncul pada tahap pretraining model baru. Dulu saat 3.x juga begitu
  • Terlepas dari perubahan aneh di Anthropic/Claude, kalau melihat data tabel di postingan ini, biaya dan jumlah panggilan pada Februari dan April terlihat hampir sama, jadi agak membingungkan
    Saya tidak yakin apa yang saya lewatkan