2 poin oleh johnonlee 2 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Saat menggunakan OpenCode Go, saya menemukan sesuatu yang aneh di dashboard. Modelnya sama, token inputnya mirip (300K vs 257K), tetapi biayanya $0.0096 vs $0.4455 — selisih 46 kali lipat. Penyebabnya adalah prompt caching.

LLM menggunakan ulang komputasi sebelumnya saat prefix yang sama berulang, dan sebagian besar agen coding mengirim seluruh riwayat percakapan (transcript) apa adanya di setiap giliran. Untuk sementara ini memang murah berkat cache, tetapi ketika context window penuh dan terjadi compaction, prefix tersebut rusak dan cache menjadi tidak valid.

Tulisan ini menganalisis biaya tersembunyi dari pendekatan transcript, serta pendekatan alternatif yang hanya mengirim structured state, lengkap dengan data sesi debugging nyata selama 44 giliran (pengurangan token 80.4%). Sudut pandangnya bukan sekadar perbedaan antara ada atau tidak adanya cache, melainkan perbedaan antara "struktur yang tidak tahu kapan cache akan rusak" dan "struktur yang tidak bergantung pada cache".

Belum ada komentar.

Belum ada komentar.