1 poin oleh calmlake79 2026-02-12 | Belum ada komentar. | Bagikan ke WhatsApp

Benchmark efek peningkatan latensi dari Context Caching milik Vertex AI dan Priority PayGo baru yang baru dirilis, berdasarkan system prompt (input) ~7.500 token dan respons (output) ~100 token yang digunakan pada layanan chatbot AI

  • 4 skenario (Standard/Priority × caching/non-caching), masing-masing 100 kali, total 400 request
  • Model: gemini-3-flash-preview
  • Metode request: staggered start dengan interval 1 detik

Hasil utama:

  • Context Caching: rata-rata waktu respons hampir sama terlepas dari ada atau tidaknya caching (~3 detik)
  • Priority PayGo: pada jam non-sibuk justru 3~7% lebih lambat
  • Bahkan pada skenario non-caching, terkonfirmasi bahwa Vertex AI menjalankan Implicit Caching secara internal
  • Perbedaan latensi berdasarkan Thinking Level sangat dominan: DEFAULT 7,4 detik → LOW 3 detik → MINIMAL 2,6 detik

Kesimpulan: dibanding caching atau pengaturan prioritas, mengubah struktur request itu sendiri lebih efektif untuk optimasi latensi

Belum ada komentar.

Belum ada komentar.