Benchmark latensi Vertex AI Context Caching + Priority PayGo (400 kali, Gemini 3 Flash)

(cloudturing.com)

1 poin oleh calmlake79 2026-02-12 | Belum ada komentar. | Bagikan ke WhatsApp

Benchmark efek peningkatan latensi dari Context Caching milik Vertex AI dan Priority PayGo baru yang baru dirilis, berdasarkan system prompt (input) ~7.500 token dan respons (output) ~100 token yang digunakan pada layanan chatbot AI

4 skenario (Standard/Priority × caching/non-caching), masing-masing 100 kali, total 400 request
Model: gemini-3-flash-preview
Metode request: staggered start dengan interval 1 detik

Hasil utama:

Context Caching: rata-rata waktu respons hampir sama terlepas dari ada atau tidaknya caching (~3 detik)
Priority PayGo: pada jam non-sibuk justru 3~7% lebih lambat
Bahkan pada skenario non-caching, terkonfirmasi bahwa Vertex AI menjalankan Implicit Caching secara internal
Perbedaan latensi berdasarkan Thinking Level sangat dominan: DEFAULT 7,4 detik → LOW 3 detik → MINIMAL 2,6 detik

Kesimpulan: dibanding caching atau pengaturan prioritas, mengubah struktur request itu sendiri lebih efektif untuk optimasi latensi

Benchmark latensi Vertex AI Context Caching + Priority PayGo (400 kali, Gemini 3 Flash)

Bacaan terkait

Belum ada komentar.