Benchmark latensi Vertex AI Context Caching + Priority PayGo (400 kali, Gemini 3 Flash)
(cloudturing.com)Benchmark efek peningkatan latensi dari Context Caching milik Vertex AI dan Priority PayGo baru yang baru dirilis, berdasarkan system prompt (input) ~7.500 token dan respons (output) ~100 token yang digunakan pada layanan chatbot AI
- 4 skenario (Standard/Priority × caching/non-caching), masing-masing 100 kali, total 400 request
- Model: gemini-3-flash-preview
- Metode request: staggered start dengan interval 1 detik
Hasil utama:
- Context Caching: rata-rata waktu respons hampir sama terlepas dari ada atau tidaknya caching (~3 detik)
- Priority PayGo: pada jam non-sibuk justru 3~7% lebih lambat
- Bahkan pada skenario non-caching, terkonfirmasi bahwa Vertex AI menjalankan Implicit Caching secara internal
- Perbedaan latensi berdasarkan Thinking Level sangat dominan: DEFAULT 7,4 detik → LOW 3 detik → MINIMAL 2,6 detik
Kesimpulan: dibanding caching atau pengaturan prioritas, mengubah struktur request itu sendiri lebih efektif untuk optimasi latensi
Belum ada komentar.