- Prompt Caching mengoptimalkan penggunaan API sehingga pekerjaan dapat dilanjutkan dari prefiks tertentu pada prompt
- Dengan menggunakan kembali prompt besar tanpa memproses ulangnya di beberapa panggilan API, waktu pemrosesan dan biaya dapat dikurangi secara signifikan untuk tugas berulang
- Cara kerja
- Caching Prefix prompt: Sistem memeriksa apakah Prefix prompt telah di-cache dari kueri terbaru. Jika ditemukan, versi yang di-cache digunakan untuk mengurangi waktu pemrosesan dan biaya. Jika tidak, seluruh prompt diproses dan Prefix tersebut di-cache.
- Kasus penggunaan: Berguna untuk prompt yang berisi banyak contoh, konteks atau informasi latar belakang dalam jumlah besar, tugas berulang dengan instruksi yang konsisten, dan percakapan multi-turn yang panjang
- Masa berlaku cache: Cache berlaku selama 5 menit, dan diperbarui setiap kali konten yang di-cache digunakan
- Konten prompt yang di-cache
- Merujuk ke seluruh prompt yang mencakup tools, system, dan messages (dalam urutan tersebut). Termasuk hingga blok yang ditentukan dengan
cache_control
- Harga
- Claude 3.5 Sonnet: token input dasar $3 / MTok, penulisan cache $3.75 / MTok, pengambilan cache $0.30 / MTok, token output $15 / MTok
- Claude 3 Haiku: token input dasar $0.25 / MTok, penulisan cache $0.30 / MTok, pengambilan cache $0.03 / MTok, token output $1.25 / MTok
- Claude 3 Opus (akan dirilis): token input dasar $15 / MTok, penulisan cache $18.75 / MTok, pengambilan cache $1.50 / MTok, token output $75 / MTok
- Poin penting
- Token penulisan cache 25% lebih mahal daripada token input dasar
- Token pengambilan cache 90% lebih murah daripada token input dasar
- Batasan cache
- Panjang minimum prompt yang dapat di-cache:
- Claude 3.5 Sonnet dan Claude 3 Opus: 1024 token
- Claude 3 Haiku: 2048 token
- Ada cache TTL 5 menit, dan saat ini "ephemeral" adalah satu-satunya jenis cache yang didukung untuk masa berlaku 5 menit ini
- Berbagai use case
- Agen percakapan: Dapat mengurangi biaya dan latensi dalam percakapan yang berisi instruksi panjang atau dokumen yang diunggah
- Asisten coding: Meningkatkan performa pelengkapan otomatis dan tanya jawab codebase dengan mempertahankan bagian relevan atau versi ringkasan dari codebase di dalam prompt
- Pemrosesan dokumen besar: Materi berformat panjang yang berisi gambar dapat dimasukkan ke dalam prompt dan diproses tanpa latensi respons
- Set instruksi terperinci: Menyetel respons Claude dengan lebih halus dengan menyertakan lebih dari 20 contoh jawaban berkualitas tinggi yang beragam
- Penggunaan tool oleh agen: Dapat meningkatkan performa dalam skenario yang melibatkan beberapa pemanggilan tool dan perubahan kode yang berulang
- Percakapan tentang buku, makalah, dokumen, transkrip podcast, dan konten panjang lainnya: Memungkinkan dokumen lengkap dimasukkan ke dalam prompt agar pengguna dapat mengajukan pertanyaan
Belum ada komentar.