Anthropic menambahkan fitur Prompt Caching (beta) ke Claude

xguru · 2024-08-21T09:31:01+09:00

Prompt Caching mengoptimalkan penggunaan API sehingga pekerjaan dapat dilanjutkan dari prefiks tertentu pada prompt Dengan menggunakan kembali prompt besar tanpa memproses ulangnya di beberapa panggilan API, waktu pemrosesan dan biaya dapat dikurangi secara signifikan untuk tugas berulang Cara kerja Caching Prefix prompt: Sistem memeriksa apakah Prefix prompt telah di-cache dari kueri terbaru. Jika ditemukan, versi yang di-cache digunakan untuk mengurangi waktu pemrosesan dan biaya. Jika tidak, seluruh prompt diproses dan Prefix tersebut di-cache. Kasus penggunaan: Berguna untuk prompt yang berisi banyak contoh, konteks atau informasi latar belakang dalam jumlah besar, tugas berulang dengan instruksi yang konsisten, dan percakapan multi-turn yang panjang Masa berlaku cache: Cache berlaku selama 5 menit, dan diperbarui setiap kali konten yang di-cache digunakan Konten prompt yang di-cache Merujuk ke seluruh prompt yang mencakup tools, system, dan messages (dalam urutan tersebut). Termasuk hingga blok yang ditentukan dengan cache_control Harga Claude 3.5 Sonnet: token input dasar $3 / MTok, penulisan cache $3.75 / MTok, pengambilan cache $0.30 / MTok, token output $15 / MTok Claude 3 Haiku: token input dasar $0.25 / MTok, penulisan cache $0.30 / MTok, pengambilan cache $0.03 / MTok, token output $1.25 / MTok Claude 3 Opus (akan dirilis): token input dasar $15 / MTok, penulisan cache $18.75 / MTok, pengambilan cache $1.50 / MTok, token output $75 / MTok Poin penting Token penulisan cache 25% lebih mahal daripada token input dasar Token pengambilan cache 90% lebih murah daripada token input dasar Batasan cache Panjang minimum prompt yang dapat di-cache: Claude 3.5 Sonnet dan Claude 3 Opus: 1024 token Claude 3 Haiku: 2048 token Ada cache TTL 5 menit, dan saat ini "ephemeral" adalah satu-satunya jenis cache yang didukung untuk masa berlaku 5 menit ini Berbagai use case Agen percakapan: Dapat mengurangi biaya dan latensi dalam percakapan yang berisi instruksi panjang atau dokumen yang diunggah Asisten coding: Meningkatkan performa pelengkapan otomatis dan tanya jawab codebase dengan mempertahankan bagian relevan atau versi ringkasan dari codebase di dalam prompt Pemrosesan dokumen besar: Materi berformat panjang yang berisi gambar dapat dimasukkan ke dalam prompt dan diproses tanpa latensi respons Set instruksi terperinci: Menyetel respons Claude dengan lebih halus dengan menyertakan lebih dari 20 contoh jawaban berkualitas tinggi yang beragam Penggunaan tool oleh agen: Dapat meningkatkan performa dalam skenario yang melibatkan beberapa pemanggilan tool dan perubahan kode yang berulang Percakapan tentang buku, makalah, dokumen, transkrip podcast, dan konten panjang lainnya: Memungkinkan dokumen lengkap dimasukkan ke dalam prompt agar pengguna dapat mengajukan pertanyaan

(docs.anthropic.com)

3 poin oleh xguru 2024-08-21 | Belum ada komentar. | Bagikan ke WhatsApp

Prompt Caching mengoptimalkan penggunaan API sehingga pekerjaan dapat dilanjutkan dari prefiks tertentu pada prompt
- Dengan menggunakan kembali prompt besar tanpa memproses ulangnya di beberapa panggilan API, waktu pemrosesan dan biaya dapat dikurangi secara signifikan untuk tugas berulang
Cara kerja
- Caching Prefix prompt: Sistem memeriksa apakah Prefix prompt telah di-cache dari kueri terbaru. Jika ditemukan, versi yang di-cache digunakan untuk mengurangi waktu pemrosesan dan biaya. Jika tidak, seluruh prompt diproses dan Prefix tersebut di-cache.
- Kasus penggunaan: Berguna untuk prompt yang berisi banyak contoh, konteks atau informasi latar belakang dalam jumlah besar, tugas berulang dengan instruksi yang konsisten, dan percakapan multi-turn yang panjang
- Masa berlaku cache: Cache berlaku selama 5 menit, dan diperbarui setiap kali konten yang di-cache digunakan
Konten prompt yang di-cache
- Merujuk ke seluruh prompt yang mencakup tools, system, dan messages (dalam urutan tersebut). Termasuk hingga blok yang ditentukan dengan cache_control
Harga
- Claude 3.5 Sonnet: token input dasar $3 / MTok, penulisan cache $3.75 / MTok, pengambilan cache $0.30 / MTok, token output $15 / MTok
- Claude 3 Haiku: token input dasar $0.25 / MTok, penulisan cache $0.30 / MTok, pengambilan cache $0.03 / MTok, token output $1.25 / MTok
- Claude 3 Opus (akan dirilis): token input dasar $15 / MTok, penulisan cache $18.75 / MTok, pengambilan cache $1.50 / MTok, token output $75 / MTok
Poin penting
- Token penulisan cache 25% lebih mahal daripada token input dasar
- Token pengambilan cache 90% lebih murah daripada token input dasar
Batasan cache
- Panjang minimum prompt yang dapat di-cache:
  - Claude 3.5 Sonnet dan Claude 3 Opus: 1024 token
  - Claude 3 Haiku: 2048 token
- Ada cache TTL 5 menit, dan saat ini "ephemeral" adalah satu-satunya jenis cache yang didukung untuk masa berlaku 5 menit ini
Berbagai use case
- Agen percakapan: Dapat mengurangi biaya dan latensi dalam percakapan yang berisi instruksi panjang atau dokumen yang diunggah
- Asisten coding: Meningkatkan performa pelengkapan otomatis dan tanya jawab codebase dengan mempertahankan bagian relevan atau versi ringkasan dari codebase di dalam prompt
- Pemrosesan dokumen besar: Materi berformat panjang yang berisi gambar dapat dimasukkan ke dalam prompt dan diproses tanpa latensi respons
- Set instruksi terperinci: Menyetel respons Claude dengan lebih halus dengan menyertakan lebih dari 20 contoh jawaban berkualitas tinggi yang beragam
- Penggunaan tool oleh agen: Dapat meningkatkan performa dalam skenario yang melibatkan beberapa pemanggilan tool dan perubahan kode yang berulang
- Percakapan tentang buku, makalah, dokumen, transkrip podcast, dan konten panjang lainnya: Memungkinkan dokumen lengkap dimasukkan ke dalam prompt agar pengguna dapat mengajukan pertanyaan

Anthropic menambahkan fitur Prompt Caching (beta) ke Claude

Bacaan terkait

Belum ada komentar.