3 poin oleh xguru 2024-08-21 | Belum ada komentar. | Bagikan ke WhatsApp
  • Prompt Caching mengoptimalkan penggunaan API sehingga pekerjaan dapat dilanjutkan dari prefiks tertentu pada prompt
    • Dengan menggunakan kembali prompt besar tanpa memproses ulangnya di beberapa panggilan API, waktu pemrosesan dan biaya dapat dikurangi secara signifikan untuk tugas berulang
  • Cara kerja
    • Caching Prefix prompt: Sistem memeriksa apakah Prefix prompt telah di-cache dari kueri terbaru. Jika ditemukan, versi yang di-cache digunakan untuk mengurangi waktu pemrosesan dan biaya. Jika tidak, seluruh prompt diproses dan Prefix tersebut di-cache.
    • Kasus penggunaan: Berguna untuk prompt yang berisi banyak contoh, konteks atau informasi latar belakang dalam jumlah besar, tugas berulang dengan instruksi yang konsisten, dan percakapan multi-turn yang panjang
    • Masa berlaku cache: Cache berlaku selama 5 menit, dan diperbarui setiap kali konten yang di-cache digunakan
  • Konten prompt yang di-cache
    • Merujuk ke seluruh prompt yang mencakup tools, system, dan messages (dalam urutan tersebut). Termasuk hingga blok yang ditentukan dengan cache_control
  • Harga
    • Claude 3.5 Sonnet: token input dasar $3 / MTok, penulisan cache $3.75 / MTok, pengambilan cache $0.30 / MTok, token output $15 / MTok
    • Claude 3 Haiku: token input dasar $0.25 / MTok, penulisan cache $0.30 / MTok, pengambilan cache $0.03 / MTok, token output $1.25 / MTok
    • Claude 3 Opus (akan dirilis): token input dasar $15 / MTok, penulisan cache $18.75 / MTok, pengambilan cache $1.50 / MTok, token output $75 / MTok
  • Poin penting
    • Token penulisan cache 25% lebih mahal daripada token input dasar
    • Token pengambilan cache 90% lebih murah daripada token input dasar
  • Batasan cache
    • Panjang minimum prompt yang dapat di-cache:
      • Claude 3.5 Sonnet dan Claude 3 Opus: 1024 token
      • Claude 3 Haiku: 2048 token
    • Ada cache TTL 5 menit, dan saat ini "ephemeral" adalah satu-satunya jenis cache yang didukung untuk masa berlaku 5 menit ini
  • Berbagai use case
    • Agen percakapan: Dapat mengurangi biaya dan latensi dalam percakapan yang berisi instruksi panjang atau dokumen yang diunggah
    • Asisten coding: Meningkatkan performa pelengkapan otomatis dan tanya jawab codebase dengan mempertahankan bagian relevan atau versi ringkasan dari codebase di dalam prompt
    • Pemrosesan dokumen besar: Materi berformat panjang yang berisi gambar dapat dimasukkan ke dalam prompt dan diproses tanpa latensi respons
    • Set instruksi terperinci: Menyetel respons Claude dengan lebih halus dengan menyertakan lebih dari 20 contoh jawaban berkualitas tinggi yang beragam
    • Penggunaan tool oleh agen: Dapat meningkatkan performa dalam skenario yang melibatkan beberapa pemanggilan tool dan perubahan kode yang berulang
    • Percakapan tentang buku, makalah, dokumen, transkrip podcast, dan konten panjang lainnya: Memungkinkan dokumen lengkap dimasukkan ke dalam prompt agar pengguna dapat mengajukan pertanyaan

Belum ada komentar.

Belum ada komentar.