10 poin oleh xguru 2023-12-22 | Belum ada komentar. | Bagikan ke WhatsApp
  • Menggunakan model bahasa kecil yang selaras dan terlatih dengan baik seperti GPT2-small atau LLaMA-7B untuk kompresi
  • Mendeteksi token yang tidak penting dalam prompt dan memungkinkan inferensi pada LLM black-box dengan prompt yang telah dikompresi
    • Mengompresi prompt dan KV-Cache untuk meningkatkan kecepatan inferensi LLM dan meningkatkan pengenalan LLM terhadap informasi utama
    • Mencapai kompresi hingga 20x dengan kehilangan performa yang minimal
  • Mengurangi prompt dan konteks yang dihasilkan untuk menekan biaya
  • Mendukung konteks yang lebih panjang dengan meningkatkan kepadatan informasi penting di dalam prompt

Belum ada komentar.

Belum ada komentar.