- Menggunakan model bahasa kecil yang selaras dan terlatih dengan baik seperti GPT2-small atau LLaMA-7B untuk kompresi
- Mendeteksi token yang tidak penting dalam prompt dan memungkinkan inferensi pada LLM black-box dengan prompt yang telah dikompresi
- Mengompresi prompt dan KV-Cache untuk meningkatkan kecepatan inferensi LLM dan meningkatkan pengenalan LLM terhadap informasi utama
- Mencapai kompresi hingga 20x dengan kehilangan performa yang minimal
- Mengurangi prompt dan konteks yang dihasilkan untuk menekan biaya
- Mendukung konteks yang lebih panjang dengan meningkatkan kepadatan informasi penting di dalam prompt
Belum ada komentar.