Microsoft LLMLingua - Mengompresi prompt untuk mempercepat inferensi dan menurunkan biaya

xguru · 2023-12-22T10:02:02+09:00

Menggunakan model bahasa kecil yang selaras dan terlatih dengan baik seperti GPT2-small atau LLaMA-7B untuk kompresi Mendeteksi token yang tidak penting dalam prompt dan memungkinkan inferensi pada LLM black-box dengan prompt yang telah dikompresi Mengompresi prompt dan KV-Cache untuk meningkatkan kecepatan inferensi LLM dan meningkatkan pengenalan LLM terhadap informasi utama Mencapai kompresi hingga 20x dengan kehilangan performa yang minimal Mengurangi prompt dan konteks yang dihasilkan untuk menekan biaya Mendukung konteks yang lebih panjang dengan meningkatkan kepadatan informasi penting di dalam prompt

(github.com/microsoft)

10 poin oleh xguru 2023-12-22 | Belum ada komentar. | Bagikan ke WhatsApp

Menggunakan model bahasa kecil yang selaras dan terlatih dengan baik seperti GPT2-small atau LLaMA-7B untuk kompresi
Mendeteksi token yang tidak penting dalam prompt dan memungkinkan inferensi pada LLM black-box dengan prompt yang telah dikompresi
- Mengompresi prompt dan KV-Cache untuk meningkatkan kecepatan inferensi LLM dan meningkatkan pengenalan LLM terhadap informasi utama
- Mencapai kompresi hingga 20x dengan kehilangan performa yang minimal
Mengurangi prompt dan konteks yang dihasilkan untuk menekan biaya
Mendukung konteks yang lebih panjang dengan meningkatkan kepadatan informasi penting di dalam prompt

Microsoft LLMLingua - Mengompresi prompt untuk mempercepat inferensi dan menurunkan biaya

Bacaan terkait

Belum ada komentar.