vLLM: Serving LLM yang mudah, cepat, dan murah dengan PagedAttention

xguru · 2023-06-23T10:32:02+09:00

Library open-source untuk inferensi dan serving LLM yang cepat Mengelola key/value attention secara efisien dengan algoritme PagedAttention Throughput 24 kali lebih tinggi dibanding HuggingFace Transformers tanpa perubahan arsitektur model Dapat menyimpan key/value yang berurutan di ruang memori yang tidak bersebelahan Berhasil digunakan di LMSYS Vicuna dan Chatbot Arena

(vllm.ai)

8 poin oleh xguru 2023-06-23 | Belum ada komentar. | Bagikan ke WhatsApp

Library open-source untuk inferensi dan serving LLM yang cepat
Mengelola key/value attention secara efisien dengan algoritme PagedAttention
- Throughput 24 kali lebih tinggi dibanding HuggingFace Transformers tanpa perubahan arsitektur model
- Dapat menyimpan key/value yang berurutan di ruang memori yang tidak bersebelahan
Berhasil digunakan di LMSYS Vicuna dan Chatbot Arena

vLLM: Serving LLM yang mudah, cepat, dan murah dengan PagedAttention

Bacaan terkait

Belum ada komentar.