- Library open-source untuk inferensi dan serving LLM yang cepat
- Mengelola key/value attention secara efisien dengan algoritme PagedAttention
- Throughput 24 kali lebih tinggi dibanding HuggingFace Transformers tanpa perubahan arsitektur model
- Dapat menyimpan key/value yang berurutan di ruang memori yang tidak bersebelahan
- Berhasil digunakan di LMSYS Vicuna dan Chatbot Arena
Belum ada komentar.