8 poin oleh xguru 2023-06-23 | Belum ada komentar. | Bagikan ke WhatsApp
  • Library open-source untuk inferensi dan serving LLM yang cepat
  • Mengelola key/value attention secara efisien dengan algoritme PagedAttention
    • Throughput 24 kali lebih tinggi dibanding HuggingFace Transformers tanpa perubahan arsitektur model
    • Dapat menyimpan key/value yang berurutan di ruang memori yang tidak bersebelahan
  • Berhasil digunakan di LMSYS Vicuna dan Chatbot Arena

Belum ada komentar.

Belum ada komentar.