vLLM PagedAttention: Inovasi dalam throughput inferensi LLM

(aleksagordic.com)

14 poin oleh darjeeling 2025-09-02 | Belum ada komentar. | Bagikan ke WhatsApp

Untuk detailnya, silakan lihat tautan url. Ini adalah ringkasannya.

Tantangan inti dalam serving LLM (large language model) adalah mengelola memori KV cache (Key-Value Cache) secara efisien. Sistem-sistem sebelumnya memiliki keterbatasan karena masalah fragmentasi memori, yang menurunkan tingkat pemanfaatan GPU dan membatasi throughput.

vLLM menyelesaikan masalah ini melalui algoritma PagedAttention, yang terinspirasi dari teknik memori virtual dan paging pada sistem operasi. PagedAttention mengelola KV cache dengan membaginya ke dalam unit 'blok' yang secara fisik tidak berurutan, sehingga secara drastis mengurangi pemborosan memori dan memungkinkan alokasi memori yang fleksibel.

Berdasarkan PagedAttention ini, vLLM menerapkan teknologi inti berikut untuk memaksimalkan performa inferensi.

Continuous batching: Bekerja secara dinamis dengan menambahkan permintaan ke batch segera setelah tiba, dan menghapus sequence yang sudah selesai dari batch. Dengan ini, waktu idle GPU dapat diminimalkan dan throughput meningkat hingga 24 kali lipat dibanding pendekatan batch statis konvensional.
Dukungan fitur inferensi lanjutan: vLLM memanfaatkan fleksibilitas PagedAttention untuk secara efisien mendukung berbagai fitur lanjutan berikut.
- Chunked prefill: Tahap prefill untuk prompt panjang dibagi menjadi beberapa chunk agar satu permintaan tidak memonopoli sistem, sekaligus memperbaiki latensi permintaan lain.
- Prefix caching: KV cache untuk prefix prompt yang dibagikan di beberapa permintaan dapat digunakan bersama tanpa perhitungan ulang, sehingga menghilangkan komputasi redundan.
- Guided and speculative decoding: Mendukung teknik untuk mengarahkan output agar mengikuti format tertentu (misalnya JSON), atau mempercepat generasi dengan menggunakan model draft yang lebih kecil.
- Disaggregated prefill/decoding: Tahap prefill yang intensif komputasi dan tahap decoding yang intensif bandwidth memori diproses pada instance terpisah untuk mengoptimalkan pemanfaatan resource.

Kesimpulannya, vLLM menyelesaikan inefisiensi mendasar dalam pengelolaan KV cache melalui PagedAttention, lalu memanfaatkan fondasi ini untuk menerapkan teknik optimasi seperti continuous batching sehingga meningkatkan throughput dan performa sistem inferensi LLM.

vLLM PagedAttention: Inovasi dalam throughput inferensi LLM

Bacaan terkait

Belum ada komentar.