Buku Pegangan Inferensi LLM
(bentoml.com)- Buku Pegangan Inferensi LLM memberikan panduan menyeluruh tentang konsep inti dan teknik optimasi yang diperlukan untuk inferensi LLM di lingkungan produksi nyata
- Menyediakan informasi penting untuk praktik lapangan seperti metrik kinerja (misalnya Time to First Token, Tokens per Second) dan praktik terbaik operasional
- Menjelaskan secara rinci metode optimasi terbaru seperti continuous batching dan prefix caching
- Mengumpulkan pengetahuan inferensi LLM yang sebelumnya tersebar di satu tempat untuk meningkatkan pemahaman dan kemudahan pemanfaatan bagi pengembang
- Buku pegangan ini terus diperbarui dengan mencerminkan informasi lapangan terbaru dan metodologi yang telah terbukti
Pengenalan Buku Pegangan Inferensi LLM
LLM Inference in Production merupakan gabungan dari glosarium teknis, buku panduan, dan referensi dalam satu bentuk
Buku pegangan ini membahas secara rinci hal-hal yang wajib diketahui dalam praktik, seperti konsep dasar inferensi LLM, metrik kinerja, teknik optimasi (continuous batching, prefix caching, dll.), serta praktik terbaik operasional
- Memberikan panduan praktis untuk deployment, penskalaan, dan operasional LLM di lingkungan produksi
- Mengabaikan pengecualian yang tidak realistis maupun gangguan teknis yang tidak perlu, dan fokus pada bagian yang penting di lapangan
- Memperkenalkan teknik peningkatan kinerja yang sesuai untuk tiap kasus penggunaan, sehingga benar-benar membantu perbaikan performa
- Terus diperbarui dengan tren industri terbaru dan insight yang telah tervalidasi dalam praktik
Latar Belakang Penulisan
Para pengembang sering kesulitan menemukan informasi tentang inferensi LLM, atau harus mencarinya di banyak tempat, sehingga mengalami masalah fragmentasi pengetahuan
Tim penulis buku pegangan ini merangkum materi yang tersebar di paper, blog vendor, issue GitHub, percakapan Discord, dan lainnya, agar pembaca dapat memahami sekaligus hal-hal seperti
- perbedaan antara pelatihan dan inferensi LLM
- hubungan antara Goodput dan pencapaian SLO
- pemanfaatan nyata teknik pemisahan Prefill-Decode
Pembaca Sasaran
Buku pegangan ini dibuat untuk engineer yang men-deploy, menskalakan, dan mengoperasikan LLM di lingkungan produksi
Dari fine-tuning model open-source kecil hingga pengoperasian infrastruktur internal berskala besar,
- semua orang yang ingin membuat inferensi LLM lebih cepat, lebih murah, dan lebih andal adalah pembaca utamanya
Cara Menggunakan
Buku pegangan ini dapat dibaca tuntas dari awal sampai akhir, atau digunakan seperti referensi untuk mencari bagian yang dibutuhkan saja
Tidak ada urutan masuk atau cara penggunaan tertentu, dan
- konten terbaru akan terus ditambahkan/diperbarui seiring dengan perubahan cepat di bidang inferensi LLM
Panduan Kontribusi
Laporan kesalahan, usulan perbaikan, dan penambahan topik baru sangat disambut
- siapa pun dapat berpartisipasi dengan membuat issue atau mengirim Pull Request ke repositori GitHub
1 komentar
Komentar Hacker News
font-family-nya adalah-apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif.