Buku Pegangan Inferensi LLM

(bentoml.com)

3 poin oleh GN⁺ 2025-07-12 | 1 komentar | Bagikan ke WhatsApp

Buku Pegangan Inferensi LLM memberikan panduan menyeluruh tentang konsep inti dan teknik optimasi yang diperlukan untuk inferensi LLM di lingkungan produksi nyata
Menyediakan informasi penting untuk praktik lapangan seperti metrik kinerja (misalnya Time to First Token, Tokens per Second) dan praktik terbaik operasional
Menjelaskan secara rinci metode optimasi terbaru seperti continuous batching dan prefix caching
Mengumpulkan pengetahuan inferensi LLM yang sebelumnya tersebar di satu tempat untuk meningkatkan pemahaman dan kemudahan pemanfaatan bagi pengembang
Buku pegangan ini terus diperbarui dengan mencerminkan informasi lapangan terbaru dan metodologi yang telah terbukti

Pengenalan Buku Pegangan Inferensi LLM

LLM Inference in Production merupakan gabungan dari glosarium teknis, buku panduan, dan referensi dalam satu bentuk
Buku pegangan ini membahas secara rinci hal-hal yang wajib diketahui dalam praktik, seperti konsep dasar inferensi LLM, metrik kinerja, teknik optimasi (continuous batching, prefix caching, dll.), serta praktik terbaik operasional

Memberikan panduan praktis untuk deployment, penskalaan, dan operasional LLM di lingkungan produksi
Mengabaikan pengecualian yang tidak realistis maupun gangguan teknis yang tidak perlu, dan fokus pada bagian yang penting di lapangan
Memperkenalkan teknik peningkatan kinerja yang sesuai untuk tiap kasus penggunaan, sehingga benar-benar membantu perbaikan performa
Terus diperbarui dengan tren industri terbaru dan insight yang telah tervalidasi dalam praktik

Latar Belakang Penulisan

Para pengembang sering kesulitan menemukan informasi tentang inferensi LLM, atau harus mencarinya di banyak tempat, sehingga mengalami masalah fragmentasi pengetahuan
Tim penulis buku pegangan ini merangkum materi yang tersebar di paper, blog vendor, issue GitHub, percakapan Discord, dan lainnya, agar pembaca dapat memahami sekaligus hal-hal seperti

perbedaan antara pelatihan dan inferensi LLM
hubungan antara Goodput dan pencapaian SLO
pemanfaatan nyata teknik pemisahan Prefill-Decode

Pembaca Sasaran

Buku pegangan ini dibuat untuk engineer yang men-deploy, menskalakan, dan mengoperasikan LLM di lingkungan produksi
Dari fine-tuning model open-source kecil hingga pengoperasian infrastruktur internal berskala besar,

semua orang yang ingin membuat inferensi LLM lebih cepat, lebih murah, dan lebih andal adalah pembaca utamanya

Cara Menggunakan

Buku pegangan ini dapat dibaca tuntas dari awal sampai akhir, atau digunakan seperti referensi untuk mencari bagian yang dibutuhkan saja
Tidak ada urutan masuk atau cara penggunaan tertentu, dan

konten terbaru akan terus ditambahkan/diperbarui seiring dengan perubahan cepat di bidang inferensi LLM

Panduan Kontribusi

Laporan kesalahan, usulan perbaikan, dan penambahan topik baru sangat disambut

siapa pun dapat berpartisipasi dengan membuat issue atau mengirim Pull Request ke repositori GitHub

1 komentar

GN⁺ 2025-07-12

Komentar Hacker News

Halo, saya salah satu maintainer utama proyek ini. Saya senang dan merasa terhormat proyek kami diperkenalkan di Hacker News. Alasan kami membuat handbook ini adalah agar para pengembang yang membangun aplikasi LLM nyata juga bisa dengan mudah memahami konsep inferensi LLM. Kami ingin mengumpulkan pengetahuan yang tersebar di berbagai tempat menjadi sesuatu yang jelas, praktis, dan mudah diperluas. Kami akan terus memperbaikinya agar menjadi handbook yang lebih baik, jadi kami sangat terbuka terhadap masukan. Saya juga berharap Anda melihat repositori GitHub kami.
- Terima kasih banyak sudah merangkum ini dengan rapi. Saya punya satu pertanyaan: jika melihat gambar yang mendefinisikan TTFT dan ITL di gambar ini, tampaknya model menghasilkan 4 token dari T0 sampai T3 lalu mengeluarkan satu token output. Menurut saya gambar itu lebih cocok untuk menjelaskan ITL, sedangkan untuk TTFT, pada tahap decode seharusnya T0 saja yang muncul lalu langsung masuk ke detokenization sehingga token output pertama tiba. Dalam lingkungan streaming, kalau bukan begitu rasanya pengukuran TTFT tidak terlalu bermakna.
- Saya tidak berencana membuka issue terpisah, tetapi saya berharap pada bagian self-hosting di handbook ini ada rekomendasi yang lebih jelas untuk open source inferensi self-hosting lokal seperti llama.cpp.
- Saya suka handbook ini karena berguna dan tersusun rapi. Namun, isinya dipecah menjadi terlalu banyak halaman kecil sehingga di mobile, karena daftar isi tidak ditampilkan secara default, membacanya jadi kurang nyaman. Saya akhirnya berhenti setelah membaca beberapa halaman saja. Akan lebih baik kalau setidaknya tiap section ditampilkan dalam satu halaman.
- Ini benar-benar pekerjaan yang keren, tampilannya juga indah dan sangat bermanfaat.
Desainnya juga sangat keren, jadi saya penasaran: apa tren atau nama desain yang digunakan di situs web ini? Saya juga sangat menyukai desain situs ini.
- Sepertinya mereka memakai framework CSS dasar bernama Infima. Ini adalah framework CSS default milik Docusaurus, dan memanfaatkan system font stack apa adanya. font-family-nya adalah -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif.
Ke depannya saya harap ada tambahan pembahasan tentang structured outputs/guided generation serta sampling. Sebagai referensi tambahan untuk algoritma sampling pada tahap inferensi, ini juga layak dilihat.
- Wah, rangkuman sampling ini juga sangat detail.
Saya sangat senang handbook seperti ini muncul. Saya paham ada banyak perhatian dan antusiasme terhadap pelatihan model di materi yang dipublikasikan, tetapi menjalankan model dengan baik dalam praktik juga sangat penting. Jika ingin diadopsi secara luas ke berbagai aplikasi ke depan, pengetahuan tentang eksekusi dan operasional akan semakin dibutuhkan.
Terima kasih sudah mengumpulkan dan merangkum ini. Ke depannya sepertinya saya cukup membagikan satu tautan ini saja agar orang yang tertarik bisa belajar. Satu usulan: di halaman "OpenAI-compatible API", akan bagus jika ditambahkan juga contoh pemanggilan REST murni tanpa paket OpenAI.
Yang saya ingat tentang BentoML, dulunya sepertinya lebih terkait MLOps, dan saya merasa pernah mencobanya sekitar setahun lalu. Saya jadi penasaran apakah perusahaannya telah beralih fokus.
- Karena sisi serving LLM mengambil porsi besar di pasar, untuk framework serving memang wajar memperluas diri ke area ini.
Ini referensi yang sangat bagus. Terima kasih sudah merangkumnya dengan sangat baik.