Serving model bahasa besar berkecepatan tinggi di PC dengan GPU konsumen
(github.com/SJTU-IPADS)PowerInfer: serving model bahasa besar cepat dengan GPU konsumen
- PowerInfer adalah mesin inferensi LLM CPU/GPU yang memanfaatkan lokalitas aktivasi.
- PowerInfer dan llama.cpp berjalan pada perangkat keras yang sama dan memanfaatkan VRAM RTX 4090 secara penuh.
Ringkasan
- PowerInfer adalah mesin untuk menjalankan inferensi model bahasa besar (LLM) berkecepatan tinggi dengan satu GPU konsumen yang terpasang di komputer pribadi (PC).
- Dasar desain PowerInfer adalah memanfaatkan lokalitas tinggi yang muncul dalam inferensi LLM, yang ditandai oleh distribusi hukum pangkat pada aktivasi neuron.
- Distribusi ini menunjukkan bahwa sejumlah kecil neuron 'panas' secara konsisten aktif, sementara sebagian besar neuron 'dingin' berubah tergantung pada input.
- PowerInfer memanfaatkan wawasan ini untuk merancang mesin inferensi hibrida GPU-CPU: neuron 'panas' dimuat lebih dulu ke GPU, sedangkan neuron 'dingin' dihitung di CPU, sehingga secara signifikan mengurangi kebutuhan memori GPU dan transfer data CPU-GPU.
- PowerInfer mengintegrasikan prediktor adaptif dan operator sparse yang sadar-neuron untuk mengoptimalkan efisiensi aktivasi neuron dan sparsitas komputasi.
- Hasil evaluasi menunjukkan bahwa PowerInfer mencapai laju generasi token rata-rata 13,20 token/detik dan maksimum 29,08 token/detik untuk berbagai LLM (misalnya OPT-175B) pada satu GPU NVIDIA RTX 4090, dengan kinerja 18% lebih rendah dibanding GPU kelas server A100.
- Sambil mempertahankan akurasi model, performanya hingga 11,69 kali lebih cepat daripada llama.cpp.
Fitur
-
Desain berpusat pada lokalitas: memanfaatkan aktivasi sparse dan konsep neuron 'panas'/'dingin' untuk inferensi LLM yang efisien, menjamin kecepatan tinggi dengan kebutuhan sumber daya yang rendah.
-
Pemanfaatan CPU/GPU hibrida: mengintegrasikan kemampuan memori/komputasi CPU dan GPU secara mulus sehingga memungkinkan beban kerja yang seimbang dan pemrosesan cepat.
-
Integrasi mudah: kompatibel dengan model sparse berbasis ReLU yang populer.
-
Mudah untuk deployment lokal: dioptimalkan secara mendalam untuk deployment lokal pada perangkat keras konsumen sehingga inferensi dan serving LLM latensi rendah dimungkinkan pada satu GPU.
-
Kompatibilitas ke belakang: meskipun berbeda dari llama.cpp, sebagian besar
examples/seperti server dan batch generation dapat digunakan dengan cara yang mirip llama.cpp.
Memulai
- Menyediakan panduan instalasi dan bobot model.
Konfigurasi dan instalasi
- Menyediakan panduan untuk memperoleh kode dan membangunnya.
Bobot model
- Model PowerInfer disimpan dalam format PowerInfer GGUF yang mencakup bobot LLM dan bobot prediktor.
- Bobot PowerInfer GGUF dapat diunduh melalui Hugging Face.
- Menyediakan panduan untuk mengonversi bobot model asli dan bobot prediktor ke PowerInfer GGUF.
Inferensi
- Menyediakan panduan untuk inferensi hanya dengan CPU atau inferensi hibrida CPU-GPU yang menggunakan seluruh VRAM yang tersedia.
Kuantisasi
- Menyediakan dukungan kuantisasi yang dioptimalkan untuk model INT4(
Q4_0) serta cara penggunaannya.
Evaluasi
- PowerInfer mencapai peningkatan kecepatan hingga 11x dan 8x masing-masing untuk model FP16 dan INT4.
Pertanyaan yang sering diajukan
- Menyediakan panduan untuk menyelesaikan error
CUDA_ERROR_OUT_OF_MEMORYdan dukungan pemecahan masalah lainnya.
Yang akan datang
- Menyediakan rencana rilis untuk kode inti PowerInfer, model Mistral-7B, dukungan Windows, text-generation-webui, kode evaluasi perplexity, dukungan Metal untuk Mac, kode model OPT, kode pelatihan prediktor, pemisahan online jaringan FFN, dukungan Multi-GPU, dan lainnya.
Makalah dan sitasi
- Detail teknis tentang PowerInfer dapat dilihat di makalahnya.
- Jika PowerInfer bermanfaat atau membantu proyek dan riset terkait, diminta untuk mengutip makalah tersebut.
Ucapan terima kasih
- Berterima kasih kepada pustaka operator yang dapat dimodifikasi ggml dan runtime eksekusi llama.cpp.
- Berterima kasih atas dukungan THUNLP untuk model sparse berbasis ReLU.
- Berterima kasih kepada riset Deja Vu yang menginspirasi PowerInfer.
Opini GN⁺
- PowerInfer adalah mesin inovatif yang memungkinkan inferensi model bahasa besar secara cepat dan efisien dengan menggunakan GPU konsumen.
- Melalui konsep neuron 'panas'/'dingin' dan pemanfaatan CPU/GPU hibrida, teknologi ini menghadirkan kecepatan inferensi yang mendekati performa kelas server sambil tetap menghemat sumber daya.
- Teknologi ini membuka peluang bagi pengembang individu atau tim kecil dalam riset dan pengembangan AI untuk bereksperimen dan melakukan deployment model berperforma tinggi tanpa harus memiliki akses ke perangkat keras kelas server.
Belum ada komentar.