💫 IPEX-LLM
IPEX-LLM adalah library PyTorch untuk menjalankan LLM di CPU dan GPU Intel dengan latensi yang sangat rendah.
- Dibangun di atas berbagai pekerjaan unggulan seperti Intel Extension for PyTorch (
IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, dan AutoAWQ.
- Menyediakan integrasi yang mulus dengan
llama.cpp, Text-Generation-WebUI, HuggingFace transformers, dan lainnya.
- Ada lebih dari 50 model yang dioptimalkan/divalidasi di
ipex-llm, dan daftar lengkapnya dapat dilihat di sini.
Pembaruan terbaru 🔥
bigdl-llm telah diubah menjadi ipex-llm, dan proyek BigDL asli dapat ditemukan di sini.
ipex-llm kini dapat memuat model langsung dari ModelScope.
ipex-llm menambahkan dukungan INT2, sehingga LLM besar (misalnya Mixtral-8x7B) dapat dijalankan di GPU Intel dengan VRAM 16GB.
- Pengguna kini dapat menggunakan
ipex-llm melalui GUI Text-Generation-WebUI.
ipex-llm kini mendukung Self-Speculative Decoding, yang mempercepat latensi inferensi FP16 dan BF16 masing-masing sekitar 30% di GPU dan CPU Intel.
ipex-llm kini mendukung daftar yang komprehensif untuk fine-tuning LLM di GPU Intel.
Demo ipex-llm
- Anda dapat melihat performa yang telah dioptimalkan dari model
chatglm2-6b dan llama-2-13b-chat pada CPU Intel Core generasi ke-12 dan GPU Intel Arc di bawah ini.
Mulai cepat ipex-llm
Instalasi ipex-llm
- Windows GPU: instal
ipex-llm di Windows dengan GPU Intel
- Linux GPU: instal
ipex-llm di Linux dengan GPU Intel
- Docker: gunakan Docker
ipex-llm di CPU dan GPU Intel
- Untuk detail lebih lanjut, lihat panduan instalasi
Menjalankan ipex-llm
- llama.cpp: jalankan
ipex-llm untuk llama.cpp di GPU Intel
- vLLM: jalankan
ipex-llm di vLLM pada GPU dan CPU Intel
- FastChat: jalankan
ipex-llm di layanan FastChat pada GPU dan CPU Intel
- LangChain-Chatchat RAG: jalankan
ipex-llm di LangChain-Chatchat
- Text-Generation-WebUI: jalankan
ipex-llm di WebUI oobabooga
- Benchmarking: jalankan benchmark
ipex-llm di CPU dan GPU Intel
Contoh kode
- Inferensi low-bit
- Inferensi INT4: inferensi LLM INT4 di GPU dan CPU Intel
- Inferensi FP8/FP4: inferensi LLM FP8 dan FP4 di GPU Intel
- Inferensi INT8: inferensi LLM INT8 di GPU dan CPU Intel
- Inferensi INT2: inferensi LLM INT2 di GPU Intel
- Inferensi FP16/BF16
- Inferensi LLM FP16: dengan optimasi self-speculative decoding yang tersedia di GPU Intel
- Inferensi LLM BF16: dengan optimasi self-speculative decoding yang tersedia di CPU Intel
- Simpan dan muat
- Model low-bit: simpan dan muat model low-bit
ipex-llm
- GGUF: muat model GGUF langsung ke
ipex-llm
- AWQ: muat model AWQ langsung ke
ipex-llm
- GPTQ: muat model GPTQ langsung ke
ipex-llm
- Fine-tuning
- Fine-tuning LLM di GPU Intel, termasuk LoRA, QLoRA, DPO, QA-LoRA, dan ReLoRA
- Fine-tuning QLoRA di CPU Intel
- Integrasi dengan library komunitas
- HuggingFace transformers
- model PyTorch standar
- DeepSpeed-AutoTP
- HuggingFace PEFT
- HuggingFace TRL
- LangChain
- LlamaIndex
- AutoGen
- ModeScope
- Tutorial
- Untuk detail lebih lanjut, lihat situs dokumentasi
ipex-llm
Model yang telah divalidasi
- Lebih dari 50 model yang dioptimalkan/divalidasi di
ipex-llm mencakup LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper, dan lainnya, dan daftarnya dapat dilihat di bawah ini.
Opini GN⁺
IPEX-LLM adalah alat yang kuat untuk menjalankan model bahasa besar secara optimal di perangkat keras Intel, dan dapat sangat membantu penelitian serta pengembangan kecerdasan buatan.
- Library ini terintegrasi dengan berbagai model, sehingga memiliki keunggulan dalam memudahkan pengguna untuk mengakses dan memanfaatkannya.
- Namun, karena dikhususkan untuk perangkat keras Intel, performa optimal mungkin tidak dapat dijamin pada perangkat keras dari produsen lain.
- Saat mengadopsi teknologi ini, diperlukan pemahaman yang memadai tentang kompatibilitas perangkat keras dan tuning performa.
- Karena inferensi dan fine-tuning model bahasa besar dapat dilakukan dengan cepat, teknologi ini dapat membantu menghemat waktu dan sumber daya.
1 komentar
Komentar Hacker News
Antisipasi terobosan VRAM GPU
Penilaian positif terhadap dukungan perangkat lunak Intel
Permintaan rekomendasi GPU Intel
Ketertarikan pada benchmark performa
Usulan kemudahan penggunaan GPU cloud
Ketiadaan GPU Intel di penyedia cloud
Harapan terhadap ulasan produk