Library PyTorch untuk menjalankan LLM di CPU dan GPU Intel

(github.com/intel-analytics)

1 poin oleh GN⁺ 2024-04-05 | 1 komentar | Bagikan ke WhatsApp

IPEX-LLM adalah library untuk PyTorch yang mempercepat LLM di Intel GPU, NPU, dan CPU, tetapi proyek ini saat ini telah diarsipkan dan tidak ada jaminan pengembangan maupun dukungan dari Intel
Cakupan dukungannya mencakup iGPU pada PC lokal, discrete GPU seperti Arc·Flex·Max, Intel Core Ultra NPU, dan CPU, serta terintegrasi dengan llama.cpp, Ollama, vLLM, HuggingFace transformers, LangChain, LlamaIndex, dan lainnya
Lebih dari 70 model telah dioptimalkan atau diverifikasi di ipex-llm, termasuk Llama, Phi, Mistral, Mixtral, DeepSeek, Qwen, ChatGLM, MiniCPM, Qwen-VL, MiniCPM-V, dan lainnya
Pembaruan terbaru mencakup menjalankan DeepSeek V3/R1 671B dan Qwen3MoE 235B di 1~2 Intel Arc GPU dengan FlashMoE, serta dukungan ipex-llm 2.2.0, PyTorch 2.6 GPU, dan dukungan Ollama·llama.cpp Portable Zip
README menyatakan ada isu keamanan yang telah diketahui, dan Intel tidak menjamin pemeliharaan, perbaikan bug, rilis baru, atau pembaruan, serta tidak lagi menerima patch

Status proyek dan tujuan dasar

IPEX-LLM adalah library akselerasi LLM untuk mempercepat LLM di perangkat keras Intel
Perangkat keras targetnya adalah Intel GPU, NPU, dan CPU
- Contoh GPU mencakup iGPU pada PC lokal, serta discrete GPU seperti Arc, Flex, dan Max
- NPU menargetkan lini Intel Core Ultra
Bagian atas proyek menandai statusnya sebagai arsip
- Intel tidak menyediakan maupun menjamin pengembangan atau dukungan
- Pemeliharaan, perbaikan bug, rilis baru, dan pembaruan tidak dijamin
- Intel tidak lagi menerima patch untuk proyek ini
- Ada isu keamanan yang telah diketahui

Ekosistem yang terintegrasi

ipex-llm terintegrasi dengan berbagai alat untuk menjalankan, melayani, dan mengembangkan LLM
- llama.cpp
- Ollama
- vLLM
- HuggingFace transformers
- LangChain
- LlamaIndex
- Text-Generation-WebUI
- DeepSpeed-AutoTP
- FastChat
- Axolotl
- HuggingFace PEFT
- HuggingFace TRL
- AutoGen
- ModelScope
Dokumen quick start membahas Ollama, llama.cpp, Arc B580, NPU, PyTorch/HuggingFace, vLLM, FastChat, serving multi-Intel GPU, Text-Generation-WebUI, Axolotl, dan benchmarking
Panduan Docker mencakup inferensi C++ GPU, inferensi Python GPU, vLLM GPU·CPU, FastChat GPU, dan lingkungan pengembangan GPU VSCode

Cakupan model dan optimisasi

README menyebutkan bahwa lebih dari 70 model telah dioptimalkan atau diverifikasi di ipex-llm
Contoh keluarga modelnya adalah sebagai berikut
- LLaMA/LLaMA2/LLaMA 3
- Mistral, Mixtral, Gemma
- LLaVA, Whisper
- ChatGLM2/ChatGLM3
- Baichuan/Baichuan2
- keluarga Qwen/Qwen-1.5/Qwen2
- InternLM
- DeepSeek, MiniCPM, Qwen-VL, MiniCPM-V, dan lainnya
Presisi dan kuantisasi yang didukung berfokus pada inferensi low-bit
- FP8, FP6, FP4, INT4
- INT8
- INT2 disediakan berdasarkan mekanisme IQ2 dari llama.cpp
Contoh simpan/muat mencakup model low-bit seperti INT4, FP4, FP6, INT8, FP8, FP16, serta pemuatan model GGUF, AWQ, dan GPTQ

Fitur yang disorot dalam pembaruan terbaru

Pembaruan Mei 2025 menyatakan bahwa FlashMoE di ipex-llm dapat menjalankan DeepSeek V3/R1 671B dan Qwen3MoE 235B di 1~2 Intel Arc GPU
- Contoh GPU-nya adalah Arc A770 atau B580
Pada April 2025, ipex-llm 2.2.0 dirilis dan mencakup Ollama Portable Zip serta llama.cpp Portable Zip
llama.cpp Portable Zip diberi peringatan keamanan
- Pemuatan model berbasis mmap dapat menyebabkan kebocoran data melalui side channel di lingkungan multi-tenant atau host bersama
- mmap dapat dinonaktifkan dengan opsi --no-mmap
Pada April 2025, dukungan PyTorch 2.6 untuk Intel GPU ditambahkan
Pada Maret 2025, dukungan model Gemma3 dan kemampuan menjalankan DeepSeek-R1-671B-Q4_K_M di 1~2 Arc A770 pada Xeon ditambahkan
Pada Februari 2025, ditambahkan Ollama Portable Zip untuk Intel GPU, llama.cpp Portable Zip untuk Intel GPU·NPU, serta dukungan vLLM 0.6.6 untuk Intel Arc GPU
Pada Desember 2024, dukungan Python dan C++ untuk Intel Core Ultra NPU ditambahkan, dengan seri target 100H, 200V, 200K, dan 200H

Demo serta data performa·akurasi

Demo menyediakan contoh menjalankan LLM lokal di Intel Core Ultra iGPU, Intel Core Ultra NPU, single Arc GPU, dan multi-Arc GPU
- Intel Core Ultra iGPU: menjalankan Mistral-7B Q4_K dengan Ollama
- Intel Core Ultra NPU: menjalankan Llama3.2-3B SYM_INT4 dengan HuggingFace
- 2 Intel Arc dGPU: menjalankan DeepSeek-R1-Distill-Qwen-32B Q4_K dengan llama.cpp
- Intel Xeon + Arc dGPU: menjalankan Qwen3MoE-235B Q4_K dengan FlashMoE
Bagian performa menyediakan data kecepatan generasi token di Intel Core Ultra dan Intel Arc GPU
Melalui panduan benchmarking, pengguna dapat menjalankan benchmark performa ipex-llm secara langsung
Bagian akurasi model menyediakan hasil Perplexity yang diukur pada dataset Wikitext
- Presisi pembandingnya adalah sym_int4, q4_k, fp6, fp8_e5m2, fp8_e4m3, fp16
- Model target mencakup Llama-2-7B-chat-hf, Mistral-7B-Instruct-v0.2, Baichuan2-7B-chat, Qwen1.5-7B-chat, Llama-3.1-8B-Instruct, gemma-2-9b-it, dan lainnya
Performa dapat berbeda tergantung cara penggunaan, konfigurasi, dan faktor lainnya, dan ipex-llm mungkin tidak dioptimalkan pada tingkat yang sama di produk non-Intel

Contoh pengembangan·pemanfaatan

Contoh kode dibagi menjadi inferensi low-bit, inferensi FP16/BF16, inferensi terdistribusi, simpan·muat, fine-tuning, dan integrasi dengan library komunitas
Fine-tuning di Intel GPU mencakup LoRA, QLoRA, DPO, QA-LoRA, dan ReLoRA
Contoh fine-tuning QLoRA juga disediakan untuk Intel CPU
Panduan aplikasi membahas alur penggunaan ipex-llm di GraphRAG, RAGFlow, LangChain-Chatchat, Continue, Open WebUI, PrivateGPT, dan Dify
Dokumen API menyediakan Auto Classes API bergaya HuggingFace Transformers dan API optimisasi model PyTorch arbitrer

1 komentar

GN⁺ 2024-04-05

Komentar Hacker News

Perusahaan yang terlalu lama bertahan di 4 core punya peluang menebusnya dengan mematahkan stagnasi VRAM 8~16GB yang selama 10 tahun terakhir pada dasarnya dipaksakan AMD dan Nvidia di GPU konsumen berikutnya
Akan terasa cukup puitis jika muncul 32~48GB dengan harga yang tidak memberatkan, dan Intel juga tampaknya mulai bergerak dengan benar dari sisi dukungan perangkat lunak
- Intel sedang berusaha mengejar Nvidia di bidang AI, dan alasan terbesarnya adalah daya saing produknya yang kurang
  Intel Arc A770 16GB yang dirilis pada Oktober 2022 harganya sekitar 300 dolar, sedangkan Nvidia 4060 Ti 16GB sekitar 500 dolar, tetapi untuk pekerjaan AI nyata 4060 Ti kira-kira dua kali lebih cepat: https://cdn.mos.cms.futurecdn.net/FtXkrY6AD8YypMiHrZuy4K-120...
  Secara teori, Arc A770 seharusnya lebih cepat, dan ini justru membuat masalahnya lebih besar. Berdasarkan performa TFLOPS, kinerjanya lebih dari dua kali Nvidia 4060: https://cdn.mos.cms.futurecdn.net/Q7WgNxqfgyjCJ5kk8apUQE-120...
  Namun ekosistem AI seluruhnya dikembangkan dan dioptimalkan agar berjalan di CUDA milik Nvidia, sehingga performa nyata menjadi rendah
  Pada akhirnya ini masalah pengenalan merek dan ekosistem. Jika Intel merilis GPU workstation dengan VRAM 32GB atau 64GB, bukan monster enterprise yang harganya tidak masuk akal melainkan sesuatu yang bisa dibeli pengembang, itu akan terjual sangat banyak
  Tidak perlu menjadi kartu tercepat. Cukup beri VRAM lebih banyak daripada produk pesaing. Saat ini, untuk training atau pembuatan video, kekurangan VRAM lebih sering menjadi bottleneck daripada kecepatan GPU, dan saya tidak mengerti kenapa Intel tidak melihat ini
- VRAM di atas 24GB tampaknya sulit menjadi murah sebelum GDDR7 hadir, dan bahkan GDDR7 pun sepertinya hanya bisa mendorong sampai sekitar 36GB
  Varian GDDR6 bertumpuk yang lebih canggih kemungkinan akan cukup mahal, dan karena masalah integritas sinyal, die tidak bisa begitu saja ditambah lebih banyak
- Apa yang terlihat jelas bagi kita tampak sebagai standar industri bagi manajer produk
  Kalau dipikir-pikir, sudah kapan terakhir kali pemain industri benar-benar mengguncang tatanan yang ada; Intel juga bukan perusahaan yang berubah sebanyak itu
- Saya setuju bahwa akan keren jika ada 32~48GB dengan harga terjangkau
  Saya dengar di sebagian BIOS motherboard Asrock, VRAM pada Ryzen5 bisa diatur hingga 64GB, dan sekarang saya sedang meneliti berbagai perangkat keras AMD
- Kalau AMD membuat driver berkualitas tinggi, saya bahkan rela bayar hanya untuk melihatnya :-)
Saya penasaran dengan data benchmark
Kecepatan yang ditunjukkan pada contohnya terlihat cukup bagus
Saya penasaran apakah ada rekomendasi GPU Intel dengan VRAM besar yang bisa dipakai untuk ini
- Ada produk data center yaitu Max GPU(Ponte Vecchio), yang menawarkan memori HBM2e 128GB, cache L2 408MB, dan cache L1 64MB
  Gaudi punya angka yang mirip, tetapi menurut materi pemasaran, yang ini memiliki core yang dioptimalkan khusus untuk pekerjaan AI
  Bisa didapatkan lewat sistem jadi dari Dell dan Supermicro: https://www.supermicro.com/en/accelerators/intel
  Bacaan tambahan: https://www.servethehome.com/intel-shows-gpu-max-1550-perfor...
- Untuk konsumen ada Intel Arc A770 16GB VRAM
  Di atas itu mulai masuk ke lini produk enterprise
Saya penasaran apakah ada benchmark performa yang membandingkan ini dengan llamafile atau yang lain
[0] - https://github.com/mozilla-Ocho/llamafile
- llama.cpp sendiri sudah bisa memakai GPU Intel, dan baik ARC maupun GPU terintegrasi mendukung beberapa backend
  Backend yang didukung adalah SYCL, Vulkan, dan OpenCL
  Saya sendiri tidak punya perangkat kerasnya, tetapi karena Intel sedang mendorong ini di sisi data center, rasanya SYCL akan lebih cepat di ARC
  [1]: https://www.intel.com/content/www/us/en/developer/articles/t...
Akan bagus jika disertai skrip GPU cloud untuk menjalankan contoh
Akan lebih berguna jika bisa langsung dijalankan di penyedia cloud daripada membuat orang menebak-nebak GPU yang kompatibel, dan saya sedang mempertimbangkan untuk membuatnya sendiri
Tidak ada penyedia cloud besar yang menawarkan GPU Intel
- GPU Intel sudah cukup menembus pasar Asia Tenggara, dan Intel juga akan segera merilis generasi baru
  Selain itu, tidak seperti lisensi GRID dari Nvidia, Intel mengizinkan virtualisasi GPU tanpa biaya lisensi tambahan, sehingga penyedia hosting bisa membagi satu kartu menjadi beberapa bagian
  Rasanya ke depan akan ada jauh lebih banyak penawaran berbasis Intel
- Memang bukan cloud, tetapi untuk konsumen ini tawaran yang cukup bagus
  Memberikan memori 16GB dan performa di sekitar 4060 Ti dengan harga sekitar 65% dari itu
- Meski begitu, banyak tempat yang menyediakan CPU Intel

Library PyTorch untuk menjalankan LLM di CPU dan GPU Intel

Status proyek dan tujuan dasar

Ekosistem yang terintegrasi

Cakupan model dan optimisasi

Fitur yang disorot dalam pembaruan terbaru

Demo serta data performa·akurasi

Contoh pengembangan·pemanfaatan

Bacaan terkait

1 komentar

Komentar Hacker News