1 poin oleh GN⁺ 2024-04-05 | 1 komentar | Bagikan ke WhatsApp

💫 IPEX-LLM

  • IPEX-LLM adalah library PyTorch untuk menjalankan LLM di CPU dan GPU Intel dengan latensi yang sangat rendah.
  • Dibangun di atas berbagai pekerjaan unggulan seperti Intel Extension for PyTorch (IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, dan AutoAWQ.
  • Menyediakan integrasi yang mulus dengan llama.cpp, Text-Generation-WebUI, HuggingFace transformers, dan lainnya.
  • Ada lebih dari 50 model yang dioptimalkan/divalidasi di ipex-llm, dan daftar lengkapnya dapat dilihat di sini.

Pembaruan terbaru 🔥

  • bigdl-llm telah diubah menjadi ipex-llm, dan proyek BigDL asli dapat ditemukan di sini.
  • ipex-llm kini dapat memuat model langsung dari ModelScope.
  • ipex-llm menambahkan dukungan INT2, sehingga LLM besar (misalnya Mixtral-8x7B) dapat dijalankan di GPU Intel dengan VRAM 16GB.
  • Pengguna kini dapat menggunakan ipex-llm melalui GUI Text-Generation-WebUI.
  • ipex-llm kini mendukung Self-Speculative Decoding, yang mempercepat latensi inferensi FP16 dan BF16 masing-masing sekitar 30% di GPU dan CPU Intel.
  • ipex-llm kini mendukung daftar yang komprehensif untuk fine-tuning LLM di GPU Intel.

Demo ipex-llm

  • Anda dapat melihat performa yang telah dioptimalkan dari model chatglm2-6b dan llama-2-13b-chat pada CPU Intel Core generasi ke-12 dan GPU Intel Arc di bawah ini.

Mulai cepat ipex-llm

Instalasi ipex-llm

  • Windows GPU: instal ipex-llm di Windows dengan GPU Intel
  • Linux GPU: instal ipex-llm di Linux dengan GPU Intel
  • Docker: gunakan Docker ipex-llm di CPU dan GPU Intel
  • Untuk detail lebih lanjut, lihat panduan instalasi

Menjalankan ipex-llm

  • llama.cpp: jalankan ipex-llm untuk llama.cpp di GPU Intel
  • vLLM: jalankan ipex-llm di vLLM pada GPU dan CPU Intel
  • FastChat: jalankan ipex-llm di layanan FastChat pada GPU dan CPU Intel
  • LangChain-Chatchat RAG: jalankan ipex-llm di LangChain-Chatchat
  • Text-Generation-WebUI: jalankan ipex-llm di WebUI oobabooga
  • Benchmarking: jalankan benchmark ipex-llm di CPU dan GPU Intel

Contoh kode

  • Inferensi low-bit
    • Inferensi INT4: inferensi LLM INT4 di GPU dan CPU Intel
    • Inferensi FP8/FP4: inferensi LLM FP8 dan FP4 di GPU Intel
    • Inferensi INT8: inferensi LLM INT8 di GPU dan CPU Intel
    • Inferensi INT2: inferensi LLM INT2 di GPU Intel
  • Inferensi FP16/BF16
    • Inferensi LLM FP16: dengan optimasi self-speculative decoding yang tersedia di GPU Intel
    • Inferensi LLM BF16: dengan optimasi self-speculative decoding yang tersedia di CPU Intel
  • Simpan dan muat
    • Model low-bit: simpan dan muat model low-bit ipex-llm
    • GGUF: muat model GGUF langsung ke ipex-llm
    • AWQ: muat model AWQ langsung ke ipex-llm
    • GPTQ: muat model GPTQ langsung ke ipex-llm
  • Fine-tuning
    • Fine-tuning LLM di GPU Intel, termasuk LoRA, QLoRA, DPO, QA-LoRA, dan ReLoRA
    • Fine-tuning QLoRA di CPU Intel
  • Integrasi dengan library komunitas
    • HuggingFace transformers
    • model PyTorch standar
    • DeepSpeed-AutoTP
    • HuggingFace PEFT
    • HuggingFace TRL
    • LangChain
    • LlamaIndex
    • AutoGen
    • ModeScope
  • Tutorial
    • Untuk detail lebih lanjut, lihat situs dokumentasi ipex-llm

Model yang telah divalidasi

  • Lebih dari 50 model yang dioptimalkan/divalidasi di ipex-llm mencakup LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper, dan lainnya, dan daftarnya dapat dilihat di bawah ini.

Opini GN⁺

  • IPEX-LLM adalah alat yang kuat untuk menjalankan model bahasa besar secara optimal di perangkat keras Intel, dan dapat sangat membantu penelitian serta pengembangan kecerdasan buatan.
  • Library ini terintegrasi dengan berbagai model, sehingga memiliki keunggulan dalam memudahkan pengguna untuk mengakses dan memanfaatkannya.
  • Namun, karena dikhususkan untuk perangkat keras Intel, performa optimal mungkin tidak dapat dijamin pada perangkat keras dari produsen lain.
  • Saat mengadopsi teknologi ini, diperlukan pemahaman yang memadai tentang kompatibilitas perangkat keras dan tuning performa.
  • Karena inferensi dan fine-tuning model bahasa besar dapat dilakukan dengan cepat, teknologi ini dapat membantu menghemat waktu dan sumber daya.

1 komentar

 
GN⁺ 2024-04-05
Komentar Hacker News
  • Antisipasi terobosan VRAM GPU

    Sebuah perusahaan punya peluang untuk keluar dari era "4-core selamanya" dan mematahkan batas lama AMD dan Nvidia berupa "8-16GB VRAM selamanya" lewat rilis GPU konsumen berikutnya. Akan terasa puitis jika mereka menawarkan VRAM 32-48GB dengan harga yang masuk akal.

  • Penilaian positif terhadap dukungan perangkat lunak Intel

    Intel bergerak ke arah yang benar dalam hal dukungan perangkat lunak. Saya ingin melihat data benchmark, dan kecepatan pada contoh yang ditampilkan tampak cukup baik.

  • Permintaan rekomendasi GPU Intel

    Membutuhkan rekomendasi GPU Intel dengan vRAM besar. Menanyakan apakah ada produk yang kompatibel dengan ini.

  • Ketertarikan pada benchmark performa

    Tertarik pada perbandingan performa dengan 'llamafile' atau benchmark lain. Menyertakan tautan ke benchmark tersebut.

  • Usulan kemudahan penggunaan GPU cloud

    Akan bagus jika ada skrip untuk menjalankan contoh di penyedia cloud dengan GPU yang kompatibel. Menanyakan apakah ada minat untuk itu, dan sedang mempertimbangkan untuk menyusunnya sendiri.

  • Ketiadaan GPU Intel di penyedia cloud

    Penyedia cloud utama tidak menyediakan GPU Intel.

  • Harapan terhadap ulasan produk

    Menantikan ulasan dan tertarik pada penilaian produk di masa mendatang.