Menjalankan DeepSeek-R1-671B-Q4_K_M di Xeon dengan 1/2 Arc A770
(github.com/intel)- Dengan menggunakan llama.cpp Portable Zip terbaru, DeepSeek-R1-671B-Q4_K_M dapat dijalankan di Xeon dengan 1 atau 2 Arc A770
- Panduan ini menjelaskan cara menjalankan llama.cpp secara langsung dengan
ipex-llmdi GPU Intel
Lingkungan yang didukung
- Prosesor Intel Core Ultra
- Prosesor Intel Core generasi ke-11 hingga ke-14
- GPU Intel Arc A-Series
- GPU Intel Arc B-Series
Daftar isi
- Quick start Windows
- Prasyarat
- Langkah 1: Unduh dan ekstrak
- Langkah 2: Konfigurasi runtime
- Langkah 3: Jalankan model GGUF
- Quick start Linux
- Prasyarat
- Langkah 1: Unduh dan ekstrak
- Langkah 2: Konfigurasi runtime
- Langkah 3: Jalankan model GGUF
- (Fitur baru) Menjalankan DeepSeek V3/R1 671B dengan FlashMoE
- Tips dan pemecahan masalah
- Error: perangkat sycl yang berbeda terdeteksi
- Menggunakan multi-GPU
- Lingkungan performa
- Detail lebih lanjut
Quick start Windows
Prasyarat
- Periksa versi driver GPU dan perbarui jika diperlukan
- Untuk prosesor Intel Core Ultra atau GPU Intel Arc B-Series, disarankan driver terbaru
- Untuk Intel iGPU/dGPU lainnya, disarankan driver versi 32.0.101.6078
Langkah 1: Unduh dan ekstrak
- Pengguna Windows dapat mengunduh portable zip IPEX-LLM llama.cpp dan mengekstraknya ke folder
Langkah 2: Konfigurasi runtime
- Buka "Command Prompt" lalu akses folder dengan perintah
cd /d PATH\TO\EXTRACTED\FOLDER - Beberapa variabel lingkungan diperlukan atau direkomendasikan untuk menggunakan akselerasi GPU
- Atur
set SYCL_CACHE_PERSISTENT=1
- Atur
- Pengguna multi-GPU dapat melihat tips untuk cara memilih GPU tertentu
Langkah 3: Jalankan model GGUF
- Unduh atau salin model GGUF komunitas ke direktori lokal
- Setelah mengatur path model, jalankan dengan perintah
llama-cli.exe
Quick start Linux
Prasyarat
- Periksa versi driver GPU dan perbarui jika diperlukan
- Disarankan memasang driver sesuai panduan instalasi driver GPU klien Intel
Langkah 1: Unduh dan ekstrak
- Pengguna Linux dapat mengunduh portable tgz IPEX-LLM llama.cpp dan mengekstraknya ke folder
Langkah 2: Konfigurasi runtime
- Buka "Terminal" lalu akses folder dengan perintah
cd /PATH/TO/EXTRACTED/FOLDER - Beberapa variabel lingkungan diperlukan atau direkomendasikan untuk menggunakan akselerasi GPU
- Atur
export SYCL_CACHE_PERSISTENT=1
- Atur
- Pengguna multi-GPU dapat melihat tips untuk cara memilih GPU tertentu
Langkah 3: Jalankan model GGUF
- Unduh atau salin model GGUF komunitas ke direktori lokal
- Setelah mengatur path model, jalankan dengan perintah
./llama-cli
FlashMoE for DeepSeek V3/R1
- FlashMoE adalah alat command-line berbasis llama.cpp yang dioptimalkan untuk model MoE
- Tersedia di platform Linux
- Model MoE GGUF yang telah diuji: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K, dan lainnya
Tips dan pemecahan masalah
Error: perangkat sycl yang berbeda terdeteksi
- Jika perangkat sycl yang berbeda terdeteksi, performa akan dibatasi mengikuti perangkat yang paling lambat
- Pemeriksaan ini dapat dinonaktifkan dan semua perangkat dapat digunakan dengan mengatur
SYCL_DEVICE_CHECK=0
Menggunakan multi-GPU
- Jika ada beberapa GPU Intel, secara default semua GPU akan digunakan untuk menjalankan
- Untuk menggunakan GPU tertentu, atur variabel lingkungan
ONEAPI_DEVICE_SELECTOR
Lingkungan performa
- Performa dapat ditingkatkan dengan mengatur
SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS - Mode ini dapat meningkatkan performa, tetapi exception dapat terjadi
Panduan ini menyediakan cara untuk menjalankan llama.cpp secara efisien di GPU Intel, termasuk berbagai pengaturan dan metode optimasi.
Belum ada komentar.