2 poin oleh GN⁺ 2025-03-08 | Belum ada komentar. | Bagikan ke WhatsApp
  • Dengan menggunakan llama.cpp Portable Zip terbaru, DeepSeek-R1-671B-Q4_K_M dapat dijalankan di Xeon dengan 1 atau 2 Arc A770
  • Panduan ini menjelaskan cara menjalankan llama.cpp secara langsung dengan ipex-llm di GPU Intel

Lingkungan yang didukung

  • Prosesor Intel Core Ultra
  • Prosesor Intel Core generasi ke-11 hingga ke-14
  • GPU Intel Arc A-Series
  • GPU Intel Arc B-Series

Daftar isi

  • Quick start Windows
    • Prasyarat
    • Langkah 1: Unduh dan ekstrak
    • Langkah 2: Konfigurasi runtime
    • Langkah 3: Jalankan model GGUF
  • Quick start Linux
    • Prasyarat
    • Langkah 1: Unduh dan ekstrak
    • Langkah 2: Konfigurasi runtime
    • Langkah 3: Jalankan model GGUF
  • (Fitur baru) Menjalankan DeepSeek V3/R1 671B dengan FlashMoE
  • Tips dan pemecahan masalah
    • Error: perangkat sycl yang berbeda terdeteksi
    • Menggunakan multi-GPU
    • Lingkungan performa
  • Detail lebih lanjut

Quick start Windows

Prasyarat

  • Periksa versi driver GPU dan perbarui jika diperlukan
    • Untuk prosesor Intel Core Ultra atau GPU Intel Arc B-Series, disarankan driver terbaru
    • Untuk Intel iGPU/dGPU lainnya, disarankan driver versi 32.0.101.6078

Langkah 1: Unduh dan ekstrak

  • Pengguna Windows dapat mengunduh portable zip IPEX-LLM llama.cpp dan mengekstraknya ke folder

Langkah 2: Konfigurasi runtime

  • Buka "Command Prompt" lalu akses folder dengan perintah cd /d PATH\TO\EXTRACTED\FOLDER
  • Beberapa variabel lingkungan diperlukan atau direkomendasikan untuk menggunakan akselerasi GPU
    • Atur set SYCL_CACHE_PERSISTENT=1
  • Pengguna multi-GPU dapat melihat tips untuk cara memilih GPU tertentu

Langkah 3: Jalankan model GGUF

  • Unduh atau salin model GGUF komunitas ke direktori lokal
  • Setelah mengatur path model, jalankan dengan perintah llama-cli.exe

Quick start Linux

Prasyarat

  • Periksa versi driver GPU dan perbarui jika diperlukan
  • Disarankan memasang driver sesuai panduan instalasi driver GPU klien Intel

Langkah 1: Unduh dan ekstrak

  • Pengguna Linux dapat mengunduh portable tgz IPEX-LLM llama.cpp dan mengekstraknya ke folder

Langkah 2: Konfigurasi runtime

  • Buka "Terminal" lalu akses folder dengan perintah cd /PATH/TO/EXTRACTED/FOLDER
  • Beberapa variabel lingkungan diperlukan atau direkomendasikan untuk menggunakan akselerasi GPU
    • Atur export SYCL_CACHE_PERSISTENT=1
  • Pengguna multi-GPU dapat melihat tips untuk cara memilih GPU tertentu

Langkah 3: Jalankan model GGUF

  • Unduh atau salin model GGUF komunitas ke direktori lokal
  • Setelah mengatur path model, jalankan dengan perintah ./llama-cli

FlashMoE for DeepSeek V3/R1

  • FlashMoE adalah alat command-line berbasis llama.cpp yang dioptimalkan untuk model MoE
  • Tersedia di platform Linux
  • Model MoE GGUF yang telah diuji: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K, dan lainnya

Tips dan pemecahan masalah

Error: perangkat sycl yang berbeda terdeteksi

  • Jika perangkat sycl yang berbeda terdeteksi, performa akan dibatasi mengikuti perangkat yang paling lambat
  • Pemeriksaan ini dapat dinonaktifkan dan semua perangkat dapat digunakan dengan mengatur SYCL_DEVICE_CHECK=0

Menggunakan multi-GPU

  • Jika ada beberapa GPU Intel, secara default semua GPU akan digunakan untuk menjalankan
  • Untuk menggunakan GPU tertentu, atur variabel lingkungan ONEAPI_DEVICE_SELECTOR

Lingkungan performa

  • Performa dapat ditingkatkan dengan mengatur SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS
  • Mode ini dapat meningkatkan performa, tetapi exception dapat terjadi

Panduan ini menyediakan cara untuk menjalankan llama.cpp secara efisien di GPU Intel, termasuk berbagai pengaturan dan metode optimasi.

Belum ada komentar.

Belum ada komentar.