Cara menjalankan model DeepSeek R1 671b secara lokal di server EPYC seharga $2000

(digitalspaceport.com)

3 poin oleh GN⁺ 2025-02-02 | 1 komentar | Bagikan ke WhatsApp

Deepseek AI Rig berbasis sistem AMD EPYC Rome menawarkan performa yang sangat baik
Pada model Q4 671b, sistem ini mencatat 3,5 hingga 4,25 TPS, yang berarti model tersebut cukup layak dijalankan hanya dengan CPU
Sistem ini dapat beroperasi tanpa VRAM GPU dalam jumlah besar dan bisa menjadi proyek yang menyenangkan bagi orang-orang yang menyukai tantangan teknis
Versi distilled memiliki performa yang lebih rendah, sehingga disarankan menggunakan "model penuh"
- Mendukung context window lebih dari 16K untuk memberikan performa yang lebih baik

Local AI CPU Compute Hardware

Sistem yang dirakit mengikuti panduan quad 3090 yang sudah ada masih sangat bertenaga. Motherboard MZ32-AR0 memungkinkan konfigurasi RAM sistem 512GB hingga 1TB dengan biaya rendah. Saat ini digunakan RAM DDR4 2400, tetapi performa berpotensi meningkat jika memakai RAM DDR4 ECC berkecepatan 3200.
Komponen dan biaya:
- Rangka rak: $55
- Motherboard MZ32-AR0: $500
- Pendingin cair 420mm Corsair h170i elite capellix xt: $170
- AMD EPYC 7702 64-core: $650
- RAM ECC 512GB 2400: $400
- NVMe 1TB – Samsung 980 Pro: $75
- PSU 850W: $80
Total biaya: sekitar $2000

Perakitan rak

Rakit dengan cara yang sama seperti panduan sebelumnya, tetapi tanpa GPU dan kartu riser
Jika berencana menambahkan GPU di kemudian hari, sebaiknya sejak awal menggunakan PSU 1500W atau 1600W
Untuk menurunkan suhu stik RAM, disarankan membuat fan wall menggunakan 4 kipas 80mm

Catatan referensi upgrade motherboard

Jika menggunakan CPU AMD EPYC 7V13, disarankan memakai motherboard MZ32-AR0 versi V3
Motherboard versi V1 mungkin tidak mendukung CPU Milan, sehingga perlu di-upgrade ke V3 melalui pembaruan BIOS

Pengaturan perangkat lunak self-hosted AI lokal

Disarankan memasang Ubuntu 24.04 versi server
Atur konfigurasi IP jaringan menjadi IP statis melalui pengaturan BMC
Lakukan perubahan berikut di pengaturan BIOS:
- Atur NPS ke 1
- Atur CCD ke Auto
- Nonaktifkan SMT
- Nonaktifkan SVM
- Nonaktifkan IOMMU
- Atur cTDP ke 200
- Atur deterministic control ke manual, lalu set slider ke performance
- Atur quick power policy ke performance
- Atur BoostFMax ke manual, lalu set nilainya ke 3400

Instalasi Ollama

Gunakan perintah berikut untuk memasang Ollama:

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz  
sudo tar -C /usr -xzf ollama-linux-amd64.tgz  
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama  
sudo usermod -a -G ollama $(whoami)

Atur environment variable dan buat file ollama.service untuk mendaftarkannya sebagai layanan

Mengunduh model DeepSeek 671b

Gunakan perintah berikut untuk mengunduh model DeepSeek 671b:
```
ollama pull deepseek-r1:671b  
```
Model ini memerlukan sekitar 400GB ruang disk, jadi pastikan tersedia kapasitas penyimpanan yang cukup

Instalasi OpenWEBUI

Pasang OpenWEBUI menggunakan Docker
Konfigurasikan dan jalankan layanan OpenWEBUI menggunakan Docker Compose

Menghubungkan OpenWEBUI dan Ollama

Di pengaturan OpenWEBUI, tambahkan server Ollama dan periksa status koneksinya
Di parameter lanjutan, atur pengaturan GPU, Reasoning Effort, Context Length, num_thread, dan lainnya

Menjalankan pengujian

Mulai chat baru di OpenWEBUI, lalu pilih model DeepSeek-r1:671b untuk melakukan percakapan uji

Dengan mengikuti panduan ini, Anda dapat menjalankan model DeepSeek R1 671b secara lokal dengan anggaran sekitar $2000

1 komentar

GN⁺ 2025-02-02

Opini Hacker News

Biaya untuk menjalankan model 671B dengan kuantisasi Q4 pada server Epyc single-socket adalah $2K, menggunakan RAM 512GB. Pada Q8, server Epyc dual-socket dengan RAM 768GB memberikan 6-8 TPS dengan biaya $6K. Ia penasaran bagaimana kecepatan RAM memengaruhi TPS.
Biaya R1 secara online adalah $2/MTok, dan perangkat ini mampu menangani lebih dari 4 tok/s sehingga biayanya menjadi $0.04 per jam. Biaya listrik diperkirakan $0.20 per jam. Selain privasi, menurutnya ini tidak terlalu berarti.
Hal aneh tentang AI saat ini adalah orang ingin menjalankan model terbaik, tetapi biaya perangkat kerasnya mahal. Pada 1990-an, Linux bisa dijalankan di perangkat keras murah. Model AI terbaru membutuhkan RAM yang lebih besar. Ia bertanya-tanya apakah hal seperti ini juga pernah terjadi di masa lalu. Game komputer bisa menjadi contoh yang baik.
Menurutnya akan lebih menarik jika model yang lebih kecil (33b-70b) bisa menghasilkan 5-10 tokens/sec. Ia tidak ingin menghabiskan uang untuk GPU $3k atau perangkat seharga $2k.
Ia bertanya-tanya apakah model kecil yang hanya menerjemahkan bahasa Inggris dan Spanyol, atau model yang memahami utilitas Unix dan bash, punya arti. Ia tidak tahu apakah membatasi isi pelatihan memengaruhi kualitas hasil atau ukuran model.
Ia membangun workstation dengan EPYC 9274F dan RAM 384GB, tetapi tidak mendapatkan performa yang diharapkan. Ia menjalankan berbagai uji benchmark, tetapi hasilnya bahkan tidak mencapai setengah dari benchmark Fujitsu.
Ia heran mengapa NVIDIA Digits seharga $3000 tidak lebih sering dibicarakan. Ia dulu skeptis terhadap AI, tetapi sekarang berencana menjalankan DeepSeek secara lokal.
Ia terkejut bahwa ini bisa dibeli dengan $2K. Ia sedang mencari saran untuk membangun desktop berdaya rendah.
Sebagai YouTuber, ia membagikan statistik soal daya listrik dan kecepatan RAM. Daya saat idle adalah 60w, saat beban 260w, dan kecepatan RAM adalah 2400.
Ia menjalankan model di r6a.16xlarge, tetapi setelah prompt pertama, pemuatan model memakan waktu sangat lama. Dengan RAM 512GB, ia tidak bisa menggunakan ukuran konteks di atas 4k. Ia belum terbiasa dengan pengaturan model, jadi mungkin ada yang terlewat.