Cara menjalankan model DeepSeek R1 671b secara lokal di server EPYC seharga $2000
(digitalspaceport.com)- Deepseek AI Rig berbasis sistem AMD EPYC Rome menawarkan performa yang sangat baik
- Pada model Q4 671b, sistem ini mencatat 3,5 hingga 4,25 TPS, yang berarti model tersebut cukup layak dijalankan hanya dengan CPU
- Sistem ini dapat beroperasi tanpa VRAM GPU dalam jumlah besar dan bisa menjadi proyek yang menyenangkan bagi orang-orang yang menyukai tantangan teknis
- Versi distilled memiliki performa yang lebih rendah, sehingga disarankan menggunakan "model penuh"
- Mendukung context window lebih dari 16K untuk memberikan performa yang lebih baik
Local AI CPU Compute Hardware
- Sistem yang dirakit mengikuti panduan quad 3090 yang sudah ada masih sangat bertenaga. Motherboard MZ32-AR0 memungkinkan konfigurasi RAM sistem 512GB hingga 1TB dengan biaya rendah. Saat ini digunakan RAM DDR4 2400, tetapi performa berpotensi meningkat jika memakai RAM DDR4 ECC berkecepatan 3200.
- Komponen dan biaya:
- Rangka rak: $55
- Motherboard MZ32-AR0: $500
- Pendingin cair 420mm Corsair h170i elite capellix xt: $170
- AMD EPYC 7702 64-core: $650
- RAM ECC 512GB 2400: $400
- NVMe 1TB – Samsung 980 Pro: $75
- PSU 850W: $80
- Total biaya: sekitar $2000
Perakitan rak
- Rakit dengan cara yang sama seperti panduan sebelumnya, tetapi tanpa GPU dan kartu riser
- Jika berencana menambahkan GPU di kemudian hari, sebaiknya sejak awal menggunakan PSU 1500W atau 1600W
- Untuk menurunkan suhu stik RAM, disarankan membuat fan wall menggunakan 4 kipas 80mm
Catatan referensi upgrade motherboard
- Jika menggunakan CPU AMD EPYC 7V13, disarankan memakai motherboard MZ32-AR0 versi V3
- Motherboard versi V1 mungkin tidak mendukung CPU Milan, sehingga perlu di-upgrade ke V3 melalui pembaruan BIOS
Pengaturan perangkat lunak self-hosted AI lokal
- Disarankan memasang Ubuntu 24.04 versi server
- Atur konfigurasi IP jaringan menjadi IP statis melalui pengaturan BMC
- Lakukan perubahan berikut di pengaturan BIOS:
- Atur NPS ke 1
- Atur CCD ke Auto
- Nonaktifkan SMT
- Nonaktifkan SVM
- Nonaktifkan IOMMU
- Atur cTDP ke 200
- Atur deterministic control ke manual, lalu set slider ke performance
- Atur quick power policy ke performance
- Atur BoostFMax ke manual, lalu set nilainya ke 3400
Instalasi Ollama
-
Gunakan perintah berikut untuk memasang Ollama:
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz sudo tar -C /usr -xzf ollama-linux-amd64.tgz sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama sudo usermod -a -G ollama $(whoami) -
Atur environment variable dan buat file ollama.service untuk mendaftarkannya sebagai layanan
Mengunduh model DeepSeek 671b
-
Gunakan perintah berikut untuk mengunduh model DeepSeek 671b:
ollama pull deepseek-r1:671b -
Model ini memerlukan sekitar 400GB ruang disk, jadi pastikan tersedia kapasitas penyimpanan yang cukup
Instalasi OpenWEBUI
- Pasang OpenWEBUI menggunakan Docker
- Konfigurasikan dan jalankan layanan OpenWEBUI menggunakan Docker Compose
Menghubungkan OpenWEBUI dan Ollama
- Di pengaturan OpenWEBUI, tambahkan server Ollama dan periksa status koneksinya
- Di parameter lanjutan, atur pengaturan GPU, Reasoning Effort, Context Length, num_thread, dan lainnya
Menjalankan pengujian
- Mulai chat baru di OpenWEBUI, lalu pilih model DeepSeek-r1:671b untuk melakukan percakapan uji
Dengan mengikuti panduan ini, Anda dapat menjalankan model DeepSeek R1 671b secara lokal dengan anggaran sekitar $2000
1 komentar
Opini Hacker News
Biaya untuk menjalankan model 671B dengan kuantisasi Q4 pada server Epyc single-socket adalah $2K, menggunakan RAM 512GB. Pada Q8, server Epyc dual-socket dengan RAM 768GB memberikan 6-8 TPS dengan biaya $6K. Ia penasaran bagaimana kecepatan RAM memengaruhi TPS.
Biaya R1 secara online adalah $2/MTok, dan perangkat ini mampu menangani lebih dari 4 tok/s sehingga biayanya menjadi $0.04 per jam. Biaya listrik diperkirakan $0.20 per jam. Selain privasi, menurutnya ini tidak terlalu berarti.
Hal aneh tentang AI saat ini adalah orang ingin menjalankan model terbaik, tetapi biaya perangkat kerasnya mahal. Pada 1990-an, Linux bisa dijalankan di perangkat keras murah. Model AI terbaru membutuhkan RAM yang lebih besar. Ia bertanya-tanya apakah hal seperti ini juga pernah terjadi di masa lalu. Game komputer bisa menjadi contoh yang baik.
Menurutnya akan lebih menarik jika model yang lebih kecil (33b-70b) bisa menghasilkan 5-10 tokens/sec. Ia tidak ingin menghabiskan uang untuk GPU $3k atau perangkat seharga $2k.
Ia bertanya-tanya apakah model kecil yang hanya menerjemahkan bahasa Inggris dan Spanyol, atau model yang memahami utilitas Unix dan bash, punya arti. Ia tidak tahu apakah membatasi isi pelatihan memengaruhi kualitas hasil atau ukuran model.
Ia membangun workstation dengan EPYC 9274F dan RAM 384GB, tetapi tidak mendapatkan performa yang diharapkan. Ia menjalankan berbagai uji benchmark, tetapi hasilnya bahkan tidak mencapai setengah dari benchmark Fujitsu.
Ia heran mengapa NVIDIA Digits seharga $3000 tidak lebih sering dibicarakan. Ia dulu skeptis terhadap AI, tetapi sekarang berencana menjalankan DeepSeek secara lokal.
Ia terkejut bahwa ini bisa dibeli dengan $2K. Ia sedang mencari saran untuk membangun desktop berdaya rendah.
Sebagai YouTuber, ia membagikan statistik soal daya listrik dan kecepatan RAM. Daya saat idle adalah 60w, saat beban 260w, dan kecepatan RAM adalah 2400.
Ia menjalankan model di r6a.16xlarge, tetapi setelah prompt pertama, pemuatan model memakan waktu sangat lama. Dengan RAM 512GB, ia tidak bisa menggunakan ukuran konteks di atas 4k. Ia belum terbiasa dengan pengaturan model, jadi mungkin ada yang terlewat.