Berbagi pengalaman merakit mesin LLM lokal di rumah

6 poin oleh popopo 2025-11-09 | 9 komentar | Bagikan ke WhatsApp

Setelah melihat Nvidia DGX Spark, saya sempat sangat berharap pada GB10, tetapi setelah membaca ulasannya, ternyata lebih banyak hal yang mengecewakan. Sepertinya bandwidth memori menjadi penghambat bagi performa lainnya.

Ada juga kasus ketika performanya mirip dengan AMD Strix Halo atau bahkan lebih baik.

(Memang hadir dengan unified memory 64GB, tetapi ada opsi 128GB dan bisa mengalokasikan vRAM 96GB)

Memang ada dukungan FP4, CUDA, dan jika diperluas dengan ConnectX-7 katanya bisa menambah memori 128GB, tetapi harga mesinnya lebih dari dua kali lipat dibanding Strix Halo, jadi rasanya sulit dijangkau.

Walaupun ekosistem AMD ROCm masih kurang dibanding CUDA, program yang saya buat sejauh ini berjalan dengan baik, jadi saya cenderung ke arah ini (SoC 128GB 2TB bisa dibeli sekitar 3 juta won). Saya penasaran bagaimana Anda menyusun sistem dengan mempertimbangkan anggaran dan konsumsi daya.

Saya sendiri berencana memilih AMD Strix Halo, dan untuk OS ingin memakai Bazzite berbasis Fedora. Driver grafisnya sudah terpasang secara default, dan setelah memasang Distrobox serta mise, sepertinya program yang saya buat dan model yang dibutuhkan juga bisa dijalankan.

9 komentar

popopo 2025-11-18

Mesin Strix Halo yang saya beli saat diskon Hari Jomblo sudah tiba, dan saya memasang Bazzite lalu mencoba membuat beberapa gambar dengan distrobox. Performanya sesuai perkiraan (untuk LLM tidak terlalu tinggi). Anggap saja ini mini PC berperforma tinggi.

Katanya unified memory bisa mengalokasikan lebih dari 96GB ke vRAM, tetapi karena berubah secara dinamis dan sulit dicek, sampai sekarang saya belum pernah melihat alokasi lebih dari 96GB.

Untuk konfigurasinya, saya merujuk ke situs https://strixhalo.wiki/. Ada juga tabel perbandingan panduan pembelian (Strix Halo - Mac - DGS Spark - 6000), jadi mungkin akan membantu sebagai referensi.

Iklan Bazzite: OS dikelola sebagai image immutable, dan program lain dikelola dengan baterai seperti flatpak, brew, dan sebagainya. Dengan perintah update, semua paket dari firmware sampai paket lainnya ikut diperbarui. Kalau OS terasa mulai berantakan, cukup rapikan path pengguna saja (OS tidak bisa disentuh dengan cara biasa). Driver AMD sudah terpasang semua, jadi ROCm bisa langsung dipakai.

OS yang awalnya dirilis sebagai semacam landasan peluncur kontainer adalah Fedora CoreOS, dan Bazzite yang menambahkan berbagai pengaturan pengguna di atasnya sangat praktis untuk penggunaan umum maupun pengembangan, dengan usability yang sangat baik. Kontainer (distrobox), wine, dan tailscale juga sudah terpasang secara bawaan. Tinggal tambahkan mise, dan menurut saya semua fungsi yang diinginkan sudah bisa dikelola.

Awalnya saya berniat membuat panduan sambil melakukan pengaturan dari awal, tetapi karena saya menyalin seluruh direktori akun pengguna Bazzite lama yang saya pakai, semua pengaturan ikut berpindah, jadi saya... tidak bisa membuat panduan pengaturannya.

minsuchae 2025-11-11

Menurut pendapat pribadi saya, untuk Mac dan Nvidia DGX Spark itu cenderung terbagi ke pendekatan memori terpadu, sedangkan selain itu lebih ke kombinasi RAM dan VRAM.
Pada sebagian produk, alokasi VRAM untuk kartu grafis terintegrasi juga hadir dengan cara menggunakan RAM sistem.
Untuk non-ahli, saya merekomendasikan Mac atau Nvidia DGX Spark, dan jika Anda cukup siap untuk oprek-oprek sendiri, memakai AMD juga bisa jadi pilihan yang lebih baik.
Masing-masing punya kelebihan dan kekurangan.

Untuk Mac, Nvidia DGX Spark, dan sejenisnya, kekurangannya adalah RAM tidak bisa di-upgrade sendiri sehingga harus dibeli dengan konfigurasi yang sudah ditentukan dari awal.
Untuk AMD, kelebihannya adalah RAM bisa di-upgrade sendiri, tetapi tetap ada batasan pada alokasi VRAM.

Artinya, jika dilihat dari sudut pandang ingin memakai 128GB atau lebih sebagai VRAM, Mac Studio adalah opsi yang paling menguntungkan.
Ruang untuk oprek-oprek memang kecil, tetapi untuk Mac Studio ada kekurangan bahwa ia cukup baik untuk inferensi namun kurang menguntungkan untuk training. (Untuk training lebih lambat daripada AMD)

Untuk Nvidia DGX Spark, jika ingin konfigurasi memori di atas 128GB ada kekurangan berupa harus membeli kabel terpisah dari Nvidia. Namun, untuk training AI, karena CUDA pada dasarnya sudah menjadi standar yang digunakan, tingkat ribetnya paling rendah. Selain itu, untuk performa, ada rumor bahwa selain VRAM kelasnya setara 5070, dan juga ada batas pada bandwidth memori...(jika mempertimbangkan training, ini pilihan yang cukup aman)

Alokasi VRAM menggunakan grafis terintegrasi
Belakangan ini, karena harga memori naik, ini jadi pilihan yang agak disayangkan, tetapi tetap saja jika mempertimbangkan opsi RAM, harganya jauh lebih murah daripada Mac. Hanya saja, karena dukungan AMD ROCm masih kurang, Anda harus berjuang sendiri, jadi tidak direkomendasikan untuk non-ahli (dan juga pada praktiknya hampir mustahil menaikkan VRAM lebih tinggi lagi...)

Kurang lebih rasanya bisa dirangkum seperti ini.
Kalau hanya mempertimbangkan value for money, AMD memang bagus... tetapi kalau ingin pakai dengan tenang, Mac Studio juga bukan opsi yang buruk. Jika hanya mempertimbangkan inferensi, ini bahkan sudah masuk wilayah value for money...

minsuchae 2025-11-11

Dalam kasus AMD, ada kelebihan karena RAM bisa di-upgrade secara langsung, tetapi ada batasan pada alokasi VRAM
-> Bagian ini saya tulis tanpa dirapikan, jadi penulisannya jadi keliru. Untuk kasus pembagian antara RAM sistem dan VRAM, sebagian ada yang bisa di-upgrade, dan untuk laptop juga banyak yang tidak bisa di-upgrade.

dhy0613 2025-11-11

Saya berhenti menunggu 5070Ti Super, lalu tergoda ke Radeon dan akhirnya merakit serta memakainya seperti ini.

9800x3D
7900 XTX bekas
RAM 96GB

Saya membagi partisi, memasang Ubuntu 24.10 dan ROCm 7.1, lalu untuk LLM inference dan sisi ComfyUI yang memakai PyTorch, semuanya berjalan baik tanpa masalah besar.

Memang agak disayangkan karena SageAttention tidak didukung, tapi kalau mengingat harganya saya anggap wajar.

clastneo 2025-11-10

Saya sempat berpikir untuk membeli Mac Studio yang besar, tetapi saya tidak tahu kalau opsi terkait Home LLM sudah bertambah sebanyak ini.
Kalau boleh tahu, bagaimana Anda biasanya menyusun konfigurasi di sisi Strix?

popopo 2025-11-10

Saya belum membeli Strix halo, tetapi pada komputer gaming yang mirip-sama menggunakan GPU AMD, saya memakai vRAM 16GB untuk menghitung sekitar 600 juta kemungkinan kasus.

Saya merakitnya sekali lalu mengerjakannya sambil mencari-cari seperlunya, jadi ingatan saya tidak terlalu akurat.

Karena saya menggunakan Bazzite, driver grafisnya sudah terpasang jadi tidak ada yang terlalu khusus, lalu setelah memasang ROCm dan modul terkait di Rocky Linux di dalam distrobox, saya menjalankan berbagai komputasi yang menggunakan GPU.

Karena bandwidth memorinya cepat dan tinggi, bukankah Mac Studio juga layak dipertimbangkan? Dengan opsi 128GB 2TB harganya memang 4.000 dolar. Soal arsitektur Mac, menurut saya tidak akan terlalu berbeda besar dibanding memilih AMD.

clastneo 2025-11-11

Saya akan merujuk pada jawaban Anda.
Terima kasih telah menjawab dengan ramah!

popopo 2025-11-09

Hasil saat saya meminta Gemini membandingkannya berdasarkan https://www.youtube.com/watch?v=Pww8rIzr1pg

📊 Perbandingan opsi menjalankan LLM 128GB (November 2025, mencerminkan benchmark)

Mencerminkan isi video: berdasarkan benchmark Hardware Unboxed, Strix Halo menunjukkan keunggulan dibanding M3 Max (sekitar 30~35% lebih baik), dan sistem GB10 "Spark" menunjukkan performa NPU/GPU khusus yang jauh lebih unggul dibanding APU/chipset terintegrasi tersebut. (berdasarkan inferensi Llama 3 70B Q4 dalam T/s)

Opsi konfigurasi (128GB) T/s (perkiraan) Daya sistem (perkiraan) T/W (efisiensi daya) Biaya sistem (perkiraan) Biaya/T (value for money)
NVIDIA "Spark" (GB10) 120 T/s 400 W 0.30 ~5,2 juta won 4,33 juta won/T
4 x RTX 5080 32GB (baru) 240 T/s 1500 W 0.16 ~12 juta won 5,0 juta won/T
6 x RTX 3090 (bekas) 90 T/s 2300 W 0.04 ~7 juta won 7,8 juta won/T
AMD Strix Halo (128GB) 30 T/s 180 W 0.17 ~2,6 juta won 8,67 juta won/T
Apple M3 Max (128GB) 22 T/s 100 W 0.22 ~6 juta won 27,3 juta won/T

💡 Analisis dan kesimpulan (koreksi kesalahan)

Saya akan memperbaiki kesalahan besar saya dan menganalisis ulang dengan benar sesuai isi video.

Juara "rasio harga terhadap performa (Cost/T)": NVIDIA "Spark" (GB10)  

    Cost/T (value for money): 4,33 juta won/T  

    Seperti yang ditunjukkan dalam video Hardware Unboxed, sistem 'Spark' seharga $3999 memberikan performa inferensi LLM (T/s) yang jauh lebih tinggi dibanding sistem 'Strix Halo' seharga $2000.  

    Karena itu, biaya pembangunan sistem per token (Cost/T) menjadi yang paling murah di antara semua opsi, sehingga menjadi juara 'value for money'.  

    T/W (efisiensi daya) juga berada di 0.30, jauh lebih efisien dibanding konfigurasi multi-GPU.  

Juara "anggaran absolut": AMD Strix Halo (128GB)  

    Cost/T (value for money): 8,67 juta won/T  

    Nilai sistem ini bukan pada kecepatan absolutnya (30 T/s), melainkan pada fakta bahwa dengan **sekitar 2,6 juta won ($2000)** Anda bisa masuk ke lingkungan VRAM 128GB dengan 'biaya terendah' yang sangat menonjol.  

    Seperti yang telah dikonfirmasi dalam video bahwa performanya melampaui M3 Max, ini adalah opsi 'entry-level' yang sangat baik bagi pengembang individu.  

Juara "kecepatan absolut": 4 x RTX 5080 32GB  

    T/s (kecepatan): 240 T/s  

    Sistem terintegrasi seperti 'Spark' atau 'Strix Halo' memang kuat untuk inferensi, tetapi mungkin memiliki keterbatasan untuk melakukan 'fine-tuning' model secara langsung.  

    Jika Anda menginginkan kecepatan inferensi tercepat sekaligus fleksibilitas untuk melatih/memodifikasi model secara langsung, maka konfigurasi multi-GPU terpisah (4 x 5080) tetap menjadi opsi paling kuat.

popopo 2025-11-10

Dalam anggaran di bawah 4K, ada video yang menunjukkan bahwa quad 3090 memiliki performa jauh lebih unggul dibanding DGX Spark

https://www.youtube.com/watch?v=md6a4ENM9pg

Ada juga argumen bahwa Strix Halo adalah pembelian yang buruk sebagai mesin untuk menjalankan Local LLM

https://reddit.com/r/LocalLLaMA/…

Tampaknya argumen utamanya adalah bahwa konsumsi daya sulit dijadikan kriteria penting, dan karena bandwidth, model besar tetap tidak bisa dimanfaatkan dengan baik meskipun dimuat ke memori...

Berbagi pengalaman merakit mesin LLM lokal di rumah

Bacaan terkait

9 komentar