GPU besar tidak membutuhkan PC besar

(jeffgeerling.com)

9 poin oleh GN⁺ 2025-12-21 | 1 komentar | Bagikan ke WhatsApp

Raspberry Pi 5 diuji menjalankan GPU AMD, Intel, dan Nvidia lalu dibandingkan dengan PC desktop, dan dalam banyak kasus ditemukan penurunan performa hanya sekitar 2~5%
Empat kategori diuji, yaitu transcoding Jellyfin, rendering GravityMark, inferensi LLM/AI, dan konfigurasi multi-GPU, untuk mengukur efisiensi serta performa per biaya
Pada kasus yang menghubungkan 4 Nvidia RTX A5000, perbedaan performa terhadap server Intel berada dalam 2%, dengan berbagi memori antargPU melalui switch PCIe sebagai faktor kunci
Total biaya sistem eGPU Raspberry Pi sekitar $350~400, sedangkan PC sekitar $1500~2000, dan konsumsi daya Pi juga jauh lebih rendah (idle 4~5W vs 30W)
Ini menjadi bukti potensi Raspberry Pi sebagai platform alternatif berdaya rendah dan berbiaya rendah untuk memanfaatkan GPU besar secara efisien

Gambaran eksperimen

Memverifikasi kemungkinan pemanfaatan GPU pada Raspberry Pi 5 meski memiliki keterbatasan bandwidth PCIe Gen 3 x1 (8 GT/s)
- Pembandingnya adalah PC desktop terbaru (PCIe Gen 5 x16, 512 GT/s)
Item pengujian meliputi transcoding media (Jellyfin), rendering GPU (GravityMark), kinerja LLM/AI, dan konfigurasi multi-GPU
Eksperimen menjalankan 2 GPU secara bersamaan dilakukan menggunakan switch eksternal PCIe Gen 4 dan backplane 3-slot dari Dolphin ICS

Kasus Raspberry Pi dengan 4 GPU terhubung

Pengguna GitHub mpsparrow menghubungkan 4 GPU Nvidia RTX A5000 ke satu Pi
- Saat menjalankan model Llama 3 70B, selisih performa terhadap server Intel berada dalam 2% (11.83 vs 12 tokens/sec)
Switch PCIe memungkinkan berbagi memori antar-GPU, sehingga membypass keterbatasan bandwidth Pi
Bahkan pada konfigurasi GPU tunggal, untuk beberapa pekerjaan ditemukan performa setara atau lebih baik dari desktop

Perbandingan biaya dan efisiensi

Konfigurasi eGPU Raspberry Pi: sekitar $350~400, konfigurasi Intel PC: sekitar $1500~2000
Konsumsi daya idle: Pi 4~5W, PC 30W
Dengan GPU dikecualikan, pada kondisi yang sama efisiensi biaya dan daya sama-sama lebih unggul di Pi

Benchmark transcoding Jellyfin

Saat menggunakan Nvidia 4070 Ti, PC unggul dalam throughput mentah (2GB/s)
- Pi berada di kisaran PCIe 850MB/s dan USB SSD 300MB/s
Namun untuk streaming media H.264/H.265, Pi juga dapat menangani transcoding 1080p dan 4K dengan lancar
- Mendukung encoding hardware NVENC, dan 2 transcoding simultan juga stabil
GPU AMD mengalami beberapa masalah pada stabilitas transcoding

Uji rendering GravityMark

Pengujian berfokus pada GPU AMD, dan PC sedikit lebih cepat tetapi selisihnya kecil
Saat menggunakan RX 460, Pi mencatat efisiensi lebih tinggi (performa/W) dibanding PC
Pada GPU lama dengan bandwidth PCIe Gen 3 yang sama, Pi memperoleh keunggulan relatif

Perbandingan kinerja AI dan LLM

Pada pengujian AMD Radeon AI Pro R9700 (32GB VRAM), performanya lebih rendah dari perkiraan, kemungkinan karena masalah driver atau pengaturan BAR
Saat menggunakan Nvidia RTX 3060 (12GB), pada model Llama 2 13B Pi lebih cepat daripada PC
Hasil pengukuran efisiensi menunjukkan Pi lebih unggul daripada PC dalam throughput per daya
Bahkan pada pengujian RTX 4090, untuk model besar (Qwen3 30B) selisih performa berada dalam 5%, dan dalam banyak kasus efisiensinya lebih baik di Pi
Baik backend CUDA maupun backend Vulkan berjalan normal di Pi

Eksperimen konfigurasi dual GPU

Menggunakan board interkoneksi PCIe Dolphin dan MXH932 HBA
Dengan ACS dinonaktifkan, akses memori langsung antargPU dimungkinkan
Pada kombinasi model GPU berbeda (4070, A4000), pooling VRAM tidak didukung, sehingga peningkatan performa terbatas
Pada konfigurasi GPU yang sama, model yang lebih besar (seperti Qwen3 30B) dapat dijalankan
Kombinasi AMD RX 7900 XT + R9700 gagal menjalankan sebagian model karena masalah driver
Intel PC secara umum lebih cepat, tetapi Pi tetap mempertahankan performa yang mendekati pada model besar

Kesimpulan

Dalam hal performa absolut dan kemudahan penggunaan, PC tetap unggul
Namun untuk workload yang berpusat pada GPU dan lingkungan berdaya rendah serta berbiaya rendah, Raspberry Pi adalah alternatif yang praktis
Penghematan daya idle 20~30W, dan SBC berbasis Rockchip atau Qualcomm dapat menawarkan efisiensi serta bandwidth I/O yang lebih tinggi
Tujuan eksperimen ini adalah mempelajari batasan Pi dan struktur komputasi GPU, dan dalam prosesnya mengonfirmasi potensi sistem berukuran kecil

1 komentar

GN⁺ 2025-12-21

Komentar Hacker News

Untuk menjalankan LLM secara lokal, pada akhirnya GPU adalah inti utamanya
Jadi saya sedang memikirkan apa komputer termurah yang bisa dipasangkan di samping GPU
Saya tidak punya kemampuan untuk memahami atau memperbaiki masalah seperti BAR, jadi saya hanya membuat kotak x86 murah dengan GPU yang lumayan dan memakainya
Tapi saya tetap tidak bisa menghilangkan pikiran bahwa mungkin masih ada cara yang lebih efisien
- Saya menjalankan situs crowdsourcing untuk mengumpulkan kombinasi perangkat keras optimal untuk LLM lokal
  Situsnya ada di inferbench.com, dan kode sumbernya ada di repositori GitHub
- Untuk saat ini, sulit mendapatkan performa yang benar-benar berarti dengan satu perangkat PCIe saja
  Saya rasa GPU memerlukan setidaknya 128GB RAM
  Performa CPU boleh rendah, tetapi karena harus mendukung banyak lane PCIe, CPU server kelas bawah seperti AMD EPYC cocok untuk ini
- Apakah Anda belum mempertimbangkan memakai Apple silicon seperti M4 Max atau M3 Ultra?
  Itu cukup cocok untuk LLM berukuran menengah
- Sistem yang Anda maksud pada dasarnya adalah peran yang dijalankan oleh DGX Spark
Saya tidak paham kenapa bagian multi-GPU dianggap mengejutkan
Sebagian besar framework LLM (misalnya llama.cpp) membagi model per layer, sehingga muncul ketergantungan berurutan dan pekerjaan tidak benar-benar berjalan paralel meskipun memakai beberapa GPU
Beberapa GPU juga lebih cepat untuk pemrosesan prompt, sementara GPU lain lebih cepat untuk pembuatan token, jadi kadang mencampur Radeon dan NVIDIA bisa membantu
Peningkatan performa yang sesungguhnya bisa didapat dari backend seperti mode tensor parallel
Ini adalah cara membagi jaringan saraf mengikuti arah aliran data, jadi koneksi antar-GPU (PCIe x16, NVlink, Infinity Fabric, dan sebagainya) harus bagus
Tanpa itu, utilisasi GPU kadang terlihat naik-turun tidak stabil
Menarik juga memikirkan cara membagi LLM agar beberapa pekerjaan bisa dijalankan paralel, misalnya dengan struktur agen yang membagi peran menjadi “manajer” dan “insinyur”
- Betul, itu memang konsep dari sistem agen
  Model manajer membuat prompt, lalu model bawahan mengerjakan tugas secara paralel dan mengembalikan hasilnya
- Pernyataan bahwa ukuran transfer antar-layer hanya tingkat kilobyte itu berlebihan
  Kenyataannya, ukurannya membesar menjadi tingkat megabyte tergantung panjang sekuens
  Misalnya, jika hidden state Qwen3 30B adalah 5120, maka dengan kuantisasi 8-bit ukurannya 5120 byte per token
  Begitu melewati 200 token saja, ukurannya sudah menjadi skala MB
  Bahkan bandwidth PCIe x1 (sekitar 2GB/s) pun cukup, tetapi latensi bisa menjadi masalah yang lebih besar
Senang sekali ada yang mau melakukan eksperimen seperti ini
Saya juga pernah memakai eGPU yang dihubungkan ke laptop cadangan, sambil berpikir, “apa ini bisa dilakukan juga dengan Raspberry Pi?”
Saya rasa akan menarik juga kalau performa gaming ikut diuji
Hanya saja, sulit menemukan game AAA yang mendukung ARM, dan memaksa emulasi x86 dengan FEX rasanya tidak adil
- Kuncinya sepertinya adalah mencari game yang tidak terkena bottleneck CPU
Saat memakai constrained decoding (berbasis skema JSON), penggunaan CPU naik sampai 100%
Saya juga melihat gejala yang sama pada instance vLLM saya
PCIe 3.0 menghasilkan sekitar 1GB/s per lane, setara dengan kecepatan Ethernet 10Gb
Mungkin pada akhirnya akan datang hari ketika GPU bisa berjalan mandiri tanpa sistem host
Sudah ada contoh seperti Radeon Pro SSG yang memasang SSD langsung ke GPU,
dan chip RISC-V kecil atau pengendali sekelas Raspberry Pi mungkin saja sudah cukup
Artikel terkait: TechPowerUp
Struktur di mana GPU terhubung langsung ke switch jaringan dan berkomunikasi lewat 400Gbe atau komunikasi berbasis CXL terdengar realistis
Selain itu, teknologi flash generasi berikutnya seperti High Bandwidth Flash juga bisa saja menggantikan DRAM
Artikel terkait: ServeTheHome, Tom’s Hardware
Melihat titik data seperti ini membuat saya memikirkan ulang konfigurasi PC utama saya
Mini PC seharga 300 dolar yang berjalan di bawah 20W sepertinya sudah cukup
Untuk menjelajah web, menonton video, dan bermain game ringan itu lebih dari memadai,
sementara pekerjaan berat bisa dikerjakan dengan masuk jarak jauh ke workstation
- Saya sedang bereksperimen dengan kombinasi Proxmox VM + eGPU
  Hanya dengan 1 vCPU dan 4GB RAM saja sudah cukup untuk browsing dan proyek hobi
  Sepertinya para produsen perangkat keras telah membesar-besarkan dalam iklan bahwa “profesional butuh laptop berperforma tinggi”
- Saat saya beralih dari mini PC Ryzen 8-core ke desktop 8-core, kecepatan unit test meningkat jauh
  Perbedaan TDP memberi dampak besar pada selisih performa
- Saya juga memakai mini PC Beelink, dan meja jadi lebih rapi
  Menaruh perangkat berperforma tinggi di ruang kedap suara juga membuat semuanya lebih nyaman
Saya mempertanyakan kenapa struktur PCI/CPU itu sendiri masih diperlukan
Menempatkan CPU dan MPP dalam paket yang sama seperti Apple dan NVIDIA tampaknya adalah arah yang benar
- Pendekatan itu memang menguntungkan untuk pekerjaan yang sensitif terhadap latensi,
  tetapi untuk komputasi skala besar seperti AI atau HPC, mungkin tidak menghasilkan perbedaan yang besar

GPU besar tidak membutuhkan PC besar

Gambaran eksperimen

Kasus Raspberry Pi dengan 4 GPU terhubung

Perbandingan biaya dan efisiensi

Benchmark transcoding Jellyfin

Uji rendering GravityMark

Perbandingan kinerja AI dan LLM

Eksperimen konfigurasi dual GPU

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News