GPU besar tidak membutuhkan PC besar
(jeffgeerling.com)- Raspberry Pi 5 diuji menjalankan GPU AMD, Intel, dan Nvidia lalu dibandingkan dengan PC desktop, dan dalam banyak kasus ditemukan penurunan performa hanya sekitar 2~5%
- Empat kategori diuji, yaitu transcoding Jellyfin, rendering GravityMark, inferensi LLM/AI, dan konfigurasi multi-GPU, untuk mengukur efisiensi serta performa per biaya
- Pada kasus yang menghubungkan 4 Nvidia RTX A5000, perbedaan performa terhadap server Intel berada dalam 2%, dengan berbagi memori antargPU melalui switch PCIe sebagai faktor kunci
- Total biaya sistem eGPU Raspberry Pi sekitar $350~400, sedangkan PC sekitar $1500~2000, dan konsumsi daya Pi juga jauh lebih rendah (idle 4~5W vs 30W)
- Ini menjadi bukti potensi Raspberry Pi sebagai platform alternatif berdaya rendah dan berbiaya rendah untuk memanfaatkan GPU besar secara efisien
Gambaran eksperimen
- Memverifikasi kemungkinan pemanfaatan GPU pada Raspberry Pi 5 meski memiliki keterbatasan bandwidth PCIe Gen 3 x1 (8 GT/s)
- Pembandingnya adalah PC desktop terbaru (PCIe Gen 5 x16, 512 GT/s)
- Item pengujian meliputi transcoding media (Jellyfin), rendering GPU (GravityMark), kinerja LLM/AI, dan konfigurasi multi-GPU
- Eksperimen menjalankan 2 GPU secara bersamaan dilakukan menggunakan switch eksternal PCIe Gen 4 dan backplane 3-slot dari Dolphin ICS
Kasus Raspberry Pi dengan 4 GPU terhubung
- Pengguna GitHub mpsparrow menghubungkan 4 GPU Nvidia RTX A5000 ke satu Pi
- Saat menjalankan model Llama 3 70B, selisih performa terhadap server Intel berada dalam 2% (11.83 vs 12 tokens/sec)
- Switch PCIe memungkinkan berbagi memori antar-GPU, sehingga membypass keterbatasan bandwidth Pi
- Bahkan pada konfigurasi GPU tunggal, untuk beberapa pekerjaan ditemukan performa setara atau lebih baik dari desktop
Perbandingan biaya dan efisiensi
- Konfigurasi eGPU Raspberry Pi: sekitar $350~400, konfigurasi Intel PC: sekitar $1500~2000
- Konsumsi daya idle: Pi 4~5W, PC 30W
- Dengan GPU dikecualikan, pada kondisi yang sama efisiensi biaya dan daya sama-sama lebih unggul di Pi
Benchmark transcoding Jellyfin
- Saat menggunakan Nvidia 4070 Ti, PC unggul dalam throughput mentah (2GB/s)
- Pi berada di kisaran PCIe 850MB/s dan USB SSD 300MB/s
- Namun untuk streaming media H.264/H.265, Pi juga dapat menangani transcoding 1080p dan 4K dengan lancar
- Mendukung encoding hardware NVENC, dan 2 transcoding simultan juga stabil
- GPU AMD mengalami beberapa masalah pada stabilitas transcoding
Uji rendering GravityMark
- Pengujian berfokus pada GPU AMD, dan PC sedikit lebih cepat tetapi selisihnya kecil
- Saat menggunakan RX 460, Pi mencatat efisiensi lebih tinggi (performa/W) dibanding PC
- Pada GPU lama dengan bandwidth PCIe Gen 3 yang sama, Pi memperoleh keunggulan relatif
Perbandingan kinerja AI dan LLM
- Pada pengujian AMD Radeon AI Pro R9700 (32GB VRAM), performanya lebih rendah dari perkiraan, kemungkinan karena masalah driver atau pengaturan BAR
- Saat menggunakan Nvidia RTX 3060 (12GB), pada model Llama 2 13B Pi lebih cepat daripada PC
- Hasil pengukuran efisiensi menunjukkan Pi lebih unggul daripada PC dalam throughput per daya
- Bahkan pada pengujian RTX 4090, untuk model besar (Qwen3 30B) selisih performa berada dalam 5%, dan dalam banyak kasus efisiensinya lebih baik di Pi
- Baik backend CUDA maupun backend Vulkan berjalan normal di Pi
Eksperimen konfigurasi dual GPU
- Menggunakan board interkoneksi PCIe Dolphin dan MXH932 HBA
- Dengan ACS dinonaktifkan, akses memori langsung antargPU dimungkinkan
- Pada kombinasi model GPU berbeda (4070, A4000), pooling VRAM tidak didukung, sehingga peningkatan performa terbatas
- Pada konfigurasi GPU yang sama, model yang lebih besar (seperti Qwen3 30B) dapat dijalankan
- Kombinasi AMD RX 7900 XT + R9700 gagal menjalankan sebagian model karena masalah driver
- Intel PC secara umum lebih cepat, tetapi Pi tetap mempertahankan performa yang mendekati pada model besar
Kesimpulan
- Dalam hal performa absolut dan kemudahan penggunaan, PC tetap unggul
- Namun untuk workload yang berpusat pada GPU dan lingkungan berdaya rendah serta berbiaya rendah, Raspberry Pi adalah alternatif yang praktis
- Penghematan daya idle 20~30W, dan SBC berbasis Rockchip atau Qualcomm dapat menawarkan efisiensi serta bandwidth I/O yang lebih tinggi
- Tujuan eksperimen ini adalah mempelajari batasan Pi dan struktur komputasi GPU, dan dalam prosesnya mengonfirmasi potensi sistem berukuran kecil
1 komentar
Komentar Hacker News
Untuk menjalankan LLM secara lokal, pada akhirnya GPU adalah inti utamanya
Jadi saya sedang memikirkan apa komputer termurah yang bisa dipasangkan di samping GPU
Saya tidak punya kemampuan untuk memahami atau memperbaiki masalah seperti BAR, jadi saya hanya membuat kotak x86 murah dengan GPU yang lumayan dan memakainya
Tapi saya tetap tidak bisa menghilangkan pikiran bahwa mungkin masih ada cara yang lebih efisien
Situsnya ada di inferbench.com, dan kode sumbernya ada di repositori GitHub
Saya rasa GPU memerlukan setidaknya 128GB RAM
Performa CPU boleh rendah, tetapi karena harus mendukung banyak lane PCIe, CPU server kelas bawah seperti AMD EPYC cocok untuk ini
Itu cukup cocok untuk LLM berukuran menengah
Saya tidak paham kenapa bagian multi-GPU dianggap mengejutkan
Sebagian besar framework LLM (misalnya llama.cpp) membagi model per layer, sehingga muncul ketergantungan berurutan dan pekerjaan tidak benar-benar berjalan paralel meskipun memakai beberapa GPU
Beberapa GPU juga lebih cepat untuk pemrosesan prompt, sementara GPU lain lebih cepat untuk pembuatan token, jadi kadang mencampur Radeon dan NVIDIA bisa membantu
Peningkatan performa yang sesungguhnya bisa didapat dari backend seperti mode tensor parallel
Ini adalah cara membagi jaringan saraf mengikuti arah aliran data, jadi koneksi antar-GPU (PCIe x16, NVlink, Infinity Fabric, dan sebagainya) harus bagus
Tanpa itu, utilisasi GPU kadang terlihat naik-turun tidak stabil
Menarik juga memikirkan cara membagi LLM agar beberapa pekerjaan bisa dijalankan paralel, misalnya dengan struktur agen yang membagi peran menjadi “manajer” dan “insinyur”
Model manajer membuat prompt, lalu model bawahan mengerjakan tugas secara paralel dan mengembalikan hasilnya
Kenyataannya, ukurannya membesar menjadi tingkat megabyte tergantung panjang sekuens
Misalnya, jika hidden state Qwen3 30B adalah 5120, maka dengan kuantisasi 8-bit ukurannya 5120 byte per token
Begitu melewati 200 token saja, ukurannya sudah menjadi skala MB
Bahkan bandwidth PCIe x1 (sekitar 2GB/s) pun cukup, tetapi latensi bisa menjadi masalah yang lebih besar
Senang sekali ada yang mau melakukan eksperimen seperti ini
Saya juga pernah memakai eGPU yang dihubungkan ke laptop cadangan, sambil berpikir, “apa ini bisa dilakukan juga dengan Raspberry Pi?”
Saya rasa akan menarik juga kalau performa gaming ikut diuji
Hanya saja, sulit menemukan game AAA yang mendukung ARM, dan memaksa emulasi x86 dengan FEX rasanya tidak adil
Saat memakai constrained decoding (berbasis skema JSON), penggunaan CPU naik sampai 100%
Saya juga melihat gejala yang sama pada instance vLLM saya
PCIe 3.0 menghasilkan sekitar 1GB/s per lane, setara dengan kecepatan Ethernet 10Gb
Mungkin pada akhirnya akan datang hari ketika GPU bisa berjalan mandiri tanpa sistem host
Sudah ada contoh seperti Radeon Pro SSG yang memasang SSD langsung ke GPU,
dan chip RISC-V kecil atau pengendali sekelas Raspberry Pi mungkin saja sudah cukup
Artikel terkait: TechPowerUp
Struktur di mana GPU terhubung langsung ke switch jaringan dan berkomunikasi lewat 400Gbe atau komunikasi berbasis CXL terdengar realistis
Selain itu, teknologi flash generasi berikutnya seperti High Bandwidth Flash juga bisa saja menggantikan DRAM
Artikel terkait: ServeTheHome, Tom’s Hardware
Melihat titik data seperti ini membuat saya memikirkan ulang konfigurasi PC utama saya
Mini PC seharga 300 dolar yang berjalan di bawah 20W sepertinya sudah cukup
Untuk menjelajah web, menonton video, dan bermain game ringan itu lebih dari memadai,
sementara pekerjaan berat bisa dikerjakan dengan masuk jarak jauh ke workstation
Hanya dengan 1 vCPU dan 4GB RAM saja sudah cukup untuk browsing dan proyek hobi
Sepertinya para produsen perangkat keras telah membesar-besarkan dalam iklan bahwa “profesional butuh laptop berperforma tinggi”
Perbedaan TDP memberi dampak besar pada selisih performa
Menaruh perangkat berperforma tinggi di ruang kedap suara juga membuat semuanya lebih nyaman
Saya mempertanyakan kenapa struktur PCI/CPU itu sendiri masih diperlukan
Menempatkan CPU dan MPP dalam paket yang sama seperti Apple dan NVIDIA tampaknya adalah arah yang benar
tetapi untuk komputasi skala besar seperti AI atau HPC, mungkin tidak menghasilkan perbedaan yang besar