9 poin oleh GN⁺ 2025-12-21 | 1 komentar | Bagikan ke WhatsApp
  • Raspberry Pi 5 diuji menjalankan GPU AMD, Intel, dan Nvidia lalu dibandingkan dengan PC desktop, dan dalam banyak kasus ditemukan penurunan performa hanya sekitar 2~5%
  • Empat kategori diuji, yaitu transcoding Jellyfin, rendering GravityMark, inferensi LLM/AI, dan konfigurasi multi-GPU, untuk mengukur efisiensi serta performa per biaya
  • Pada kasus yang menghubungkan 4 Nvidia RTX A5000, perbedaan performa terhadap server Intel berada dalam 2%, dengan berbagi memori antargPU melalui switch PCIe sebagai faktor kunci
  • Total biaya sistem eGPU Raspberry Pi sekitar $350~400, sedangkan PC sekitar $1500~2000, dan konsumsi daya Pi juga jauh lebih rendah (idle 4~5W vs 30W)
  • Ini menjadi bukti potensi Raspberry Pi sebagai platform alternatif berdaya rendah dan berbiaya rendah untuk memanfaatkan GPU besar secara efisien

Gambaran eksperimen

  • Memverifikasi kemungkinan pemanfaatan GPU pada Raspberry Pi 5 meski memiliki keterbatasan bandwidth PCIe Gen 3 x1 (8 GT/s)
    • Pembandingnya adalah PC desktop terbaru (PCIe Gen 5 x16, 512 GT/s)
  • Item pengujian meliputi transcoding media (Jellyfin), rendering GPU (GravityMark), kinerja LLM/AI, dan konfigurasi multi-GPU
  • Eksperimen menjalankan 2 GPU secara bersamaan dilakukan menggunakan switch eksternal PCIe Gen 4 dan backplane 3-slot dari Dolphin ICS

Kasus Raspberry Pi dengan 4 GPU terhubung

  • Pengguna GitHub mpsparrow menghubungkan 4 GPU Nvidia RTX A5000 ke satu Pi
    • Saat menjalankan model Llama 3 70B, selisih performa terhadap server Intel berada dalam 2% (11.83 vs 12 tokens/sec)
    Iklan
  • Switch PCIe memungkinkan berbagi memori antar-GPU, sehingga membypass keterbatasan bandwidth Pi
  • Bahkan pada konfigurasi GPU tunggal, untuk beberapa pekerjaan ditemukan performa setara atau lebih baik dari desktop

Perbandingan biaya dan efisiensi

  • Konfigurasi eGPU Raspberry Pi: sekitar $350~400, konfigurasi Intel PC: sekitar $1500~2000
  • Konsumsi daya idle: Pi 4~5W, PC 30W
  • Dengan GPU dikecualikan, pada kondisi yang sama efisiensi biaya dan daya sama-sama lebih unggul di Pi

Benchmark transcoding Jellyfin

  • Saat menggunakan Nvidia 4070 Ti, PC unggul dalam throughput mentah (2GB/s)
    • Pi berada di kisaran PCIe 850MB/s dan USB SSD 300MB/s
  • Namun untuk streaming media H.264/H.265, Pi juga dapat menangani transcoding 1080p dan 4K dengan lancar
    • Mendukung encoding hardware NVENC, dan 2 transcoding simultan juga stabil
  • GPU AMD mengalami beberapa masalah pada stabilitas transcoding
Iklan

Uji rendering GravityMark

  • Pengujian berfokus pada GPU AMD, dan PC sedikit lebih cepat tetapi selisihnya kecil
  • Saat menggunakan RX 460, Pi mencatat efisiensi lebih tinggi (performa/W) dibanding PC
  • Pada GPU lama dengan bandwidth PCIe Gen 3 yang sama, Pi memperoleh keunggulan relatif

Perbandingan kinerja AI dan LLM

  • Pada pengujian AMD Radeon AI Pro R9700 (32GB VRAM), performanya lebih rendah dari perkiraan, kemungkinan karena masalah driver atau pengaturan BAR
  • Saat menggunakan Nvidia RTX 3060 (12GB), pada model Llama 2 13B Pi lebih cepat daripada PC
  • Hasil pengukuran efisiensi menunjukkan Pi lebih unggul daripada PC dalam throughput per daya
  • Bahkan pada pengujian RTX 4090, untuk model besar (Qwen3 30B) selisih performa berada dalam 5%, dan dalam banyak kasus efisiensinya lebih baik di Pi
  • Baik backend CUDA maupun backend Vulkan berjalan normal di Pi

Eksperimen konfigurasi dual GPU

  • Menggunakan board interkoneksi PCIe Dolphin dan MXH932 HBA
  • Dengan ACS dinonaktifkan, akses memori langsung antargPU dimungkinkan
  • Pada kombinasi model GPU berbeda (4070, A4000), pooling VRAM tidak didukung, sehingga peningkatan performa terbatas
  • Pada konfigurasi GPU yang sama, model yang lebih besar (seperti Qwen3 30B) dapat dijalankan
  • Kombinasi AMD RX 7900 XT + R9700 gagal menjalankan sebagian model karena masalah driver
  • Intel PC secara umum lebih cepat, tetapi Pi tetap mempertahankan performa yang mendekati pada model besar

Kesimpulan

  • Dalam hal performa absolut dan kemudahan penggunaan, PC tetap unggul
  • Namun untuk workload yang berpusat pada GPU dan lingkungan berdaya rendah serta berbiaya rendah, Raspberry Pi adalah alternatif yang praktis
  • Penghematan daya idle 20~30W, dan SBC berbasis Rockchip atau Qualcomm dapat menawarkan efisiensi serta bandwidth I/O yang lebih tinggi
  • Tujuan eksperimen ini adalah mempelajari batasan Pi dan struktur komputasi GPU, dan dalam prosesnya mengonfirmasi potensi sistem berukuran kecil

1 komentar

 
GN⁺ 2025-12-21
Komentar Hacker News
  • Untuk menjalankan LLM secara lokal, pada akhirnya GPU adalah inti utamanya
    Jadi saya sedang memikirkan apa komputer termurah yang bisa dipasangkan di samping GPU
    Saya tidak punya kemampuan untuk memahami atau memperbaiki masalah seperti BAR, jadi saya hanya membuat kotak x86 murah dengan GPU yang lumayan dan memakainya
    Tapi saya tetap tidak bisa menghilangkan pikiran bahwa mungkin masih ada cara yang lebih efisien

    • Saya menjalankan situs crowdsourcing untuk mengumpulkan kombinasi perangkat keras optimal untuk LLM lokal
      Situsnya ada di inferbench.com, dan kode sumbernya ada di repositori GitHub
    • Untuk saat ini, sulit mendapatkan performa yang benar-benar berarti dengan satu perangkat PCIe saja
      Saya rasa GPU memerlukan setidaknya 128GB RAM
      Performa CPU boleh rendah, tetapi karena harus mendukung banyak lane PCIe, CPU server kelas bawah seperti AMD EPYC cocok untuk ini
    • Apakah Anda belum mempertimbangkan memakai Apple silicon seperti M4 Max atau M3 Ultra?
      Itu cukup cocok untuk LLM berukuran menengah
    • Sistem yang Anda maksud pada dasarnya adalah peran yang dijalankan oleh DGX Spark
  • Saya tidak paham kenapa bagian multi-GPU dianggap mengejutkan
    Sebagian besar framework LLM (misalnya llama.cpp) membagi model per layer, sehingga muncul ketergantungan berurutan dan pekerjaan tidak benar-benar berjalan paralel meskipun memakai beberapa GPU
    Beberapa GPU juga lebih cepat untuk pemrosesan prompt, sementara GPU lain lebih cepat untuk pembuatan token, jadi kadang mencampur Radeon dan NVIDIA bisa membantu
    Peningkatan performa yang sesungguhnya bisa didapat dari backend seperti mode tensor parallel
    Ini adalah cara membagi jaringan saraf mengikuti arah aliran data, jadi koneksi antar-GPU (PCIe x16, NVlink, Infinity Fabric, dan sebagainya) harus bagus
    Tanpa itu, utilisasi GPU kadang terlihat naik-turun tidak stabil
    Menarik juga memikirkan cara membagi LLM agar beberapa pekerjaan bisa dijalankan paralel, misalnya dengan struktur agen yang membagi peran menjadi “manajer” dan “insinyur”

    • Betul, itu memang konsep dari sistem agen
      Model manajer membuat prompt, lalu model bawahan mengerjakan tugas secara paralel dan mengembalikan hasilnya
    • Pernyataan bahwa ukuran transfer antar-layer hanya tingkat kilobyte itu berlebihan
      Kenyataannya, ukurannya membesar menjadi tingkat megabyte tergantung panjang sekuens
      Misalnya, jika hidden state Qwen3 30B adalah 5120, maka dengan kuantisasi 8-bit ukurannya 5120 byte per token
      Begitu melewati 200 token saja, ukurannya sudah menjadi skala MB
      Bahkan bandwidth PCIe x1 (sekitar 2GB/s) pun cukup, tetapi latensi bisa menjadi masalah yang lebih besar
  • Senang sekali ada yang mau melakukan eksperimen seperti ini
    Saya juga pernah memakai eGPU yang dihubungkan ke laptop cadangan, sambil berpikir, “apa ini bisa dilakukan juga dengan Raspberry Pi?”

  • Saya rasa akan menarik juga kalau performa gaming ikut diuji
    Hanya saja, sulit menemukan game AAA yang mendukung ARM, dan memaksa emulasi x86 dengan FEX rasanya tidak adil

    • Kuncinya sepertinya adalah mencari game yang tidak terkena bottleneck CPU
  • Saat memakai constrained decoding (berbasis skema JSON), penggunaan CPU naik sampai 100%
    Saya juga melihat gejala yang sama pada instance vLLM saya

  • PCIe 3.0 menghasilkan sekitar 1GB/s per lane, setara dengan kecepatan Ethernet 10Gb
    Mungkin pada akhirnya akan datang hari ketika GPU bisa berjalan mandiri tanpa sistem host
    Sudah ada contoh seperti Radeon Pro SSG yang memasang SSD langsung ke GPU,
    dan chip RISC-V kecil atau pengendali sekelas Raspberry Pi mungkin saja sudah cukup
    Artikel terkait: TechPowerUp
    Struktur di mana GPU terhubung langsung ke switch jaringan dan berkomunikasi lewat 400Gbe atau komunikasi berbasis CXL terdengar realistis
    Selain itu, teknologi flash generasi berikutnya seperti High Bandwidth Flash juga bisa saja menggantikan DRAM
    Artikel terkait: ServeTheHome, Tom’s Hardware

  • Melihat titik data seperti ini membuat saya memikirkan ulang konfigurasi PC utama saya
    Mini PC seharga 300 dolar yang berjalan di bawah 20W sepertinya sudah cukup
    Untuk menjelajah web, menonton video, dan bermain game ringan itu lebih dari memadai,
    sementara pekerjaan berat bisa dikerjakan dengan masuk jarak jauh ke workstation

    • Saya sedang bereksperimen dengan kombinasi Proxmox VM + eGPU
      Hanya dengan 1 vCPU dan 4GB RAM saja sudah cukup untuk browsing dan proyek hobi
      Sepertinya para produsen perangkat keras telah membesar-besarkan dalam iklan bahwa “profesional butuh laptop berperforma tinggi”
    • Saat saya beralih dari mini PC Ryzen 8-core ke desktop 8-core, kecepatan unit test meningkat jauh
      Perbedaan TDP memberi dampak besar pada selisih performa
    • Saya juga memakai mini PC Beelink, dan meja jadi lebih rapi
      Menaruh perangkat berperforma tinggi di ruang kedap suara juga membuat semuanya lebih nyaman
  • Saya mempertanyakan kenapa struktur PCI/CPU itu sendiri masih diperlukan
    Menempatkan CPU dan MPP dalam paket yang sama seperti Apple dan NVIDIA tampaknya adalah arah yang benar

    • Pendekatan itu memang menguntungkan untuk pekerjaan yang sensitif terhadap latensi,
      tetapi untuk komputasi skala besar seperti AI atau HPC, mungkin tidak menghasilkan perbedaan yang besar