- Raspberry Pi 5 diuji menjalankan GPU AMD, Intel, dan Nvidia lalu dibandingkan dengan PC desktop, dan dalam banyak kasus ditemukan penurunan performa hanya sekitar 2~5%
- Empat kategori diuji, yaitu transcoding Jellyfin, rendering GravityMark, inferensi LLM/AI, dan konfigurasi multi-GPU, untuk mengukur efisiensi serta performa per biaya
- Pada kasus yang menghubungkan 4 Nvidia RTX A5000, perbedaan performa terhadap server Intel berada dalam 2%, dengan berbagi memori antargPU melalui switch PCIe sebagai faktor kunci
- Total biaya sistem eGPU Raspberry Pi sekitar $350~400, sedangkan PC sekitar $1500~2000, dan konsumsi daya Pi juga jauh lebih rendah (idle 4~5W vs 30W)
- Ini menjadi bukti potensi Raspberry Pi sebagai platform alternatif berdaya rendah dan berbiaya rendah untuk memanfaatkan GPU besar secara efisien
Gambaran eksperimen
- Memverifikasi kemungkinan pemanfaatan GPU pada Raspberry Pi 5 meski memiliki keterbatasan bandwidth PCIe Gen 3 x1 (8 GT/s)
- Pembandingnya adalah PC desktop terbaru (PCIe Gen 5 x16, 512 GT/s)
- Item pengujian meliputi transcoding media (Jellyfin), rendering GPU (GravityMark), kinerja LLM/AI, dan konfigurasi multi-GPU
- Eksperimen menjalankan 2 GPU secara bersamaan dilakukan menggunakan switch eksternal PCIe Gen 4 dan backplane 3-slot dari Dolphin ICS
Kasus Raspberry Pi dengan 4 GPU terhubung
- Pengguna GitHub mpsparrow menghubungkan 4 GPU Nvidia RTX A5000 ke satu Pi
- Saat menjalankan model Llama 3 70B, selisih performa terhadap server Intel berada dalam 2% (11.83 vs 12 tokens/sec)
- Switch PCIe memungkinkan berbagi memori antar-GPU, sehingga membypass keterbatasan bandwidth Pi
- Bahkan pada konfigurasi GPU tunggal, untuk beberapa pekerjaan ditemukan performa setara atau lebih baik dari desktop
Perbandingan biaya dan efisiensi
- Konfigurasi eGPU Raspberry Pi: sekitar $350~400, konfigurasi Intel PC: sekitar $1500~2000
- Konsumsi daya idle: Pi 4~5W, PC 30W
- Dengan GPU dikecualikan, pada kondisi yang sama efisiensi biaya dan daya sama-sama lebih unggul di Pi
Benchmark transcoding Jellyfin
- Saat menggunakan Nvidia 4070 Ti, PC unggul dalam throughput mentah (2GB/s)
- Pi berada di kisaran PCIe 850MB/s dan USB SSD 300MB/s
- Namun untuk streaming media H.264/H.265, Pi juga dapat menangani transcoding 1080p dan 4K dengan lancar
- Mendukung encoding hardware NVENC, dan 2 transcoding simultan juga stabil
- GPU AMD mengalami beberapa masalah pada stabilitas transcoding
Uji rendering GravityMark
- Pengujian berfokus pada GPU AMD, dan PC sedikit lebih cepat tetapi selisihnya kecil
- Saat menggunakan RX 460, Pi mencatat efisiensi lebih tinggi (performa/W) dibanding PC
- Pada GPU lama dengan bandwidth PCIe Gen 3 yang sama, Pi memperoleh keunggulan relatif
Perbandingan kinerja AI dan LLM
- Pada pengujian AMD Radeon AI Pro R9700 (32GB VRAM), performanya lebih rendah dari perkiraan, kemungkinan karena masalah driver atau pengaturan BAR
- Saat menggunakan Nvidia RTX 3060 (12GB), pada model Llama 2 13B Pi lebih cepat daripada PC
- Hasil pengukuran efisiensi menunjukkan Pi lebih unggul daripada PC dalam throughput per daya
- Bahkan pada pengujian RTX 4090, untuk model besar (Qwen3 30B) selisih performa berada dalam 5%, dan dalam banyak kasus efisiensinya lebih baik di Pi
- Baik backend CUDA maupun backend Vulkan berjalan normal di Pi
Eksperimen konfigurasi dual GPU
- Menggunakan board interkoneksi PCIe Dolphin dan MXH932 HBA
- Dengan ACS dinonaktifkan, akses memori langsung antargPU dimungkinkan
- Pada kombinasi model GPU berbeda (4070, A4000), pooling VRAM tidak didukung, sehingga peningkatan performa terbatas
- Pada konfigurasi GPU yang sama, model yang lebih besar (seperti Qwen3 30B) dapat dijalankan
- Kombinasi AMD RX 7900 XT + R9700 gagal menjalankan sebagian model karena masalah driver
- Intel PC secara umum lebih cepat, tetapi Pi tetap mempertahankan performa yang mendekati pada model besar
Kesimpulan
- Dalam hal performa absolut dan kemudahan penggunaan, PC tetap unggul
- Namun untuk workload yang berpusat pada GPU dan lingkungan berdaya rendah serta berbiaya rendah, Raspberry Pi adalah alternatif yang praktis
- Penghematan daya idle 20~30W, dan SBC berbasis Rockchip atau Qualcomm dapat menawarkan efisiensi serta bandwidth I/O yang lebih tinggi
- Tujuan eksperimen ini adalah mempelajari batasan Pi dan struktur komputasi GPU, dan dalam prosesnya mengonfirmasi potensi sistem berukuran kecil
Belum ada komentar.