3 poin oleh GN⁺ 2025-09-20 | 5 komentar | Bagikan ke WhatsApp
  • Membangun klaster AI senilai sekitar $3.000 menggunakan 10 Compute Blade Raspberry Pi dan modul CM5, tetapi hasilnya tidak memenuhi harapan dari sisi performa maupun value for money
  • Dalam benchmark HPC, klaster ini mencatat peningkatan performa 10x (325 Gflops) dibanding satu Pi, tetapi hasilnya 4x lebih lambat dibanding klaster desktop Framework
  • Dalam pengujian AI, karena akselerasi GPU tidak didukung, sistem bergantung pada inferensi berbasis CPU, dan saat menjalankan model Llama 70B kecepatan generasi token hanya sekitar 0.85 t/s, sangat rendah
  • Meski begitu, keunggulan seperti daya rendah, kebisingan rendah, dan kepadatan tinggi bisa membuatnya tetap bermakna untuk kebutuhan khusus seperti pekerjaan CI, deployment edge yang menuntut keamanan tinggi, atau node relay Tor
  • Secara keseluruhan, ini memang menarik untuk belajar dan eksperimen, tetapi ditekankan tidak cocok untuk penggunaan AI/HPC umum, dan menjadi contoh yang menunjukkan keterbatasan server blade

Pendahuluan dan gambaran klaster

  • Dua tahun lalu, pada April 2023, penulis memesan 10 Compute Blade, dan baru belakangan semuanya tiba sehingga klaster akhirnya bisa diselesaikan
  • Di tengah waktu tersebut, Raspberry Pi telah di-upgrade dari CM4 ke CM5, sehingga penulis juga memesan 10 modul 16GB CM5 Lite tambahan untuk menyelesaikan konfigurasi dengan total memori 160GB
  • Total biayanya $3.000 (termasuk ongkir), menjadikannya klaster Pi terbesar yang pernah dibuat penulis
  • Untuk komputer blade berbasis Pi, ada juga Xerxes Pi, tetapi karena potensi keterlambatan rilis dan pengiriman cukup besar, dukungan terhadap proyek itu diberikan lebih karena rasa penasaran
  • Penulis ingin mengetahui apakah klaster Pi masih benar-benar layak, dan mencoba memverifikasi nilai investasinya dengan membandingkan performa, kepadatan, dan efisiensi terhadap klaster desktop Framework

Perakitan klaster dan pekerjaan berulang

  • Karena beberapa kali mengalami masalah kompatibilitas SSD dan persoalan panas, klaster ini sampai dirakit ulang tiga kali
    • Perakitan ulang pertama: menggunakan berbagai NVMe SSD tetapi muncul masalah kompatibilitas dan keandalan, lalu semuanya diganti ke SSD Patriot P300 sehingga stabilitas membaik
    • Perakitan ulang kedua: terjadi throttling akibat panas, lalu masalah manajemen termal diselesaikan dengan mengencangkan heatsink dengan kokoh

Hasil benchmark HPC (High Performance Computing)

  • Performa superkomputer diukur dengan benchmark High Performance Linpack (Top500)
    • Sebelum heatsink dipasang, performanya 275 Gflops, lalu naik hingga 325 Gflops setelahnya
    • Angka ini setara 10x performa dibanding satu node CM5 8GB bawaan, dengan konsumsi daya 130W
  • Namun, dibandingkan klaster 4-node Framework Desktop seharga $8.000, klaster Pi ini 4x lebih lambat
  • Dari sisi efisiensi energi (Gflops/W) ada sedikit keunggulan, tetapi performa per harga masih kalah dari klaster Framework
  • Ini bukan solusi yang cocok untuk HPC skala besar

Pengujian kegunaan AI dan keterbatasannya

  • Dengan memori 160GB, penulis mengharapkan sebuah klaster AI, tetapi pada iGPU Pi 5 akselerasi lewat Vulkan tidak bisa digunakan
  • Inferensi AI terbatas pada CPU, dan karena keterbatasan Arm Cortex A76, performa pemrosesan turun cukup besar
  • Untuk model Llama 3.2:3B, satu node hanya mampu memproses sekitar 6 token per detik (relatif lambat)
  • Bahkan ketika seluruh node dipakai untuk memproses model besar (Llama 3.3:70B) secara terdistribusi, kecepatannya tetap hanya 0.28~0.85 token/detik (setidaknya 5~25x lebih lambat daripada klaster Framework)
  • Alat AI terdistribusi lain seperti Exo dan distributed-llama juga tidak cukup stabil atau performanya kurang untuk penggunaan nyata
  • Secara keseluruhan, ini tidak cocok untuk workload AI

Kesimpulan dan usulan penggunaan yang realistis

  • Klaster blade Pi adalah pilihan yang kurang kompetitif dari sisi performa/value for money, dan sulit direkomendasikan selain untuk tujuan belajar, eksperimen, dan hobi
  • Di sisi lain, klaster ini punya keunggulan dalam kemudahan pengelolaan, kebisingan rendah, bentuk ringkas, serta kepadatan dan pemisahan node
  • Secara praktis, ini hanya layak dipertimbangkan secara terbatas untuk pekerjaan CI (continuous integration) atau lingkungan yang membutuhkan isolasi seperti komputasi edge dan keamanan tinggi
  • Unredacted Labs menggunakannya untuk lingkungan dengan node dalam jumlah besar seperti Tor exit relay guna memaksimalkan efisiensi dan kepadatan node
  • Namun, bagi kebanyakan pengguna umum, ada alternatif lain dengan performa dan efisiensi lebih tinggi pada kisaran biaya serupa
  • Produsen Gateworks juga pernah menjual GBlade industri, tetapi tidak berhasil secara komersial dan akhirnya dihentikan
  • Dari sisi pemeliharaan dan kepraktisan, ini memang lebih sederhana dibanding mengoperasikan klaster besar, tetapi sulit direkomendasikan kecuali ada alasan yang sangat spesifik

Daftar komponen yang digunakan

  • (Penulis juga memperkenalkan daftar komponen yang digunakan secara terpisah, tetapi menyebutkan bahwa menyalin konfigurasi serupa persis seperti itu tidak disarankan)

5 komentar

 
euphcat 2025-09-22

Terkait Vulkan, kalau mau lebih tepat, yang benar adalah "Vulkan API yang didukung iGPU Pi 5 masih belum didukung di llama.cpp". Kalau ini sudah didukung, saya juga jadi penasaran performanya bakal seperti apa.

 
GN⁺ 2025-09-20
Komentar Hacker News
  • Untuk yang tertarik pada sistem terdistribusi, saya sangat merekomendasikan mencoba menjalankan 8 mesin virtual di satu mesin tunggal dengan CPU AMD 16-core modern. Cukup alokasikan 4 hyperthread ke tiap VM dan masing-masing 1/8 dari total RAM, lalu buat jaringan virtual di dalam perangkat lunak virtualisasi seperti Proxmox agar bisa merasakan pengalaman klaster. Bahkan, Anda bisa menguji ketahanan sistem dengan menghentikan satu VM sewaktu-waktu hanya dengan satu klik lalu memulihkannya lagi. Cara seperti ini jauh lebih unggul daripada klaster Pi dari sisi perf/W dan kemudahan. Tanpa stres merakit komponen, Anda hanya perlu CPU, motherboard, SSD m.2, dan dua keping RAM. Tentu saja, kalau dijalankan langsung di mesin berkorel tinggi tanpa virtualisasi, perf/W akan paling tinggi, tetapi hal yang sering terlewat dalam benchmark adalah konsumsi daya saat idle. Jika klaster dibiarkan terus menyala dan hanya sesekali dipakai, bagian ini juga sangat penting

    • Saya rasa performa CPU tidak perlu setinggi itu. Quad-core lama pun sudah cukup

    • Ngomong-ngomong soal ini, saya dulu mengira menjalankan program MPI lama di lingkungan seperti workstation multi-chip AMD akan jadi lebih umum, tapi ternyata tidak, dan itu cukup mengejutkan

    • Sebenarnya saya ragu perlu daya CPU sebesar ini. Untuk latihan sistem terdistribusi, bahkan di satu kotak Linux lama atau satu Raspberry Pi saja, cukup instal Erlang lalu buat beberapa node dan itu sudah memadai untuk eksperimen

    • Beberapa tahun lalu saat kelangkaan Raspberry Pi, saya merasa sayang melihat orang-orang mati-matian mencarinya demi membuat klaster mainan seperti ini. Pi awalnya ditujukan untuk pendidikan, tetapi menurut saya dalam praktiknya sering terbuang sia-sia. Saya menjalankan satu "klaster" K8s dengan xcp-ng, dan sebenarnya bisa dibuat jauh lebih sederhana dari itu. Docker Machine juga dulu bisa menyalakan banyak host hanya dengan satu baris. Sepertinya proyek itu sekarang sudah dihentikan, tetapi dengan Docker Swarm penskalaan layanan tetap bisa dilakukan dengan mudah tanpa hypervisor

    • Saya berlatih Postgres hot standby dan read replica dengan cara ini. Saya juga mempelajari klaster Hadoop dan Cassandra dengan pendekatan yang sama. Berkat bisa membicarakan pengalaman mengonfigurasi dan mensimulasikan pemulihan sistem-sistem seperti ini, saya berhasil mendapatkan pekerjaan baru yang menggandakan bahkan melipatgandakan gaji saya. Saya sangat menyarankan latihan seperti ini bagi pengembang yang sudah punya tingkat kemampuan praktik tertentu. Ini sangat membantu untuk naik level dalam karier

  • Ini mengingatkan saya pada sesi NormConf, “Just use one big machine for model training and inference.” Saya merekomendasikan video terkait. Dan makalah klasik lama “Scalability! But at what COST?” (tautan) juga sangat menarik. Jika diringkas kesimpulannya, performa pemrosesan paralel punya sangat banyak hal yang perlu diperhatikan di luar Amdahl's Law. Sistem scale-out membutuhkan banyak pekerjaan tambahan yang tidak ada pada single node. Bahkan multithread pun menambah banyak pekerjaan yang tidak ada pada kode sekuensial. Rahasia performa yang sebenarnya adalah bahwa “operasi yang tidak dijalankan adalah yang paling cepat”

  • Benchmark pertama yang saya jalankan adalah benchmark klaster top500 High Performance Linpack. Saya menyukai metode pengukuran performa superkomputer tradisional itu. Setelah mengatasi masalah termal, konsumsi dayanya sekitar 130W dan menghasilkan 325 Gflops. Karena daftar di situs top500 dimulai dari 1993, saya sempat berharap klaster Pi bisa masuk ke sejarah absurd era 70-an, tetapi ternyata cukup lebih baru. Pada 1993 (peringkat 1: 131 Gflop/s, peringkat 10: 15.24Gflop/s) hingga 1997 (peringkat 1: 1,830,40, peringkat 10: 326.4), dan tampaknya keluar dari top500 sekitar 2002~2003. Karena ini berbasis Rpeak, seharusnya perlu diurutkan ulang berdasarkan Rmax agar akurat, tetapi saya lewati karena mustahil menelusuri semuanya. Untuk ukuran klaster mainan seperti ini, menurut saya hasilnya cukup bagus. Karena saya sudah terbiasa dengan lelucon seperti “Apple Watch lebih cepat daripada komputer Apollo”, saya sempat mengira hasilnya akan cocok dengan era yang lebih tua

  • RPI memang selalu punya performa CPU yang buruk. Sejak awal, tujuan Pi adalah memanfaatkan chip Broadcom murah dengan dalih “untuk pendidikan”. Itu dipakai agar anak-anak bisa belajar rangkaian dengan menyalakan LED menggunakan Raspberry Pi. Jadi, sejak awal ide melakukan komputasi berperforma tinggi dengan klaster Pi memang tidak masuk akal

  • Jangan menelan isi tulisannya terlalu mentah-mentah. Penulisnya adalah tech influencer sukses yang membeli perangkat mahal untuk dipamerkan, lalu mengeluh bahwa harganya terasa merugikan dan dari situ menghasilkan uang. Cara pandangnya terhadap ekonomi tidak harus sama dengan cara pandang saya

    • Itu memang benar, tetapi poin yang sebenarnya adalah bahwa kalau Anda ingin melakukan sesuatu sekarang, kemungkinan besar jawabannya bukan Raspberry Pi. Spesifikasinya sama sekali tidak sebanding dengan harganya, dan pasarnya juga stagnan

    • Meski begitu, menurut saya video Jeff tetap terasa segar. YouTuber lain terjebak mengulang konten yang hanya membandingkan “waktu render untuk video YouTube, akurasi warna, kualitas kamera, kualitas audio”, sedangkan dia berbeda

    • Saya berharap Dan Luu beralih ke konten seperti ini

    • Siapa pun yang paham cara merakit tentu sudah tahu bahwa satu GPU saja bisa meningkatkan performa komputasi 10 kali lipat

  • Judulnya memang terasa agak provokatif, tetapi penulis tampaknya benar-benar menikmati eksperimennya dan proses merakit perangkatnya. Namun, kalimat pembuka “Saya memesan satu set 10 Compute Blades pada April 2023 dan baru sekarang tiba” memang cukup mengecewakan

    • Itulah penyesalan terbesar. Sejauh ini saya sudah mendukung 6 proyek Kickstarter, dan rata-rata waktu pengirimannya sekitar 1 tahun. Anehnya, semuanya tetap akhirnya terkirim. Startup hardware memang sangat sulit, dan saya sudah berkali-kali melihat lebih dari setengahnya gagal sebelum sempat mengirimkan barang ke pelanggan, padahal awalnya hanya dimulai dari ide kecil. Kalau beruntung, mereka paling banter bisa membuat dan mengirim prototipe atau sampel, lalu pada akhirnya mengalami kekacauan besar di tahap pengiriman dan logistik
  • Jika klaster Pi benar-benar kompetitif dari sisi biaya dibanding performa, pusat data pasti sudah penuh dengan Pi sejak lama

    • Ini mirip lelucon ekonom tentang “mengapa tidak ada yang mengambil uang 20 dolar yang jatuh di tanah”. Efisiensi pasar yang sempurna mungkin berlaku dalam jangka panjang, tetapi dalam jangka pendek kebanyakan ditentukan oleh kebiasaan yang sudah akrab dan intuisi empiris

    • Jangan lupa bahwa hal yang sama juga pernah dikatakan soal PlayStation

    • Klaster Pi tampaknya benar-benar tidak kompetitif secara harga untuk... tujuan apa pun

    • Ada perusahaan bernama Mythic Beasts yang menyediakan layanan sewa server rpi (tautan). Jadi, di pasar yang sangat kecil tetap ada kegunaannya

  • Ada alasan mengapa superkomputer selama 10 tahun terakhir menggunakan GPU. GPU jauh lebih efisien. Jika Anda butuh pemrosesan paralel 32bit, cukup beli GPU konsumen, dan jika butuh 64bit, tinggal pasang GPU prosumer seperti RTX 6000 Pro. Sekarang tidak ada lagi yang membuat klaster CPU

    • Sayangnya, bahkan RTX 6000 Pro pun hanya punya performa double precision 2 TFLOPS, 64 kali lebih lambat daripada single precision. EPYC 9755 bisa sekitar 10 TFLOPS, dan itu dengan konsumsi daya yang lebih rendah. A100 juga sama. Untuk komputasi DP bergaya HPC pada level hobi, kartu AMD lama justru mungkin lebih baik. Sekarang AMD dan NVIDIA sama-sama tahu bahwa pelanggan ilmiah bersedia membayar mahal untuk performa presisi tinggi

    • Superkomputer El Capitan juga memakai CPU AMD (dengan GPU terintegrasi), dan belakangan berada di peringkat teratas. Frontier mengikuti dengan konfigurasi serupa. GPU yang masing-masing punya bus data dan memori terpisah belum tentu selalu optimal

  • Klaster Pi pada dasarnya bukan ditujukan untuk mengejar performa tinggi, melainkan perangkat hobi yang seru dan agak nyentrik. Sejak awal, hampir tidak ada yang mengharapkannya menjadi cara yang hemat biaya. Rasanya ini seperti judul sensasional ala YouTube yang merembet ke blog. Jika tujuan sebenarnya adalah latihan klaster Linux, jauh lebih ekonomis memasang hypervisor di CPU desktop lalu membuat VM. Kecuali tujuan Anda adalah merasakan sensasi mencolokkan banyak kabel, pada akhirnya cara ini jauh lebih efisien dari sisi pemanfaatan sumber daya sistem dan fleksibilitas

    • Kalau ingin latihan dengan benar-benar hemat biaya, pakai cloud saja. Biasanya minat orang cepat hilang setelah latihan selesai, jadi kemungkinan tagihan cloud berhenti lebih dulu daripada harga perangkat desktop terbayar

    • Saya sudah menghitungnya, dan membeli Mac Studio dengan prosesor Mx Ultra terbaru serta memori berkapasitas maksimum adalah cara paling hemat biaya untuk bereksperimen dengan model berparameter 100B+

    • Dalam komputasi tradisional, mungkin hanya rugi di ruang, tetapi menang dari sisi daya dan biaya. Namun dalam AI, mereka tidak bisa memakai GPU, dan software clustering untuk llama.cpp masih belum matang, jadi sulit menarik kesimpulan yang berarti. Kalau softwarenya membaik, ini bisa berubah

    • Menurut saya, bahkan tanpa latar belakang teknis pun kesimpulannya sudah jelas dalam diskusi seperti ini. Cukup lihat kenyataan bahwa semua orang memakai GPU untuk AI dan harga saham NVIDIA yang melonjak. Saya penasaran apakah OP benar-benar mengira dunia selama ini hanya belum sadar untuk memasang Raspberry Pi

    • Beberapa produk Raspberry Pi dijual rugi, jadi dari sisi ini pun bisa muncul salah paham bahwa “mungkin saja kompetitif secara harga”

  • Saya menghargai komentar penulis, “Kalau Anda datang ke blog, berarti Anda mungkin lebih suka tulisan daripada video, jadi saya akan langsung lanjut”

 
chcv0313 2025-09-20

Main-main seru banget lalu bilang menyesal, wkwk. Bedanya apa dengan orang yang sudah main game lebih dari 1000 jam lalu bilang gamenya tidak seru?

 
gafani 2025-09-25

Analoginya pas banget wkwk

 
kandk 2025-09-22

Wkwkwkwkwkwkwk