- Banyak uang diinvestasikan ke pengembangan alat AI, dan banyak layanan beroperasi sambil menanggung kerugian
- Layanan dari perusahaan teknologi besar ditawarkan gratis atau murah untuk menguasai pasar, dan pada akhirnya "ada kemungkinan besar model AI dimanipulasi oleh iklan atau kepentingan politik"
- Solusinya adalah "menjalankan model AI milik sendiri secara langsung"
- Perusahaan seperti DeepSeek mengguncang pasar dengan merilis model mereka secara gratis. Model-model ini dapat dihilangkan biasnya dan bisa dijalankan di perangkat keras pribadi
Tantangan membangun komputer AI pribadi
- Untuk menjalankan LLM secara lokal, perlu membeli kartu grafis Nvidia yang kuat atau perangkat Apple
- Semakin besar memori, semakin besar model yang bisa dijalankan, dan ini sangat meningkatkan kualitas output
- Perlu GPU Nvidia atau perangkat Apple (keduanya mahal)
- Minimal perlu VRAM atau RAM 24GB ke atas
- Cara menghemat biaya: membeli perangkat bekas juga bisa menjadi salah satu cara, dan bandwidth memori serta spesifikasi lainnya juga penting
Proses merakit komputer AI berbiaya rendah
- Tujuan: membangun sistem yang dapat menjalankan model AI secara lokal dengan anggaran sekitar 1700 euro
- Konfigurasi akhir:
- HP Z440 Workstation (Xeon 12-core, RAM 128GB)
- 2 GPU Nvidia Tesla P40 (masing-masing VRAM 24GB, total 48GB)
- NZXT C850 Gold power supply
- Gainward GT 1030 (GPU dummy untuk output layar)
- Kipas pendingin khusus dan adaptor daya
Masalah teknis utama dan cara mengatasinya
1. Masalah pendinginan GPU server
- Tesla P40 dirancang untuk digunakan di lingkungan server sehingga tidak memiliki kipas bawaan
- Solusi: dudukan kipas hasil cetak 3D dan pengaturan aliran udara paksa
- Kecepatan kipas diatur untuk menyeimbangkan suhu dan kebisingan secara tepat
2. Masalah kompatibilitas workstation HP
- HP membatasi agar hanya komponen mereka sendiri yang digunakan
- Perlu membeli tambahan adaptor untuk power supply dan koneksi ke board
3. Masalah boot di BIOS
- Tesla P40 tidak memiliki port output display → tidak bisa boot
- Diselesaikan dengan menambahkan GPU GT 1030 murah
Hasil uji performa
1. Kecepatan inferensi (tokens per second)
- Mistral-Small (model 24B): 15.23
- Gemma2 (model 27B): 13.90
- Qwen2.5-Coder (model 32B): 10.75
- Llama3.3 (model 70B): 5.35
- DeepSeek-R1 (model 70B): 5.30
2. Konsumsi daya
- Saat komputer dalam keadaan siaga, konsumsi dayanya sekitar 80W
- Saat model 32B dimuat, konsumsi naik ke 123W, dan saat dijalankan bisa mencapai 241W
- Untuk model 70B, konsumsi mencapai 166W saat dimuat dan hingga 293W saat berjalan
- Artinya, semakin besar ukuran model, semakin tinggi penggunaan daya. Karena model juga mengonsumsi daya yang cukup besar saat sudah dimuat ke GPU, strategi untuk hanya mempertahankan model saat dibutuhkan menjadi penting
Kesimpulan: apakah membangun server AI pribadi merupakan pilihan yang layak?
- Berhasil membangun sistem AI yang sepenuhnya mandiri
- Model berukuran menengah dapat dijalankan secara lokal dengan harga yang relatif terjangkau
- Memuaskan karena model AI dapat dijalankan tanpa perangkat terbaru yang mahal
- Berhasil membangun sistem yang fleksibel untuk menghadapi perubahan teknologi AI dalam jangka panjang
3 komentar
Saya juga sempat melihat ada setup yang menjalankan r1 hanya dengan CPU dan SSD tanpa GPU sama sekali, tapi yang ini rasanya agak meragukan.
| Dengan harga yang sama ($1799), Anda bisa membeli Mac Mini dengan memori terpadu 48GB dan M4 Pro. Konsumsi dayanya rendah, senyap, dan kemungkinan performanya lebih baik daripada konfigurasi ini. Saya menikmati membaca tulisan ini, tetapi dalam situasi yang sama saya akan membeli Mac.
Itu yang ingin saya katakan, dan ternyata ada juga di komentar Hacker News.
Harga token terus makin murah, jadi kalau bukan untuk fine-tuning atau menghasilkan gambar, rasanya tidak terlalu perlu...
Komentar Hacker News
Saya melakukan hal serupa dengan membeli K80 dan M40 murah di eBay. Driver K80 sangat menyiksa. 24GB VRAM seharga 50 dolar memang menarik, tetapi saya tidak merekomendasikannya karena masalah driver. Saya bisa memasang GPU di workstation HP karena ada catu daya 1200 watt. GPU ini tidak punya pendinginan bawaan, jadi saya membuat bracket dengan printer 3D dan memasang kipas Noctua agar bisa berjalan 24/7. Hasilnya bekerja jauh lebih baik dari perkiraan dan suhunya tidak pernah melewati 60 derajat. CPU juga ikut diuntungkan berkat pendekatan ini. Kipas ditempatkan di bagian depan dan belakang casing; kipas depan menarik udara masuk dan kipas belakang membuangnya keluar. Ada juga dua kipas di depan GPU. Workstation-nya saya beli refurbished seharga 600 dolar, GPU 120 dolar, dan kipas sekitar 60 dolar. File STL-nya belum saya unggah. Kasus penggunaannya terlalu spesifik.
Dengan harga yang sama (1799 dolar), Anda bisa membeli Mac Mini dengan memori terpadu 48GB dan m4 pro. Konsumsi dayanya lebih rendah, senyap, dan kemungkinan performanya lebih baik daripada setup ini. Saya senang membaca tulisan ini, tetapi kalau berada di situasi yang sama, saya akan membeli Mac.
Saya ingin membangun mesin untuk LLM lokal. Saya sudah menguji model di MBP M3 Max dengan RAM 128GB, dan saya ingin server lokal khusus. Saya juga ingin mencoba Proxmox. Saat ini saya menjalankan OpenWebUI dan LibreChat di "server aplikasi" lokal dan cukup puas. Namun setiap kali mempertimbangkan membeli perangkat yang lebih kuat, saya merasa ROI-nya kurang. Apalagi di industri yang berubah sangat cepat seperti ini. Privasi memang faktor yang tidak bisa diabaikan, tetapi sulit mengalahkan biaya inferensi online.
Model yang di-host secara lokal itu lucu seperti mainan dan bisa menulis lelucon yang menyenangkan, serta menjalankan tugas pribadi. Tetapi dibandingkan model yang bisa diakses lewat API, masih kalah jauh. Akan menyenangkan jika bisa menjalankan deepseek-r1-678b secara lokal, tetapi untuk saat ini biaya operasional lebih besar daripada biaya modal.
Titik tengahnya adalah menyewa GPU VPS saat dibutuhkan. Anda bisa memakai H100 seharga 2 dolar per jam. Privasinya memang tidak setara dengan benar-benar lokal dan offline, tetapi masih lebih baik daripada API SASS. Semoga 1–3 tahun lagi, menjalankan sesuatu yang benar-benar berguna secara lokal akan menjadi lebih hemat biaya.
Seperti yang sudah dikatakan orang lain, Anda bisa mendapatkan Mac berperforma tinggi dengan harga yang sama dan konsumsi daya lebih rendah. Saya penasaran kenapa Apple tidak masuk ke pasar chip AI enterprise dan bersaing dengan Nvidia. Apple seharusnya mampu merancang ASIC sendiri.
"Miliki AI Anda sendiri" memang bagus sebagai hobi rumahan, tetapi ujung-ujungnya memakan banyak waktu dan uang untuk hardware. Saya sarankan melihat dream machine buatan Mitko Vasilev. Kalau tidak punya use case yang jelas, yang Anda butuhkan mungkin hanya model kecil atau kecepatan generasi token yang lambat. Jika tujuannya membangun dan belajar AI, menyewa GPU/TPU saat diperlukan lebih masuk akal secara ekonomi.
Saya tidak menganggap membeli 2 kartu Nvidia Tesla P40 seharga 660 euro sebagai sesuatu yang "sesuai anggaran". Orang tetap bisa menjalankan model "kecil" atau "menengah" dengan kartu yang lebih murah. Kartu Nvidia Geforce RTX 3060 bisa ditemukan di pasar bekas sekitar 200–250 euro. 48GB VRAM terlalu berlebihan untuk disebut ramah anggaran. Setup ini lebih cocok untuk semi-profesional atau profesional. Memang perlu kompromi untuk menjalankan model menengah atau kecil, tetapi berkompromi dalam batas anggaran juga penting.
Masalah dengan investasi seperti ini adalah bulan depan akan ada model yang lebih baik. Bisa jadi Anda akan membutuhkan RAM lebih banyak, atau justru lebih sedikit daripada model terbaik saat ini. Infrastruktur cloud bisa menyelesaikan masalah itu. Biayanya memang lebih mahal per eksekusi, tetapi kalau pemakaiannya sesekali, justru bisa menghemat uang. Saya penasaran bagaimana pengguna HN menangani hal ini.
Saya penasaran apakah ada yang pernah mencoba menjalankan inferensi LLM memakai klaster SBC. Misalnya Radxa ROCK 5C punya memori 32GB dan NPU dengan harga sekitar 300 euro. Saya tidak terlalu paham arsitektur LLM modern, tetapi seharusnya layer bisa dibagi antar beberapa node. Data yang harus ditransfer juga tidak terlalu banyak. Memang performanya tidak akan seperti Mac modern atau GPU Nvidia, tetapi mungkin ini cara yang layak untuk mendapatkan banyak memori dengan biaya murah. Saya juga penasaran dengan kondisi terbaru inferensi CPU + GPU. Pemrosesan prompt dibatasi oleh komputasi dan memori, sedangkan generasi token terutama dibatasi oleh memori. Saya ingin tahu apakah ada alat yang bisa memuat beberapa layer ke GPU untuk pemrosesan prompt awal, lalu beralih ke inferensi CPU setelahnya. Dalam eksperimen terakhir saya, beberapa layer bisa dijalankan di GPU dan sebagian lain di CPU. Rasanya akan lebih efisien jika semuanya dijalankan di GPU terlebih dahulu, lalu beralih ke CPU saat generasi token mulai terkendala memori.