- Server LLM khusus yang ditenagai oleh 8 kartu grafis RTX 3090. Total VRAM 192GB
- Dibangun dengan tujuan menjalankan Llama-3.1 405B dari Meta
Latar belakang
- Pada bulan Maret, ada kesulitan saat melakukan eksperimen LLM dengan VRAM 48GB
- Merasa membutuhkan lebih banyak VRAM, lalu memutuskan membangun sistem baru
- Muncul berbagai pertanyaan seperti pemilihan CPU/platform, pentingnya kecepatan memori, dan kebutuhan PCIe lane
- Setelah berjam-jam riset, platform berikut dipilih
- Motherboard Asrock Rack ROMED8-2T (7x slot PCIe 4.0x16, 128 PCIe lane)
- CPU AMD Epyc Milan 7713 (2.00 GHz/boost 3.675GHz, 64 core/128 thread)
- Memori 512GB DDR4-3200 3DS RDIMM
- 3 catu daya 1600 watt
- 8x GPU RTX 3090 (4x NVLink, kecepatan transfer data 112GB/s per pasangan)
Pratinjau seri blog
- Tantangan selama proses merakit sistem ini
- Mengebor lubang pada rangka logam dan menambahkan pemutus arus 30 ampere 240 volt
- Membengkokkan pin soket CPU (jangan coba ini di rumah)
- Masalah pada PCIe riser serta pentingnya adaptor perangkat SAS, redriver, dan retimer
- Kecepatan NVLink, bandwidth PCIe lane, kecepatan transfer VRAM, dan pemblokiran bandwidth PCIe native P2P pada level perangkat lunak oleh Nvidia
- Benchmark engine inferensi seperti TensorRT-LLM, vLLM, dan Aphrodite Engine
- Pelatihan dan fine-tuning LLM sendiri
Kesimpulan
- Saat melihat perkembangan teknologi, penulis teringat kegembiraan ketika mendapatkan HDD 60GB pada tahun 2004
- Dua puluh tahun kemudian, mungkin kita akan mengenang masa ketika 192GB VRAM dianggap berkapasitas besar
- Melalui proyek ini, penulis ingin ikut berkontribusi dalam menciptakan teknologi keren di masa depan
Ringkasan GN⁺
- Artikel ini membahas proses membangun server berperforma tinggi untuk model AI
- Menjelaskan cara membangun server LLM menggunakan GPU terbaru dan CPU berperforma tinggi
- Mengungkapkan cepatnya laju perkembangan teknologi dan harapan terhadap masa depan
- Proyek dengan fungsi serupa antara lain sistem DGX dari Nvidia atau TPU dari Google
2 komentar
Saya cuma bisa iri..
Komentar Hacker News
Komentar pertama: Membangun server sendiri untuk melindungi data pribadi. Tidak menyesal telah mengeluarkan uang untuk konfigurasi ini karena kualitas output platform belakangan ini menurun
Komentar kedua: Mungkin suatu hari nanti kita akan mengenang masa ketika 192GB VRAM terasa banyak
Komentar ketiga: Proyek yang menggunakan 8 GPU untuk mengubah monitor 4K menjadi dinding piksel mini tanpa bezel
Komentar keempat: Penasaran seberapa besar bantuan NVLink
Komentar kelima: Sangat keren, tetapi biayanya mahal jika tidak dimanfaatkan secara produktif 24/7
Komentar keenam: Penasaran dengan perbandingan biaya dengan Tinybox
Komentar ketujuh: Memiliki konfigurasi serupa di ruang bawah tanah
Komentar kedelapan: Penasaran bagaimana 8 GPU dihubungkan ketika motherboard hanya memiliki 7 slot PCIe
Komentar kesembilan: Jika ada 7 slot PCIe 4.0 x16, penasaran bagaimana kartu ke-8 dihubungkan
Komentar kesepuluh: Menantikan untuk membaca seri ini