AI dari Ruang Bawah Tanah – 192GB + 8x RTX 3090
(ahmadosman.com)- Seiring skala eksperimen LLM pribadi membesar, dibangun sendiri di rumah sebuah server AI khusus dengan 8x RTX 3090 dan total 192GB VRAM
- Lingkungan lama dengan 48GB VRAM makin sulit mengikuti kebutuhan eksperimen, sehingga sistem diperluas menjadi node multi-GPU dengan target bahkan bisa menjalankan Llama-3.1 405B dari Meta
- Konfigurasi intinya terdiri dari Asrock Rack ROMED8-2T, AMD Epyc Milan 7713, 512GB DDR4-3200 RDIMM, 3 catu daya 1600W, serta 8 RTX 3090 yang dipasangkan menjadi 4x NVLink
- NVLink menyediakan throughput 112GB/s untuk tiap pasangan GPU, sementara bottleneck seperti jalur PCIe, riser, inference engine, dan fine-tuning menjadi topik utama untuk tulisan lanjutan
- Membangun server LLM rumahan berukuran besar memang memungkinkan, tetapi kesulitan perakitan dan risiko kesalahan berbiaya tinggi membuat pemilihan serta validasi hardware sangat menentukan hasil akhir
Tujuan server LLM di ruang bawah tanah
- Proyek sampingan terbaru, AI from The Basement, adalah server LLM khusus dengan 8 kartu grafis RTX 3090 dan total 192GB VRAM
- Salah satu tujuannya adalah menjalankan Llama-3.1 405B dari Meta
- Sebelumnya, eksperimen LLM dijalankan dengan 48GB VRAM, tetapi sekitar Maret 2024 kapasitas ini dinilai sudah sulit mengimbangi kebutuhan eksperimen
- Dalam proses pemilihan hardware, turut dipertimbangkan CPU dan platform, kecepatan memori, jumlah jalur PCIe, konfigurasi GPU 2^n, tensor parallelism, serta pemilihan inference engine
Konfigurasi hardware dan isu dalam proses perakitan
- Platform akhirnya dibangun dari kombinasi motherboard kelas server, CPU EPYC, memori besar, beberapa catu daya, dan 8 GPU
- Motherboard Asrock Rack ROMED8-2T: 7 slot PCIe 4.0 x16, 128 jalur PCIe
- CPU AMD Epyc Milan 7713: 2.00GHz, boost 3.675GHz, 64 core/128 thread
- Memori 512GB DDR4-3200 3DS RDIMM
- 3 catu daya 1600W
- GPU 8x RTX 3090 dan 4x NVLink
- NVLink menyediakan laju transfer data 112GB/s di antara tiap pasangan GPU
- Dalam perakitan nyata, muncul masalah fisik seperti modifikasi lubang pada rangka logam, penambahan pemutus arus 30A 240V, dan pin socket CPU yang bengkok
- Untuk masalah PCIe riser dan memastikan koneksi PCIe bebas error, dibahas juga pentingnya SAS Device Adapter, Redriver, dan Retimer
- Tulisan lanjutan akan membahas kecepatan NVLink, bandwidth jalur PCIe, kecepatan transfer VRAM, serta keputusan Nvidia memblokir bandwidth PCIe native P2P pada level software
- Benchmark inference engine yang mendukung tensor parallelism seperti TensorRT-LLM, vLLM, dan Aphrodite Engine, serta pelatihan dan fine-tuning LLM sendiri, juga menjadi topik berikutnya
- Dibandingkan dengan pengalaman senang memiliki HDD 60GB pada 2004, kini 20 tahun kemudian satu mesin bisa memiliki kapasitas lebih dari tiga kali lipat itu hanya pada kartu grafisnya, sebagai contoh perkembangan teknologi
- Tujuan proyek ini adalah berkontribusi dalam membuat hal-hal keren yang akan muncul di masa depan, dan suatu hari nanti 192GB VRAM pun mungkin akan terasa tidak lagi besar
- Part II of this Blogpost Series tersedia sebagai tulisan lanjutan
1 komentar
Saya cuma bisa iri..