AI dari Ruang Bawah Tanah – 192GB + 8x RTX 3090

(ahmadosman.com)

3 poin oleh GN⁺ 2024-09-09 | 1 komentar | Bagikan ke WhatsApp

Seiring skala eksperimen LLM pribadi membesar, dibangun sendiri di rumah sebuah server AI khusus dengan 8x RTX 3090 dan total 192GB VRAM
Lingkungan lama dengan 48GB VRAM makin sulit mengikuti kebutuhan eksperimen, sehingga sistem diperluas menjadi node multi-GPU dengan target bahkan bisa menjalankan Llama-3.1 405B dari Meta
Konfigurasi intinya terdiri dari Asrock Rack ROMED8-2T, AMD Epyc Milan 7713, 512GB DDR4-3200 RDIMM, 3 catu daya 1600W, serta 8 RTX 3090 yang dipasangkan menjadi 4x NVLink
NVLink menyediakan throughput 112GB/s untuk tiap pasangan GPU, sementara bottleneck seperti jalur PCIe, riser, inference engine, dan fine-tuning menjadi topik utama untuk tulisan lanjutan
Membangun server LLM rumahan berukuran besar memang memungkinkan, tetapi kesulitan perakitan dan risiko kesalahan berbiaya tinggi membuat pemilihan serta validasi hardware sangat menentukan hasil akhir

Tujuan server LLM di ruang bawah tanah

Proyek sampingan terbaru, AI from The Basement, adalah server LLM khusus dengan 8 kartu grafis RTX 3090 dan total 192GB VRAM
Salah satu tujuannya adalah menjalankan Llama-3.1 405B dari Meta
Sebelumnya, eksperimen LLM dijalankan dengan 48GB VRAM, tetapi sekitar Maret 2024 kapasitas ini dinilai sudah sulit mengimbangi kebutuhan eksperimen
Dalam proses pemilihan hardware, turut dipertimbangkan CPU dan platform, kecepatan memori, jumlah jalur PCIe, konfigurasi GPU 2^n, tensor parallelism, serta pemilihan inference engine

Konfigurasi hardware dan isu dalam proses perakitan

Platform akhirnya dibangun dari kombinasi motherboard kelas server, CPU EPYC, memori besar, beberapa catu daya, dan 8 GPU
- Motherboard Asrock Rack ROMED8-2T: 7 slot PCIe 4.0 x16, 128 jalur PCIe
- CPU AMD Epyc Milan 7713: 2.00GHz, boost 3.675GHz, 64 core/128 thread
- Memori 512GB DDR4-3200 3DS RDIMM
- 3 catu daya 1600W
- GPU 8x RTX 3090 dan 4x NVLink
NVLink menyediakan laju transfer data 112GB/s di antara tiap pasangan GPU
Dalam perakitan nyata, muncul masalah fisik seperti modifikasi lubang pada rangka logam, penambahan pemutus arus 30A 240V, dan pin socket CPU yang bengkok
Untuk masalah PCIe riser dan memastikan koneksi PCIe bebas error, dibahas juga pentingnya SAS Device Adapter, Redriver, dan Retimer
Tulisan lanjutan akan membahas kecepatan NVLink, bandwidth jalur PCIe, kecepatan transfer VRAM, serta keputusan Nvidia memblokir bandwidth PCIe native P2P pada level software
Benchmark inference engine yang mendukung tensor parallelism seperti TensorRT-LLM, vLLM, dan Aphrodite Engine, serta pelatihan dan fine-tuning LLM sendiri, juga menjadi topik berikutnya
Dibandingkan dengan pengalaman senang memiliki HDD 60GB pada 2004, kini 20 tahun kemudian satu mesin bisa memiliki kapasitas lebih dari tiga kali lipat itu hanya pada kartu grafisnya, sebagai contoh perkembangan teknologi
Tujuan proyek ini adalah berkontribusi dalam membuat hal-hal keren yang akan muncul di masa depan, dan suatu hari nanti 192GB VRAM pun mungkin akan terasa tidak lagi besar
Part II of this Blogpost Series tersedia sebagai tulisan lanjutan

1 komentar

brainer 2024-09-09

Saya cuma bisa iri..

AI dari Ruang Bawah Tanah – 192GB + 8x RTX 3090

Tujuan server LLM di ruang bawah tanah

Konfigurasi hardware dan isu dalam proses perakitan

Bacaan terkait

1 komentar