3 poin oleh GN⁺ 2024-09-09 | 2 komentar | Bagikan ke WhatsApp
  • Server LLM khusus yang ditenagai oleh 8 kartu grafis RTX 3090. Total VRAM 192GB
  • Dibangun dengan tujuan menjalankan Llama-3.1 405B dari Meta

Latar belakang

  • Pada bulan Maret, ada kesulitan saat melakukan eksperimen LLM dengan VRAM 48GB
  • Merasa membutuhkan lebih banyak VRAM, lalu memutuskan membangun sistem baru
  • Muncul berbagai pertanyaan seperti pemilihan CPU/platform, pentingnya kecepatan memori, dan kebutuhan PCIe lane
  • Setelah berjam-jam riset, platform berikut dipilih
    • Motherboard Asrock Rack ROMED8-2T (7x slot PCIe 4.0x16, 128 PCIe lane)
    • CPU AMD Epyc Milan 7713 (2.00 GHz/boost 3.675GHz, 64 core/128 thread)
    • Memori 512GB DDR4-3200 3DS RDIMM
    • 3 catu daya 1600 watt
    • 8x GPU RTX 3090 (4x NVLink, kecepatan transfer data 112GB/s per pasangan)

Pratinjau seri blog

  • Tantangan selama proses merakit sistem ini
    • Mengebor lubang pada rangka logam dan menambahkan pemutus arus 30 ampere 240 volt
    • Membengkokkan pin soket CPU (jangan coba ini di rumah)
  • Masalah pada PCIe riser serta pentingnya adaptor perangkat SAS, redriver, dan retimer
  • Kecepatan NVLink, bandwidth PCIe lane, kecepatan transfer VRAM, dan pemblokiran bandwidth PCIe native P2P pada level perangkat lunak oleh Nvidia
  • Benchmark engine inferensi seperti TensorRT-LLM, vLLM, dan Aphrodite Engine
  • Pelatihan dan fine-tuning LLM sendiri

Kesimpulan

  • Saat melihat perkembangan teknologi, penulis teringat kegembiraan ketika mendapatkan HDD 60GB pada tahun 2004
  • Dua puluh tahun kemudian, mungkin kita akan mengenang masa ketika 192GB VRAM dianggap berkapasitas besar
  • Melalui proyek ini, penulis ingin ikut berkontribusi dalam menciptakan teknologi keren di masa depan

Ringkasan GN⁺

  • Artikel ini membahas proses membangun server berperforma tinggi untuk model AI
  • Menjelaskan cara membangun server LLM menggunakan GPU terbaru dan CPU berperforma tinggi
  • Mengungkapkan cepatnya laju perkembangan teknologi dan harapan terhadap masa depan
  • Proyek dengan fungsi serupa antara lain sistem DGX dari Nvidia atau TPU dari Google

2 komentar

 
brainer 2024-09-09

Saya cuma bisa iri..

 
GN⁺ 2024-09-09
Komentar Hacker News
  • Komentar pertama: Membangun server sendiri untuk melindungi data pribadi. Tidak menyesal telah mengeluarkan uang untuk konfigurasi ini karena kualitas output platform belakangan ini menurun

    • Melakukan pekerjaan yang keren dengan memanfaatkan paralelisme tensor dan inferensi batch
    • Menyempurnakan model menggunakan data pribadi dan menghasilkan data sintetis
    • Saat ini sedang membangun model dari nol sebagai proyek pembelajaran, dan berencana menulis tutorial jika berhasil menyelesaikan masalah
    • Sudah memulai blog dan berencana membuat rangkaian postingan tentang pembelajaran dan penemuan
    • Siap berbagi jika ada topik atau ide yang ingin dieksplorasi
  • Komentar kedua: Mungkin suatu hari nanti kita akan mengenang masa ketika 192GB VRAM terasa banyak

    • Membeli HDD berkapasitas besar untuk NAS menjadi semakin sulit, dan harganya naik banyak
    • Memperkirakan hal serupa akan terjadi di AI
    • Penyedia cloud besar tidak tertarik pada perangkat keras rumahan yang murah, dan ingin menambang data melalui layanan cloud
  • Komentar ketiga: Proyek yang menggunakan 8 GPU untuk mengubah monitor 4K menjadi dinding piksel mini tanpa bezel

    • Proyek untuk komposisi video lokal dan latar belakang yang dihasilkan AI
    • Menyebut contoh dari "The Mandalorian", yang menyediakan latar belakang fotorealistik secara real-time
  • Komentar keempat: Penasaran seberapa besar bantuan NVLink

    • Sudah membangun rig dengan 2 buah 3090, dan penasaran apakah dengan EPYC bisa memakai lebih banyak kartu
    • Total biayanya sekitar $3500, dan memperkirakan konfigurasi ini mendekati $12-15k
  • Komentar kelima: Sangat keren, tetapi biayanya mahal jika tidak dimanfaatkan secara produktif 24/7

  • Komentar keenam: Penasaran dengan perbandingan biaya dengan Tinybox

    • Jika memakai 6 buah 4090 harganya $25k, dan jika memakai 6 buah 7900XTX harganya $15k
    • Ini adalah paket lengkap yang mencakup catu daya, CPU, penyimpanan, pendinginan, perakitan, pengiriman, dan lain-lain
  • Komentar ketujuh: Memiliki konfigurasi serupa di ruang bawah tanah

    • Terdiri dari beberapa node dan total menggunakan 16 buah 3090
    • Harus memasang sirkuit 30A 240V
  • Komentar kedelapan: Penasaran bagaimana 8 GPU dihubungkan ketika motherboard hanya memiliki 7 slot PCIe

    • Bertanya-tanya apakah dua GPU dipasang pada slot yang sama dengan membatasi bandwidth
  • Komentar kesembilan: Jika ada 7 slot PCIe 4.0 x16, penasaran bagaimana kartu ke-8 dihubungkan

  • Komentar kesepuluh: Menantikan untuk membaca seri ini

    • Ingin menemukan grafik/data tentang rasio harga-kinerja model open source
    • Ingin menemukan nilai $/ELO (nilai yang menunjukkan biaya membangun dan menjalankan mesin serta kinerja rata-rata model)