Panduan Cloud GPU - GPU apa yang sebaiknya dipakai untuk AI, dan di mana?
(gpus.llm-utils.org)- Jika membuat alat AI menggunakan StableDiffusion, Whisper, LLM open source, dan sebagainya, alat tersebut harus terus berjalan di suatu tempat
GPU apa yang sebaiknya dipakai?
Jika memakai Cloud GPU:
- Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct
- Jika menginginkan performa terbaik tanpa memedulikan biaya: 2x H100
- Jika mengejar keseimbangan biaya dan performa: 2x RTX 6000 Ada (bukan A6000 atau RTX6000)
- Jika ingin murah: 2x A6000
- MPT-30B
- Performa terbaik atau nilai terbaik: 1x H100
- Murah: 1x A100 80GB
- Stable Diffusion
- Performa terbaik: 1x H100
- Value for money: 1x 4090
- Murah: 1x 3090
- Whisper
- Sama seperti Stable Diffusion
- Whisper-Large bisa dijalankan dengan VRAM yang lebih kecil, tetapi kebanyakan cloud tidak punya kartu seperti itu
- 4090/3090 juga berjalan baik, dan CPU juga memungkinkan
- Jika ingin fine-tuning LLM skala besar
- Klaster H100 atau klaster A100
- Jika ingin melatih LLM skala besar
- Klaster H100 skala besar
Jika memakai GPU lokal:
- Klaster H100 skala besar
- Hampir sama seperti di atas, tetapi pelatihan dan fine-tuning LLM tidak memungkinkan
- Kebanyakan LLM punya versi yang bisa dijalankan pada VRAM kecil (Falcon pada 40GB)
Haruskah model dijalankan secara lokal? Atau di Cloud GPU?
- Keduanya pilihan yang masuk akal
- Untuk menjalankan model di cloud, template milik Runpod adalah pilihan termudah
- Opsi paling mudah adalah memakai instance yang di-host: DreamStudio, RunDiffusion, Playground AI untuk stable diffusion, dan lain-lain
Apa bedanya RTX 6000, A6000, dan 6000 Ada?
Ketiganya benar-benar berbeda
- RTX 6000 (Quadro RTX 6000, 24 GB VRAM, dirilis 2018/08/13)
- RTX A6000 (48 GB VRAM, dirilis 2020/10/05)
- RTX 6000 Ada (48 GB VRAM, dirilis 2022/12/03)
DGX GH200, GH200, H100?
- 1 DGX GH200 berisi 256 GH200
- 1 GH200 berisi 1 H100 dan 1 CPU Grace
Apakah H100 merupakan upgrade besar dari A100?
- Tentu. Peningkatan kecepatannya sangat besar. H100 juga bisa diskalakan ke jumlah GPU yang lebih banyak dibanding A100
- Jadi untuk pelatihan LLM, beberapa H100 adalah pilihan terbaik
Bagaimana dengan AMD, Intel, Cerebras?
- Untuk saat ini Nvidia yang paling mudah
Cloud GPU mana yang sebaiknya dipakai?
- Jika butuh banyak A100/H100: hubungi Oracle, FluidStack, Lambda Labs, dan lainnya.
- Jika butuh beberapa A100: FluidStack atau Runpod
- Jika butuh 1 H100: FluidStack atau Lambda Labs
- 3090s, 4090s, A6000s murah: Tensordock.
- Jika hanya butuh inferensi Stable Diffusion: Salad.
- Jika butuh berbagai jenis GPU: Runpod atau FluidStack.
- Jika ingin memakai template atau sekadar hobi: Runpod.
- Cloud besar mahal dan rumit
Cloud GPU yang paling mudah untuk memulai
- Gunakan template di RunPod
- Perlu diketahui bahwa pod RunPod bukan VM berfitur lengkap, melainkan container Docker pada mesin host
Berapa banyak VRAM, RAM sistem, dan berapa vCPU yang dibutuhkan?
- VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: disarankan 16GB+ atau lebih
- Whisper: 12GB+. (Jika memakai versi OpenAI, kira-kira segini; versi komunitas juga bisa dijalankan di CPU)
- RAM sistem
- 1~2x VRAM
- vCPU
- 8-16 vCPU sudah cukup kecuali untuk workload GPU skala besar
- Kapasitas disk
- Tergantung use case. Jika tidak yakin, mulai dari 100GB lalu lihat apakah sesuai dengan use case Anda
6 komentar
Saya menggunakan Runpod, dan ini murah, mudah digunakan, benar-benar bagus! Terima kasih atas informasinya yang bermanfaat.
Informasinya sangat bagus!
Kelihatannya ada sekitar 2 bagian di bawah yang terlewat, jadi saya tambahkan. :)
Apakah perlu SXM atau PCIe, NVLink?
Bagaimana dengan InfiniBand?
Terima kasih atas artikelnya yang bagus!
Bagi orang-orang yang terkait, ini benar-benar akan menjadi informasi yang sangat berharga.
Oh, ini materi yang sangat berguna.