Panduan Cloud GPU - GPU apa yang sebaiknya dipakai untuk AI, dan di mana?

xguru · 2023-08-23T11:04:02+09:00

Jika membuat alat AI menggunakan StableDiffusion, Whisper, LLM open source, dan sebagainya, alat tersebut harus terus berjalan di suatu tempat GPU apa yang sebaiknya dipakai? Jika memakai Cloud GPU: Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct Jika menginginkan performa terbaik tanpa memedulikan biaya: 2x H100 Jika mengejar keseimbangan biaya dan performa: 2x RTX 6000 Ada (bukan A6000 atau RTX6000) Jika ingin murah: 2x A6000 MPT-30B Performa terbaik atau nilai terbaik: 1x H100 Murah: 1x A100 80GB Stable Diffusion Performa terbaik: 1x H100 Value for money: 1x 4090 Murah: 1x 3090 Whisper Sama seperti Stable Diffusion Whisper-Large bisa dijalankan dengan VRAM yang lebih kecil, tetapi kebanyakan cloud tidak punya kartu seperti itu 4090/3090 juga berjalan baik, dan CPU juga memungkinkan Jika ingin fine-tuning LLM skala besar Klaster H100 atau klaster A100 Jika ingin melatih LLM skala besar Klaster H100 skala besar Jika memakai GPU lokal: Hampir sama seperti di atas, tetapi pelatihan dan fine-tuning LLM tidak memungkinkan Kebanyakan LLM punya versi yang bisa dijalankan pada VRAM kecil (Falcon pada 40GB) Haruskah model dijalankan secara lokal? Atau di Cloud GPU? Keduanya pilihan yang masuk akal Untuk menjalankan model di cloud, template milik Runpod adalah pilihan termudah Opsi paling mudah adalah memakai instance yang di-host: DreamStudio, RunDiffusion, Playground AI untuk stable diffusion, dan lain-lain Apa bedanya RTX 6000, A6000, dan 6000 Ada? Ketiganya benar-benar berbeda RTX 6000 (Quadro RTX 6000, 24 GB VRAM, dirilis 2018/08/13) RTX A6000 (48 GB VRAM, dirilis 2020/10/05) RTX 6000 Ada (48 GB VRAM, dirilis 2022/12/03) DGX GH200, GH200, H100? 1 DGX GH200 berisi 256 GH200 1 GH200 berisi 1 H100 dan 1 CPU Grace Apakah H100 merupakan upgrade besar dari A100? Tentu. Peningkatan kecepatannya sangat besar. H100 juga bisa diskalakan ke jumlah GPU yang lebih banyak dibanding A100 Jadi untuk pelatihan LLM, beberapa H100 adalah pilihan terbaik Bagaimana dengan AMD, Intel, Cerebras? Untuk saat ini Nvidia yang paling mudah Cloud GPU mana yang sebaiknya dipakai? Jika butuh banyak A100/H100: hubungi Oracle, FluidStack, Lambda Labs, dan lainnya. Jika butuh beberapa A100: FluidStack atau Runpod Jika butuh 1 H100: FluidStack atau Lambda Labs 3090s, 4090s, A6000s murah: Tensordock. Jika hanya butuh inferensi Stable Diffusion: Salad. Jika butuh berbagai jenis GPU: Runpod atau FluidStack. Jika ingin memakai template atau sekadar hobi: Runpod. Cloud besar mahal dan rumit Cloud GPU yang paling mudah untuk memulai Gunakan template di RunPod Perlu diketahui bahwa pod RunPod bukan VM berfitur lengkap, melainkan container Docker pada mesin host Berapa banyak VRAM, RAM sistem, dan berapa vCPU yang dibutuhkan? VRAM (Video RAM / GPU RAM) Falcon-40B: 85-100GB MPT-30B: 80GB Stable Diffusion: disarankan 16GB+ atau lebih Whisper: 12GB+. (Jika memakai versi OpenAI, kira-kira segini; versi komunitas juga bisa dijalankan di CPU) RAM sistem 1~2x VRAM vCPU 8-16 vCPU sudah cukup kecuali untuk workload GPU skala besar Kapasitas disk Tergantung use case. Jika tidak yakin, mulai dari 100GB lalu lihat apakah sesuai dengan use case Anda

(gpus.llm-utils.org)

37 poin oleh xguru 2023-08-23 | 6 komentar | Bagikan ke WhatsApp

Jika membuat alat AI menggunakan StableDiffusion, Whisper, LLM open source, dan sebagainya, alat tersebut harus terus berjalan di suatu tempat

GPU apa yang sebaiknya dipakai?

Jika memakai Cloud GPU:

Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct
- Jika menginginkan performa terbaik tanpa memedulikan biaya: 2x H100
- Jika mengejar keseimbangan biaya dan performa: 2x RTX 6000 Ada (bukan A6000 atau RTX6000)
- Jika ingin murah: 2x A6000
MPT-30B
- Performa terbaik atau nilai terbaik: 1x H100
- Murah: 1x A100 80GB
Stable Diffusion
- Performa terbaik: 1x H100
- Value for money: 1x 4090
- Murah: 1x 3090
Whisper
- Sama seperti Stable Diffusion
- Whisper-Large bisa dijalankan dengan VRAM yang lebih kecil, tetapi kebanyakan cloud tidak punya kartu seperti itu
- 4090/3090 juga berjalan baik, dan CPU juga memungkinkan
Jika ingin fine-tuning LLM skala besar
- Klaster H100 atau klaster A100
Jika ingin melatih LLM skala besar
- Klaster H100 skala besar
  Jika memakai GPU lokal:
Hampir sama seperti di atas, tetapi pelatihan dan fine-tuning LLM tidak memungkinkan
Kebanyakan LLM punya versi yang bisa dijalankan pada VRAM kecil (Falcon pada 40GB)

Haruskah model dijalankan secara lokal? Atau di Cloud GPU?

Keduanya pilihan yang masuk akal
Untuk menjalankan model di cloud, template milik Runpod adalah pilihan termudah
Opsi paling mudah adalah memakai instance yang di-host: DreamStudio, RunDiffusion, Playground AI untuk stable diffusion, dan lain-lain

Apa bedanya RTX 6000, A6000, dan 6000 Ada?

Ketiganya benar-benar berbeda

RTX 6000 (Quadro RTX 6000, 24 GB VRAM, dirilis 2018/08/13)
RTX A6000 (48 GB VRAM, dirilis 2020/10/05)
RTX 6000 Ada (48 GB VRAM, dirilis 2022/12/03)

DGX GH200, GH200, H100?

1 DGX GH200 berisi 256 GH200
1 GH200 berisi 1 H100 dan 1 CPU Grace

Apakah H100 merupakan upgrade besar dari A100?

Tentu. Peningkatan kecepatannya sangat besar. H100 juga bisa diskalakan ke jumlah GPU yang lebih banyak dibanding A100
Jadi untuk pelatihan LLM, beberapa H100 adalah pilihan terbaik

Bagaimana dengan AMD, Intel, Cerebras?

Untuk saat ini Nvidia yang paling mudah

Cloud GPU mana yang sebaiknya dipakai?

Jika butuh banyak A100/H100: hubungi Oracle, FluidStack, Lambda Labs, dan lainnya.
Jika butuh beberapa A100: FluidStack atau Runpod
Jika butuh 1 H100: FluidStack atau Lambda Labs
3090s, 4090s, A6000s murah: Tensordock.
Jika hanya butuh inferensi Stable Diffusion: Salad.
Jika butuh berbagai jenis GPU: Runpod atau FluidStack.
Jika ingin memakai template atau sekadar hobi: Runpod.
Cloud besar mahal dan rumit

Cloud GPU yang paling mudah untuk memulai

Gunakan template di RunPod
Perlu diketahui bahwa pod RunPod bukan VM berfitur lengkap, melainkan container Docker pada mesin host

Berapa banyak VRAM, RAM sistem, dan berapa vCPU yang dibutuhkan?

VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: disarankan 16GB+ atau lebih
- Whisper: 12GB+. (Jika memakai versi OpenAI, kira-kira segini; versi komunitas juga bisa dijalankan di CPU)
RAM sistem
- 1~2x VRAM
vCPU
- 8-16 vCPU sudah cukup kecuali untuk workload GPU skala besar
Kapasitas disk
Tergantung use case. Jika tidak yakin, mulai dari 100GB lalu lihat apakah sesuai dengan use case Anda

6 komentar

wlsdk318 2024-01-30

Saya menggunakan Runpod, dan ini murah, mudah digunakan, benar-benar bagus! Terima kasih atas informasinya yang bermanfaat.

geekbini 2023-08-24

Informasinya sangat bagus!

ninebow 2023-08-24

Kelihatannya ada sekitar 2 bagian di bawah yang terlewat, jadi saya tambahkan. :)

Apakah perlu SXM atau PCIe, NVLink?

Jika Anda tidak yakin, anggap saja dulu itu tidak penting
Jika ingin tahu lebih lanjut: https://gpus.llm-utils.org/nvlink-sxm-and-pcie/

Bagaimana dengan InfiniBand?

Tidak diperlukan jika menggunakan 1–2 GPU. Diperlukan jika menggunakan klaster hingga ribuan GPU.