- "Cara membakar sekitar $10M (130 miliar won) untuk sebuah preprint arXiv"
- Baru-baru ini DeepMind (GDM) menerbitkan makalah bagus berjudul "Scaling Exponents Across Parameterizations and Optimizers"
- Makalah ini menjalankan lebih dari 10.000 training run LLM untuk memperoleh hyperparameter optimal di berbagai kondisi
- Setelah membaca makalah tersebut, penulis mencoba menghitung total biaya komputasi yang diperlukan untuk mereproduksi makalah dengan mengagregasikan semua hasil eksperimen
- Hasilnya, total FLOPS yang dibutuhkan adalah 5.42e24, dan biayanya $12.9M (178 miliar won) (jika dihitung pada $3/H100/jam)
- Secara garis besar, 5.42e24 adalah skala yang "tidak terlalu besar"
- Ini bahkan tidak mencapai 15% dari komputasi yang digunakan untuk Llama 3, dan semua eksperimen ini bisa dijalankan hanya dalam 2 hari dengan klaster 100.000 H100
Penjelasan tambahan tentang nilai H100
- Karena ini makalah dari alumni Google DeepMind, hampir pasti eksperimen dilakukan dengan TPU
- Karena tidak ada penyebutan penggunaan int8 di makalah, diduga mereka memakai presisi bfloat16
- H100-SXM memiliki performa operasi tensor 16-bit sebesar 989.40 TFLOP/s
- Blog PyTorch terbaru dan torchtitan melaporkan MFU H100 sekitar 40%
- Biaya node H100 diperkirakan sekitar $3 per jam (sedikit berbeda tergantung digunakan di mana, jadi ini nilai rata-rata)
1 komentar
Saya jadi penasaran dengan total energi yang digunakan, bukan harganya.