Menghitung perkiraan biaya makalah Google DeepMind

(152334H.github.io)

4 poin oleh GN⁺ 2024-07-31 | 1 komentar | Bagikan ke WhatsApp

"Cara membakar sekitar $10M (130 miliar won) untuk sebuah preprint arXiv"
Baru-baru ini DeepMind (GDM) menerbitkan makalah bagus berjudul "Scaling Exponents Across Parameterizations and Optimizers"
- Makalah ini menjalankan lebih dari 10.000 training run LLM untuk memperoleh hyperparameter optimal di berbagai kondisi
Setelah membaca makalah tersebut, penulis mencoba menghitung total biaya komputasi yang diperlukan untuk mereproduksi makalah dengan mengagregasikan semua hasil eksperimen
Hasilnya, total FLOPS yang dibutuhkan adalah 5.42e24, dan biayanya $12.9M (178 miliar won) (jika dihitung pada $3/H100/jam)
- Secara garis besar, 5.42e24 adalah skala yang "tidak terlalu besar"
- Ini bahkan tidak mencapai 15% dari komputasi yang digunakan untuk Llama 3, dan semua eksperimen ini bisa dijalankan hanya dalam 2 hari dengan klaster 100.000 H100

Penjelasan tambahan tentang nilai H100

Karena ini makalah dari alumni Google DeepMind, hampir pasti eksperimen dilakukan dengan TPU
Karena tidak ada penyebutan penggunaan int8 di makalah, diduga mereka memakai presisi bfloat16
H100-SXM memiliki performa operasi tensor 16-bit sebesar 989.40 TFLOP/s
Blog PyTorch terbaru dan torchtitan melaporkan MFU H100 sekitar 40%
Biaya node H100 diperkirakan sekitar $3 per jam (sedikit berbeda tergantung digunakan di mana, jadi ini nilai rata-rata)

parkindani 2024-08-01

Saya jadi penasaran dengan total energi yang digunakan, bukan harganya.