4 poin oleh GN⁺ 2024-07-31 | 1 komentar | Bagikan ke WhatsApp
  • "Cara membakar sekitar $10M (130 miliar won) untuk sebuah preprint arXiv"
  • Baru-baru ini DeepMind (GDM) menerbitkan makalah bagus berjudul "Scaling Exponents Across Parameterizations and Optimizers"
    • Makalah ini menjalankan lebih dari 10.000 training run LLM untuk memperoleh hyperparameter optimal di berbagai kondisi
  • Setelah membaca makalah tersebut, penulis mencoba menghitung total biaya komputasi yang diperlukan untuk mereproduksi makalah dengan mengagregasikan semua hasil eksperimen
  • Hasilnya, total FLOPS yang dibutuhkan adalah 5.42e24, dan biayanya $12.9M (178 miliar won) (jika dihitung pada $3/H100/jam)
    • Secara garis besar, 5.42e24 adalah skala yang "tidak terlalu besar"
    • Ini bahkan tidak mencapai 15% dari komputasi yang digunakan untuk Llama 3, dan semua eksperimen ini bisa dijalankan hanya dalam 2 hari dengan klaster 100.000 H100

Penjelasan tambahan tentang nilai H100

  • Karena ini makalah dari alumni Google DeepMind, hampir pasti eksperimen dilakukan dengan TPU
  • Karena tidak ada penyebutan penggunaan int8 di makalah, diduga mereka memakai presisi bfloat16
  • H100-SXM memiliki performa operasi tensor 16-bit sebesar 989.40 TFLOP/s
  • Blog PyTorch terbaru dan torchtitan melaporkan MFU H100 sekitar 40%
  • Biaya node H100 diperkirakan sekitar $3 per jam (sedikit berbeda tergantung digunakan di mana, jadi ini nilai rata-rata)

1 komentar

 
parkindani 2024-08-01

Saya jadi penasaran dengan total energi yang digunakan, bukan harganya.