10 poin oleh xguru 2023-06-28 | Belum ada komentar. | Bagikan ke WhatsApp
  • LLM memerlukan memori dan sumber daya komputasi yang cukup besar
  • Keluarga ZeRO dari DeepSpeed memberikan solusi untuk masalah ini dan digunakan pada TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1, dan lainnya
  • Namun, dalam skenario berskala besar yang menggunakan banyak GPU, muncul overhead seperti kebutuhan komunikasi yang sering antar-GPU
  • ZeRO++ mengurangi total volume komunikasi hingga 4x dalam kasus seperti ini tanpa memengaruhi kualitas model
    • Mempercepat pre-training dan fine-tuning model skala besar
      • Ukuran batch kecil per GPU: throughput 2,2x dibandingkan ZeRO
      • Bahkan pada klaster berbandwidth rendah, memberikan performa setara bandwidth 4x
    • Juga mempercepat model seperti ChatGPT yang menggunakan RLHF

Belum ada komentar.

Belum ada komentar.