DeepSpeed ZeRO++: Lompatan Kecepatan Revolusioner untuk Pelatihan LLM dan Model Chat dengan Komunikasi 4x Lebih Sedikit

xguru · 2023-06-28T10:03:01+09:00

LLM memerlukan memori dan sumber daya komputasi yang cukup besar Keluarga ZeRO dari DeepSpeed memberikan solusi untuk masalah ini dan digunakan pada TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1, dan lainnya Namun, dalam skenario berskala besar yang menggunakan banyak GPU, muncul overhead seperti kebutuhan komunikasi yang sering antar-GPU ZeRO++ mengurangi total volume komunikasi hingga 4x dalam kasus seperti ini tanpa memengaruhi kualitas model Mempercepat pre-training dan fine-tuning model skala besar Ukuran batch kecil per GPU: throughput 2,2x dibandingkan ZeRO Bahkan pada klaster berbandwidth rendah, memberikan performa setara bandwidth 4x Juga mempercepat model seperti ChatGPT yang menggunakan RLHF

(microsoft.com)

10 poin oleh xguru 2023-06-28 | Belum ada komentar. | Bagikan ke WhatsApp

LLM memerlukan memori dan sumber daya komputasi yang cukup besar
Keluarga ZeRO dari DeepSpeed memberikan solusi untuk masalah ini dan digunakan pada TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1, dan lainnya
Namun, dalam skenario berskala besar yang menggunakan banyak GPU, muncul overhead seperti kebutuhan komunikasi yang sering antar-GPU
ZeRO++ mengurangi total volume komunikasi hingga 4x dalam kasus seperti ini tanpa memengaruhi kualitas model
- Mempercepat pre-training dan fine-tuning model skala besar
  - Ukuran batch kecil per GPU: throughput 2,2x dibandingkan ZeRO
  - Bahkan pada klaster berbandwidth rendah, memberikan performa setara bandwidth 4x
- Juga mempercepat model seperti ChatGPT yang menggunakan RLHF

DeepSpeed ZeRO++: Lompatan Kecepatan Revolusioner untuk Pelatihan LLM dan Model Chat dengan Komunikasi 4x Lebih Sedikit

Bacaan terkait

Belum ada komentar.