- LLM memerlukan memori dan sumber daya komputasi yang cukup besar
- Keluarga ZeRO dari DeepSpeed memberikan solusi untuk masalah ini dan digunakan pada TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1, dan lainnya
- Namun, dalam skenario berskala besar yang menggunakan banyak GPU, muncul overhead seperti kebutuhan komunikasi yang sering antar-GPU
- ZeRO++ mengurangi total volume komunikasi hingga 4x dalam kasus seperti ini tanpa memengaruhi kualitas model
- Mempercepat pre-training dan fine-tuning model skala besar
- Ukuran batch kecil per GPU: throughput 2,2x dibandingkan ZeRO
- Bahkan pada klaster berbandwidth rendah, memberikan performa setara bandwidth 4x
- Juga mempercepat model seperti ChatGPT yang menggunakan RLHF
Belum ada komentar.