DeepSpeed Ulysses: Optimasi Sistem untuk Pelatihan Model Transformer dengan Sekuens Panjang

xguru · 2023-08-31T11:03:01+09:00

Menyediakan panjang sekuens 4 kali lebih panjang dibandingkan sistem yang ada, memungkinkan pelatihan dengan sekuens yang berisi lebih dari satu juta token Komunikasi berkurang lebih dari 10 kali sehingga throughput meningkat hingga 2,5 kali. Throughput tetap terjaga di atas 175 TFlops/GPU Attention yang sepenuhnya general dan agnostik terhadap implementasi (juga bekerja dengan implementasi seperti FlashAttention 2) Mendukung pelatihan model skala besar: bekerja bersama ZeRO-3 untuk mendukung ukuran sekuens/model yang besar Mudah digunakan dan sangat portabel, dengan perubahan minimal pada framework yang ada

(github.com/microsoft)

5 poin oleh xguru 2023-08-31 | Belum ada komentar. | Bagikan ke WhatsApp

Menyediakan panjang sekuens 4 kali lebih panjang dibandingkan sistem yang ada, memungkinkan pelatihan dengan sekuens yang berisi lebih dari satu juta token
Komunikasi berkurang lebih dari 10 kali sehingga throughput meningkat hingga 2,5 kali. Throughput tetap terjaga di atas 175 TFlops/GPU
Attention yang sepenuhnya general dan agnostik terhadap implementasi (juga bekerja dengan implementasi seperti FlashAttention 2)
Mendukung pelatihan model skala besar: bekerja bersama ZeRO-3 untuk mendukung ukuran sekuens/model yang besar
Mudah digunakan dan sangat portabel, dengan perubahan minimal pada framework yang ada

DeepSpeed Ulysses: Optimasi Sistem untuk Pelatihan Model Transformer dengan Sekuens Panjang

Bacaan terkait

Belum ada komentar.