- Sedang mengembangkan dua implementasi yang dapat diskalakan hingga ukuran GPT-3+
→ GPT-Neo: kode berbasis Tensorflow-mesh (TPU)
→ GPT-Neox: kode berbasis DeepSpeed (GPU)
-
Saat ini pelatihan skala GPT-2 telah selesai dan sedang meninjau evaluasi model
-
Menguji hingga 200 miliar parameter dengan pelatihan satu tahap
Belum ada komentar.