GPT-Neo: Proyek untuk membuat model seukuran GPT-3 menjadi open source/gratis

xguru · 2021-01-19T09:54:11+09:00

Sedang mengembangkan dua implementasi yang dapat diskalakan hingga ukuran GPT-3+ → GPT-Neo: kode berbasis Tensorflow-mesh (TPU) → GPT-Neox: kode berbasis DeepSpeed (GPU) Saat ini pelatihan skala GPT-2 telah selesai dan sedang meninjau evaluasi model Menguji hingga 200 miliar parameter dengan pelatihan satu tahap

(github.com)

7 poin oleh xguru 2021-01-19 | Belum ada komentar. | Bagikan ke WhatsApp

Sedang mengembangkan dua implementasi yang dapat diskalakan hingga ukuran GPT-3+

→ GPT-Neo: kode berbasis Tensorflow-mesh (TPU)

→ GPT-Neox: kode berbasis DeepSpeed (GPU)

Saat ini pelatihan skala GPT-2 telah selesai dan sedang meninjau evaluasi model
Menguji hingga 200 miliar parameter dengan pelatihan satu tahap

GPT-Neo: Proyek untuk membuat model seukuran GPT-3 menjadi open source/gratis

Bacaan terkait

Belum ada komentar.