7 poin oleh xguru 2021-01-19 | Belum ada komentar. | Bagikan ke WhatsApp
  • Sedang mengembangkan dua implementasi yang dapat diskalakan hingga ukuran GPT-3+

→ GPT-Neo: kode berbasis Tensorflow-mesh (TPU)

→ GPT-Neox: kode berbasis DeepSpeed (GPU)

  • Saat ini pelatihan skala GPT-2 telah selesai dan sedang meninjau evaluasi model

  • Menguji hingga 200 miliar parameter dengan pelatihan satu tahap

Belum ada komentar.

Belum ada komentar.