3 poin oleh xguru 2021-02-19 | Belum ada komentar. | Bagikan ke WhatsApp
  • Peningkatan kecepatan pelatihan 7x dibanding model T5 (Text-to-Text Transfer Transformer) yang sudah ada

  • Algoritme MoE (Mixture-of-Experts) varian bernama Switch Routing, yang menerapkan parameter berbeda untuk setiap nilai input

  • Menggunakan Mesh-Tensorflow untuk pelatihan model (Model Parallelism)

Belum ada komentar.

Belum ada komentar.