-
Peningkatan kecepatan pelatihan 7x dibanding model T5 (Text-to-Text Transfer Transformer) yang sudah ada
-
Algoritme MoE (Mixture-of-Experts) varian bernama Switch Routing, yang menerapkan parameter berbeda untuk setiap nilai input
-
Menggunakan Mesh-Tensorflow untuk pelatihan model (Model Parallelism)
Belum ada komentar.