- Meningkatkan
nanoGPT karya Andrei Karpathy, yang hanya mampu menangani 100M (100 juta) parameter, sehingga dapat dilatih hingga 100B (100 miliar)
- Tidak bergantung pada kode lain maupun framework pihak ketiga, dan memanfaatkan memori besar serta kemampuan komputasi dari "perangkat keras Cerebras" untuk memungkinkan pelatihan skala besar pada kode
torch.nn vanilla
- Mendukung panjang konteks yang panjang tanpa modifikasi tambahan, serta bekerja bersama berbagai alat optimasi
- Cerebras adalah produsen chipset; kecepatan perkalian matriksnya mirip dengan GPU, tetapi perusahaan ini membuat chip yang jauh lebih besar sehingga dapat menempatkan lebih banyak transistor dan memori dalam satu chip
- Berkat ukuran ini, tidak perlu melakukan pekerjaan seperti sharding dan penggabungan lintas banyak perangkat, sehingga jumlah LOC bisa dibuat lebih sedikit
Belum ada komentar.