gigaGPT - Model GPT-3 yang dibuat dengan 565 baris kode

xguru · 2023-12-16T10:31:01+09:00

Meningkatkan nanoGPT karya Andrei Karpathy, yang hanya mampu menangani 100M (100 juta) parameter, sehingga dapat dilatih hingga 100B (100 miliar) Tidak bergantung pada kode lain maupun framework pihak ketiga, dan memanfaatkan memori besar serta kemampuan komputasi dari "perangkat keras Cerebras" untuk memungkinkan pelatihan skala besar pada kode torch.nn vanilla Mendukung panjang konteks yang panjang tanpa modifikasi tambahan, serta bekerja bersama berbagai alat optimasi Cerebras adalah produsen chipset; kecepatan perkalian matriksnya mirip dengan GPU, tetapi perusahaan ini membuat chip yang jauh lebih besar sehingga dapat menempatkan lebih banyak transistor dan memori dalam satu chip Berkat ukuran ini, tidak perlu melakukan pekerjaan seperti sharding dan penggabungan lintas banyak perangkat, sehingga jumlah LOC bisa dibuat lebih sedikit

Meningkatkan nanoGPT karya Andrei Karpathy, yang hanya mampu menangani 100M (100 juta) parameter, sehingga dapat dilatih hingga 100B (100 miliar)
Tidak bergantung pada kode lain maupun framework pihak ketiga, dan memanfaatkan memori besar serta kemampuan komputasi dari "perangkat keras Cerebras" untuk memungkinkan pelatihan skala besar pada kode torch.nn vanilla
Mendukung panjang konteks yang panjang tanpa modifikasi tambahan, serta bekerja bersama berbagai alat optimasi
Cerebras adalah produsen chipset; kecepatan perkalian matriksnya mirip dengan GPU, tetapi perusahaan ini membuat chip yang jauh lebih besar sehingga dapat menempatkan lebih banyak transistor dan memori dalam satu chip
- Berkat ukuran ini, tidak perlu melakukan pekerjaan seperti sharding dan penggabungan lintas banyak perangkat, sehingga jumlah LOC bisa dibuat lebih sedikit

gigaGPT - Model GPT-3 yang dibuat dengan 565 baris kode

Bacaan terkait

Belum ada komentar.