12 poin oleh xguru 2023-12-16 | Belum ada komentar. | Bagikan ke WhatsApp
  • Meningkatkan nanoGPT karya Andrei Karpathy, yang hanya mampu menangani 100M (100 juta) parameter, sehingga dapat dilatih hingga 100B (100 miliar)
  • Tidak bergantung pada kode lain maupun framework pihak ketiga, dan memanfaatkan memori besar serta kemampuan komputasi dari "perangkat keras Cerebras" untuk memungkinkan pelatihan skala besar pada kode torch.nn vanilla
  • Mendukung panjang konteks yang panjang tanpa modifikasi tambahan, serta bekerja bersama berbagai alat optimasi
  • Cerebras adalah produsen chipset; kecepatan perkalian matriksnya mirip dengan GPU, tetapi perusahaan ini membuat chip yang jauh lebih besar sehingga dapat menempatkan lebih banyak transistor dan memori dalam satu chip
    • Berkat ukuran ini, tidak perlu melakukan pekerjaan seperti sharding dan penggabungan lintas banyak perangkat, sehingga jumlah LOC bisa dibuat lebih sedikit

Belum ada komentar.

Belum ada komentar.