7 poin oleh xguru 2023-05-08 | 2 komentar | Bagikan ke WhatsApp
  • Proyek untuk membuat model bahasa terbuka sepenuhnya
  • Merilis model-model RedPajama-INCITE dengan parameter 3B (selesai) dan 7B (pratinjau), berdasarkan dataset RedPajama-Data-1T yang dirilis 3 minggu lalu
    • Model Base
    • Model yang di-tuning untuk instruksi
    • Model chat
  • Model 3B adalah yang paling kuat di kelasnya. Ukurannya kecil sehingga cepat dan dapat dijalankan bahkan pada perangkat seperti RTX 2070 yang dirilis 5 tahun lalu
  • Model 7B versi instruction tuning mencetak skor 3 poin lebih tinggi daripada LLaMA 7B pada benchmark HELM
  • Model 7B (pelatihan 80% selesai) sudah melampaui model Pythia 7B
  • Jika pelatihan 7B selesai dalam beberapa minggu ke depan, model ini akan melampaui LLaMA 7B
  • Model 3B telah distabilkan dengan 800 miliar token, dan model 7B sedang menyelesaikan pelatihan dengan 1 triliun token sambil terus ditingkatkan

2 komentar

 
coremaker 2023-05-08

Ini memang peristiwa penting bagi riset dan perkembangan AI,
namun besar kemungkinan model-model seperti ini tidak akan menawarkan solusi untuk bagian-bagian yang menjadi masalah saat digunakan secara komersial.
Untuk penggunaan komersial, sepertinya selain memakai modelnya, pekerjaan seperti tuning atau menyiapkan filter tambahan juga harus selalu menyertainya.