- Proyek untuk membuat model bahasa terbuka sepenuhnya
- Merilis model-model RedPajama-INCITE dengan parameter 3B (selesai) dan 7B (pratinjau), berdasarkan dataset RedPajama-Data-1T yang dirilis 3 minggu lalu
- Model Base
- Model yang di-tuning untuk instruksi
- Model chat
- Model 3B adalah yang paling kuat di kelasnya. Ukurannya kecil sehingga cepat dan dapat dijalankan bahkan pada perangkat seperti RTX 2070 yang dirilis 5 tahun lalu
- Model 7B versi instruction tuning mencetak skor 3 poin lebih tinggi daripada LLaMA 7B pada benchmark HELM
- Model 7B (pelatihan 80% selesai) sudah melampaui model Pythia 7B
- Jika pelatihan 7B selesai dalam beberapa minggu ke depan, model ini akan melampaui LLaMA 7B
- Model 3B telah distabilkan dengan 800 miliar token, dan model 7B sedang menyelesaikan pelatihan dengan 1 triliun token sambil terus ditingkatkan
2 komentar
Ini memang peristiwa penting bagi riset dan perkembangan AI,
namun besar kemungkinan model-model seperti ini tidak akan menawarkan solusi untuk bagian-bagian yang menjadi masalah saat digunakan secara komersial.
Untuk penggunaan komersial, sepertinya selain memakai modelnya, pekerjaan seperti tuning atau menyiapkan filter tambahan juga harus selalu menyertainya.
RedPajama - proyek open source untuk menulis ulang dataset LLaMA