Model RedPajama 3B, 7B dirilis

xguru · 2023-05-08T10:01:01+09:00

Proyek untuk membuat model bahasa terbuka sepenuhnya Merilis model-model RedPajama-INCITE dengan parameter 3B (selesai) dan 7B (pratinjau), berdasarkan dataset RedPajama-Data-1T yang dirilis 3 minggu lalu Model Base Model yang di-tuning untuk instruksi Model chat Model 3B adalah yang paling kuat di kelasnya. Ukurannya kecil sehingga cepat dan dapat dijalankan bahkan pada perangkat seperti RTX 2070 yang dirilis 5 tahun lalu Model 7B versi instruction tuning mencetak skor 3 poin lebih tinggi daripada LLaMA 7B pada benchmark HELM Model 7B (pelatihan 80% selesai) sudah melampaui model Pythia 7B Jika pelatihan 7B selesai dalam beberapa minggu ke depan, model ini akan melampaui LLaMA 7B Model 3B telah distabilkan dengan 800 miliar token, dan model 7B sedang menyelesaikan pelatihan dengan 1 triliun token sambil terus ditingkatkan

(together.xyz)

7 poin oleh xguru 2023-05-08 | 2 komentar | Bagikan ke WhatsApp

Proyek untuk membuat model bahasa terbuka sepenuhnya
Merilis model-model RedPajama-INCITE dengan parameter 3B (selesai) dan 7B (pratinjau), berdasarkan dataset RedPajama-Data-1T yang dirilis 3 minggu lalu
- Model Base
- Model yang di-tuning untuk instruksi
- Model chat
Model 3B adalah yang paling kuat di kelasnya. Ukurannya kecil sehingga cepat dan dapat dijalankan bahkan pada perangkat seperti RTX 2070 yang dirilis 5 tahun lalu
Model 7B versi instruction tuning mencetak skor 3 poin lebih tinggi daripada LLaMA 7B pada benchmark HELM
Model 7B (pelatihan 80% selesai) sudah melampaui model Pythia 7B
Jika pelatihan 7B selesai dalam beberapa minggu ke depan, model ini akan melampaui LLaMA 7B
Model 3B telah distabilkan dengan 800 miliar token, dan model 7B sedang menyelesaikan pelatihan dengan 1 triliun token sambil terus ditingkatkan

2 komentar

coremaker 2023-05-08

Ini memang peristiwa penting bagi riset dan perkembangan AI,
namun besar kemungkinan model-model seperti ini tidak akan menawarkan solusi untuk bagian-bagian yang menjadi masalah saat digunakan secara komersial.
Untuk penggunaan komersial, sepertinya selain memakai modelnya, pekerjaan seperti tuning atau menyiapkan filter tambahan juga harus selalu menyertainya.

xguru 2023-05-08

RedPajama - proyek open source untuk menulis ulang dataset LLaMA

Model RedPajama 3B, 7B dirilis

Bacaan terkait

2 komentar