- Jauh lebih besar dibanding RedPajama-1T yang berisi 1 triliun token
- Lebih dari 100 miliar dokumen teks yang mencakup lebih dari 100 triliun token mentah dari 84 dump CommonCrawl
- Menyertakan lebih dari 40 anotasi kualitas yang paling umum digunakan, yang telah dihitung sebelumnya, untuk subset 30 triliun token yang sudah dideduplikasi
- 5 bahasa: Inggris, Prancis, Spanyol, Jerman, Italia
- Semua skrip pemrosesan data bersifat open source dan tersedia di GitHub, dan seluruh data tersedia di HuggingFace
1 komentar
RedPajama - proyek open source untuk menulis ulang dataset LLaMA
Model RedPajama 3B dan 7B dirilis
RedPajama merilis model 7B yang menunjukkan kinerja lebih baik daripada model LLM 7B publik lainnya pada benchmark HELM