RedPajama v2 - Dataset 30 triliun (30T) token untuk pelatihan LLM

xguru · 2023-11-09T09:46:02+09:00

Jauh lebih besar dibanding RedPajama-1T yang berisi 1 triliun token Lebih dari 100 miliar dokumen teks yang mencakup lebih dari 100 triliun token mentah dari 84 dump CommonCrawl Menyertakan lebih dari 40 anotasi kualitas yang paling umum digunakan, yang telah dihitung sebelumnya, untuk subset 30 triliun token yang sudah dideduplikasi 5 bahasa: Inggris, Prancis, Spanyol, Jerman, Italia Semua skrip pemrosesan data bersifat open source dan tersedia di GitHub, dan seluruh data tersedia di HuggingFace

(together.ai)

5 poin oleh xguru 2023-11-09 | 1 komentar | Bagikan ke WhatsApp

Jauh lebih besar dibanding RedPajama-1T yang berisi 1 triliun token
Lebih dari 100 miliar dokumen teks yang mencakup lebih dari 100 triliun token mentah dari 84 dump CommonCrawl
Menyertakan lebih dari 40 anotasi kualitas yang paling umum digunakan, yang telah dihitung sebelumnya, untuk subset 30 triliun token yang sudah dideduplikasi
5 bahasa: Inggris, Prancis, Spanyol, Jerman, Italia
Semua skrip pemrosesan data bersifat open source dan tersedia di GitHub, dan seluruh data tersedia di HuggingFace

1 komentar

xguru 2023-11-09

RedPajama - proyek open source untuk menulis ulang dataset LLaMA
Model RedPajama 3B dan 7B dirilis
RedPajama merilis model 7B yang menunjukkan kinerja lebih baik daripada model LLM 7B publik lainnya pada benchmark HELM

RedPajama v2 - Dataset 30 triliun (30T) token untuk pelatihan LLM

Bacaan terkait

1 komentar