5 poin oleh xguru 2023-11-09 | 1 komentar | Bagikan ke WhatsApp
  • Jauh lebih besar dibanding RedPajama-1T yang berisi 1 triliun token
  • Lebih dari 100 miliar dokumen teks yang mencakup lebih dari 100 triliun token mentah dari 84 dump CommonCrawl
  • Menyertakan lebih dari 40 anotasi kualitas yang paling umum digunakan, yang telah dihitung sebelumnya, untuk subset 30 triliun token yang sudah dideduplikasi
  • 5 bahasa: Inggris, Prancis, Spanyol, Jerman, Italia
  • Semua skrip pemrosesan data bersifat open source dan tersedia di GitHub, dan seluruh data tersedia di HuggingFace