AI2 Dolma: korpus terbuka 3T token untuk model bahasa
(blog.allenai.org)- Dataset yang dibuat oleh Allen Institute for AI
- Campuran konten web, publikasi akademik, kode, buku, dan materi ensiklopedia
- Dengan 3 triliun token, ini adalah dataset terbesar yang pernah dirilis secara publik hingga saat ini
- Dapat diunduh dari hub HuggingFace
- Lisensi AI2 ImpACT (dibagi menjadi Low/Medium/High berdasarkan risiko artifact)
Belum ada komentar.