Kumpulan Data Teks untuk Pelatihan AI
(the-eye.eu)Materi yang mirip dengan data yang digunakan oleh GPT-3 milik OpenAI
-
books3.tar.gz : 37GB, sekitar 197.000 buku yang diekstrak ke format txt
-
github.tar.gz : 106G, kumpulan berbagai repo di GitHub
-
stackexchange_dataset.tar : 34G, data tanya-jawab dari Stack Exchange
Selain itu ada banyak lagi beragam materi lainnya
2 komentar
Agak tiba-tiba, tetapi ketika melihat arsip pembelajaran seperti itu dan arsip-arsip semacamnya, saya sekali lagi menyadari bahwa di dunia digital tidak ada kebebasan untuk dilupakan.
Penjelasan tentang materi ini dapat dilihat di thread Twitter di bawah.
https://threadreaderapp.com/thread/1320282149329784833.html