15 poin oleh xguru 2020-10-26 | 2 komentar | Bagikan ke WhatsApp

Materi yang mirip dengan data yang digunakan oleh GPT-3 milik OpenAI

  • books3.tar.gz : 37GB, sekitar 197.000 buku yang diekstrak ke format txt

  • github.tar.gz : 106G, kumpulan berbagai repo di GitHub

  • stackexchange_dataset.tar : 34G, data tanya-jawab dari Stack Exchange

Selain itu ada banyak lagi beragam materi lainnya

2 komentar

 
ffdd270 2020-10-27

Agak tiba-tiba, tetapi ketika melihat arsip pembelajaran seperti itu dan arsip-arsip semacamnya, saya sekali lagi menyadari bahwa di dunia digital tidak ada kebebasan untuk dilupakan.

 
xguru 2020-10-26

Penjelasan tentang materi ini dapat dilihat di thread Twitter di bawah.

https://threadreaderapp.com/thread/1320282149329784833.html