The Pile: dataset 800GB berisi teks beragam untuk pemodelan bahasa
- The Pile adalah dataset pemodelan bahasa open-source yang beragam berukuran 825 GiB, dibuat dengan menggabungkan 22 dataset kecil berkualitas tinggi.
- Dataset ini dihosting oleh sebuah organisasi bernama Eye, dan dikompresi menggunakan zstandard dalam format data jsonlines.
- Jika ada model yang menggunakan atau mengevaluasi The Pile, pengembang meminta agar mereka diberi tahu.
Alasan menggunakan The Pile sebagai set pelatihan
- Menurut penelitian terbaru, khususnya untuk model besar, keberagaman sumber data meningkatkan pengetahuan lintas domain umum model dan kemampuan generalisasi pada tugas hilir.
- Hasil evaluasi menunjukkan bahwa model yang dilatih dengan The Pile memperlihatkan peningkatan moderat pada benchmark pemodelan bahasa tradisional, dan peningkatan yang signifikan pada Pile BPB.
Alasan menggunakan The Pile sebagai benchmark
- Untuk memperoleh skor bagus pada Pile BPB (bits per byte), model harus mampu memahami beragam domain seperti buku, repositori GitHub, halaman web, log obrolan, kedokteran, fisika, matematika, ilmu komputer, dan makalah filsafat.
- Pile BPB adalah metrik yang mengukur pengetahuan dunia dan kemampuan penalaran pada domain-domain ini, serta merupakan benchmark yang kuat untuk kemampuan pemodelan teks lintas domain umum dari model bahasa besar.
Sitasi
- Jika menggunakan The Pile atau komponennya, diminta untuk mengutipnya sebagai berikut.
@article{pile,
title={The {P}ile: An 800GB Dataset of Diverse Text for Language Modeling},
author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and Presser, Shawn and Leahy, Connor},
journal={arXiv preprint arXiv:2101.00027},
year={2020}
}
Papan peringkat
- Papan peringkat menunjukkan kemungkinan adanya duplikasi dengan set uji, dan Zero-shot berarti semua komponen Pile tidak disertakan dalam data pelatihan.
- GPT-3 (Zero-Shot)* dan GPT-2 (Zero-Shot)* masing-masing diberi peringkat oleh OpenAI pada 1 Januari 2021 dengan Test BPB sebesar 0.7177 dan 1.225.
- Kode evaluasi disediakan oleh EleutherAI pada 2021.
Opini GN⁺
- Dataset The Pile mencerminkan temuan riset terbaru bahwa keberagaman data penting dalam pelatihan dan benchmarking model bahasa. Hal ini membantu model bahasa memahami dan memproses beragam teks dari dunia nyata.
- Ukuran dan keberagaman dataset memungkinkan model mempelajari cakupan pengetahuan yang lebih luas dan memiliki kemampuan generalisasi yang lebih baik. Ini dapat dilihat sebagai kemajuan penting terutama di bidang kecerdasan buatan.
- Namun, untuk memanfaatkan dataset berskala besar seperti ini secara efektif dibutuhkan sumber daya komputasi yang signifikan, yang menimbulkan persoalan biaya dan dampak lingkungan yang perlu dipertimbangkan.
- Proyek lain dengan fungsi serupa mencakup model bahasa besar seperti GPT-3 milik OpenAI, yang juga belajar dari beragam sumber data.
- Sebelum menggunakan The Pile, diperlukan pemahaman yang memadai tentang asal-usul dan kualitas data, serta tentang apa yang akan dipelajari model. Keuntungan dari memilih dataset ini adalah perolehan pengetahuan model yang beragam, tetapi biaya pemrosesan dan penyimpanan data juga perlu diperhitungkan.
Belum ada komentar.