The Pile, dataset pemodelan bahasa open-source berukuran 825GiB (2020)

(pile.eleuther.ai)

1 poin oleh GN⁺ 2024-03-09 | 1 komentar | Bagikan ke WhatsApp

Seiring pentingnya keluasan sumber data dalam pelatihan model bahasa skala besar, The Pile dirilis sebagai set pelatihan publik berukuran 825GiB yang menggabungkan 22 dataset berkualitas tinggi
Desain intinya adalah menggabungkan berbagai sumber seperti buku, kode, halaman web, log chat, dan makalah akademik untuk meningkatkan generalisasi lintas domain
Model yang dilatih dengan The Pile menunjukkan peningkatan tingkat menengah pada benchmark pemodelan bahasa yang sudah ada, dan menunjukkan peningkatan yang signifikan pada Pile BPB
Karena Pile BPB menangani teks dari berbagai domain secara bersamaan, ini digunakan untuk memverifikasi kemampuan pemodelan teks yang lebih luas dibanding performa pada korpus tunggal
Leaderboard menandai kemungkinan duplikasi set uji dengan *, dan Zero-shot berarti tidak semua komponen The Pile disertakan dalam data pelatihan

Komposisi dan distribusi The Pile

The Pile adalah dataset pemodelan bahasa open-source yang beragam dengan ukuran 825GiB
Disusun dengan menggabungkan 22 dataset yang lebih kecil namun berkualitas tinggi menjadi satu
File unduhan di-host di the Eye
Jika ada model yang menggunakan The Pile atau dievaluasi dengan The Pile, Anda dapat memberi tahu EleutherAI
Jika menggunakan The Pile atau komponennya, makalah berikut harus disitasi
- The Pile: An 800GB Dataset of Diverse Text for Language Modeling
  - arXiv preprint arXiv:2101.00027, 2020

Peran sebagai set pelatihan dan benchmark

Khususnya pada model skala besar, keragaman sumber data meningkatkan pengetahuan umum lintas domain dan kemampuan generalisasi downstream
Hasil evaluasi menunjukkan bahwa model yang dilatih dengan The Pile memperlihatkan peningkatan tingkat menengah pada benchmark pemodelan bahasa tradisional dan mencatat peningkatan signifikan pada Pile BPB
Pile BPB (bits per byte) adalah benchmark yang memerlukan pemahaman teks dari berbagai domain
- Domain target mencakup buku, repositori GitHub, halaman web, dan log chat
- Juga mencakup makalah kedokteran, fisika, matematika, ilmu komputer, dan filsafat
Benchmark ini sekaligus menuntut pengetahuan dunia spesifik domain dan kemampuan penalaran, sehingga digunakan untuk mengevaluasi kemampuan pemodelan teks lintas domain dari model bahasa skala besar
Contoh leaderboard mencakup entri per 1 Januari 2021
- GPT-3 (Zero-Shot)*, OpenAI: Test BPB 0.7177
- GPT-2 (Zero-Shot)*, OpenAI: Test BPB 1.2253
- * menunjukkan kemungkinan adanya duplikasi set uji
- Zero-shot berarti tidak semua komponen The Pile disertakan dalam data pelatihan

1 komentar

GN⁺ 2024-03-09

Komentar Hacker News

Pada 2020, ketika ada kekhawatiran bahwa The Pile memasukkan Books3, Stella Biderman, yang saat itu memimpin Eleuther, menjawab seperti ini:
Ia mengatakan bahwa dalam data ada 1) materi mentah yang ada di dunia dan sudah diunggah online, 2) data per set yang telah dibersihkan dan diproses dari materi mentah itu untuk pemodelan bahasa, 3) The Pile, yang menggabungkan data per set tersebut dalam skala besar, termasuk bobotnya
Eleuther membuat dan merilis 2 dan 3, menjelaskan bahwa 2 dibiarkan agar orang bisa memberi bobot ulang dan mengombinasikannya ulang, sementara kebanyakan orang kemungkinan akan langsung mengambil 3 apa adanya
Ia juga berpendapat bahwa meskipun 2 dan 3 berisi data berhak cipta, menurut standar AS itu merupakan penggunaan wajar sehingga bukan pelanggaran hak cipta; mengunduh Maroon 5 dari sebuah situs web lalu membuat dataset yang termasuk kategori 2 bisa saja melanggar dalam kondisi tertentu, tetapi penggunaan mereka sendiri dianggap tidak melanggar
- Klaim bahwa “2 dan 3 adalah penggunaan wajar sehingga bukan pelanggaran hak cipta” tidak bisa diketahui sebelum diuji lewat gugatan
  Penggunaan wajar bukan sesuatu yang berlaku hanya karena dinyatakan sendiri; mirip seperti Michael Scott dari The Office yang berteriak, “Saya menyatakan bangkrut!”
  Pengadilan menilai berdasarkan 1) tujuan dan karakter penggunaan, 2) sifat karya berhak cipta, 3) jumlah dan substansialitas bagian yang digunakan, 4) dampaknya terhadap pasar atau nilai potensial, dan inilah alasan OpenAI bersengketa dengan New York Times
  Ringkasannya cukup baik dijelaskan di https://copyright.columbia.edu/basics/fair-use.html
- Jika set nomor 2 berisi karya lengkap yang pemegang hak ciptanya tidak mengizinkan distribusi, misalnya satu buku utuh, saya tidak paham bagaimana pernyataan itu bisa benar
  Kecuali maksudnya “pemrosesan untuk pemodelan bahasa” adalah proses yang sepenuhnya tidak bisa dibalik
- Saya tidak tahu jawaban yang benar untuk isu hak cipta ini, tetapi pada 2024 saya berharap ada sikap yang lebih baik terhadap tenaga manusia yang masuk ke dalam model, dibanding kalimat pasif seperti “data ada di dunia” atau “dikumpulkan menjadi dataset”
- Mereka mendistribusikan karya tanpa izin penulis, menggunakannya dengan cara yang bersaing dengan penulis, banyak AI menghasilkan uang, dan sebagian mereproduksi teks asli apa adanya
  Dataset semacam ini tampaknya gagal dalam sebagian besar uji 4 faktor hukum hak cipta, dan orang awam yang saya jelaskan tentang LLM pun menerima bahwa perusahaan AI mencuri karya orang lain
  Ada tulisan yang merangkum isu hukum terkait, tiap dataset termasuk The Pile, alternatif legal, dan usulan revisi hak cipta yang seimbang: http://gethisword.com/tech/exploringai/
  Saat ini saya pikir setidaknya di satu negara sekalipun, tiga aturan harus segera ada: karya yang dapat diakses secara legal harus boleh dipakai untuk pelatihan AI; pembatasan pelatihan, biaya tambahan, dan pembatasan unduhan harus ilegal; karya yang dapat diakses harus boleh disalin dan dikonversi untuk pelatihan bagi penggunaan pribadi; dan karya web yang tersedia gratis untuk publik harus boleh disalin, dibagikan, diproses, dan dibundel untuk pelatihan AI, terlepas dari ketentuannya
  Hak cipta atas output AI harus mengikuti doktrin hukum yang sudah ada untuk karya AI dan karya campuran, dan jika output tersebut dapat dikenai hak cipta, statusnya harus sama seperti pengguna menerbitkannya sendiri dengan bergantung pada karya yang sudah ada; agar hal itu bisa dinilai, set pelatihannya juga harus dibuka
- Mengambil data dari Libgen, mengunduh konten berhak cipta, lalu mendistribusikannya ulang itu bukan ilegal?
  Saya skeptis. Men-seed film yang didapat dari suatu tempat di internet lewat torrent bukan “penggunaan wajar”, dan The Pile bukan hanya kode yang mengubah data, melainkan data yang didistribusikan ulang itu sendiri
  Dengan logika ini, artinya menjalankan mirror Libgen secara legal pun dimungkinkan
Di mana reproduksi lisensi dan kredit/atribusi penulis untuk konten yang didistribusikan dalam dataset ini bisa dilihat?
Apakah semuanya disertakan? Bisakah kita tahu apakah semua item yang dimasukkan sudah patuh?
Saya terbuka pada diskusi bahwa generator yang dibuat dari model yang memakan data berhak cipta dapat menghindari kewajiban hak cipta pada outputnya, tetapi dataset itu sendiri tentu terikat hak cipta konten yang ada di dalamnya, bukan?
- Dataset ini berisi Books3, yang hampir merupakan dump lengkap Bibliotik, tracker torrent khusus ebook bajakan
  Jika Anda menutupi dinding dengan nama penulis atau penerbit terkenal lalu melempar dart, besar kemungkinan pihak yang terkena punya hak atas sebagian data ini
  Sepertinya selama bilang “untuk riset AI”, apa pun boleh dilakukan. Seolah-olah kalau punya domain .ai, mengunggah rip Blu-ray pun tidak masalah
- Mereka mencurinya karena menganggap membuat mainan mereka sendiri lebih penting daripada hak orang lain atas hasil kerja mereka
Saya tidak percaya orang-orang membagikan dan mem-posting ulang karya berhak cipta di internet. Mengejutkan
Pokoknya, apakah RedPajama 30T dan The Pile berarti “all you need”? ;)
- Itu cukup untuk prapelatihan yang nantinya menangani tugas pemrosesan bahasa alami tertentu
  Untuk mendapatkan hasil yang menarik, Anda perlu membuat dataset instruksi dari sini, dan dataset itu harus mencakup beragam tugas
  Bukan teks lengkap itu sendiri yang membuat LLM menampilkan pengetahuan dan penalaran, melainkan dataset instruksi yang besar dan beragam
- Karena terlalu banyak perdebatan hak cipta, sedang berjalan proyek untuk membuat The Pile v2 yang hanya memasukkan data berlisensi permisif
Apakah Books3 yang disebut dalam makalah The Pile itu memang dataset yang sedang digugat oleh para penulis? Yang berisi banyak materi populer dan berhak cipta itu?
- Betul. Menurut makalah yang ditautkan, Books3 adalah dataset buku yang diturunkan dari salinan konten tracker privat Bibliotik yang dipublikasikan oleh Shawn Presser
  Bibliotik berisi campuran fiksi dan nonfiksi, ukurannya hampir satu orde magnitudo lebih besar daripada BookCorpus2, dataset buku terbesar berikutnya, dan disebutkan bahwa buku dimasukkan karena berharga untuk riset pemodelan konteks panjang dan penceritaan yang konsisten
- Sebagai titik awal untuk melihat berbagai proses hukum, daftar ini tampaknya cukup bagus. Saya tidak tahu seberapa sering diperbarui hingga mencakup kasus Silverman dkk.
  https://originality.ai/blog/openai-chatgpt-lawsuit-list
- Sepertinya begitu. Lihat https://www.wired.com/story/battle-over-books3/
- Apakah mereka berargumen bahwa data mereka tidak berasal dari sumber berhak cipta atau bukan objek hak cipta?
Perhatian banyak tertuju pada Books3, tetapi komponen besar lain dari dataset ini adalah OpenWebText2, yang namanya agak menyesatkan
Ini adalah hasil scraping 15 tahun situs web pihak ketiga yang ditautkan dalam kiriman Reddit yang banyak direkomendasikan, dan sebagian tulisan saya juga ada di dalamnya
- Terlepas dari relevansi dan dampaknya, sulit menerima klaim hak moral atas konten yang Anda unggah secara publik di internet pada situs tanpa pembatasan akses
  Itu sama seperti menyiarkannya lewat radio atau mengirimkan materi cetak ke depan rumah jutaan orang acak
  Ada cara untuk menetapkan kepemilikan kekayaan intelektual dan melindungi data dengan hak cipta, tetapi fanfic Tumblr, komentar YouTube, dan diskusi HN bukan jalur resmi untuk mengamankan hak cipta
  Apa pun yang Anda pasang di situs web yang bisa di-scrape secara legal dapat menjadi subjek penggunaan wajar
  Data yang dikumpulkan dari situs web publik bisa Anda gunakan untuk apa saja secara pribadi, dan Anda juga bisa membuat HN LLM yang bagus dari dataset hasil scraping untuk dipakai sendiri
  Dengan mempertimbangkan yurisprudensi terbaru, selama ada upaya itikad baik untuk menghormati hak cipta dan mencegah reproduksi teks asli, model yang dilatih dengan karya-karya dari seluruh dunia pun mungkin dapat disediakan lewat API dan digunakan secara komersial
  Namun jika Anda menjual atau mendistribusikan model itu sendiri, Anda masuk ke ranah hukum lain
  Internet memang dirancang untuk bekerja seperti itu, dan jika ingin memblokir akses, Anda harus menerapkan autentikasi, pengaturan jaringan, dan kontrol akses
  Jika Anda memasangnya di situs publik tanpa perangkat semacam itu, harus dianggap bahwa Anda telah melepaskan sebagian besar klaim perlindungan terhadap penggunaan wajar yang luas, dan begitu Anda memiliki server serta domain, Anda secara implisit mengundang seluruh dunia untuk datang mengunduh
  Apa yang Anda anggap disalahgunakan di OpenWebText2 pada dasarnya bermula dari fakta bahwa Anda memasangnya di situs web publik lalu kehilangan kendali atas penggunaan berikutnya, dan itu di-scrape secara wajar
- Beri tahu nama domainnya, nanti saya coba cek plagiarisme di LLM utama
  Sepertinya tidak ada model mana pun yang bisa menghasilkan bahkan satu kalimat dari tulisan Anda
Apakah masih bisa diunduh di suatu tempat? Beberapa bulan lalu saya mencoba mengunduhnya, tetapi tautan unduhannya 404, dan sepertinya masih begitu sekarang
- Distribusinya sebagian besar dilakukan lewat tautan torrent/magnet dan pertukaran hard drive langsung
  Kalau tidak mengenal orang yang sudah memilikinya, coba cari di tracker publik
  Namun perlu diketahui bahwa karena berisi konten berhak cipta, distribusinya termasuk pembajakan ilegal
- Saya tidak tahu apakah boleh memasang tautan magnet di sini
  magnet:?xt=urn:btih:0d366035664fdf51cfbe9f733953ba325776e667&dn=EleutherAI_ThePile_v1
- Ada petunjuk bahwa The Pile adalah kabar lama, dan lebih baik melihat dataset yang lebih baru seperti the-stack-v2
  https://huggingface.co/datasets/bigcode/the-stack-v2
  — https://the-eye.eu/public/AI/pile/readme.txt
- The Pile berisi banyak sumber terkurasi, dan tren terbaru adalah menggabungkan sumber data terkurasi dengan crawl web yang difilter
  Misalnya dengan memproses Common Crawl secara ketat lalu mencampurkannya; dolma yang disebut orang lain atau the-stack-v2 untuk model kode adalah contohnya
Namanya keren. Mengingatkan pada “Pile” asli di Manhattan Project
Saya membacanya di “The Making of the Atomic Bomb” (1986), dan mungkin juga muncul di film terbaru
- Sebenarnya hampir tidak muncul. Seingat saya hanya ada adegan yang menyebutkannya sangat singkat
  Filmnya terasa seperti merangkai anekdot untuk membuat pesan yang kaku di bagian akhir
  Sebagai cerita fiktif, bukan rekonstruksi nyata, filmnya lumayan, tetapi lebih baik membaca bukunya
  Khususnya jika tertarik pada Fermi, saya merekomendasikan “The Last Man Who Knew Everything” karya David Schwartz
The Pile sudah cukup lama; apakah ini versi yang diperbarui?
- Bukan
  Terkait hal ini, dataset the-stack v2 baru-baru ini dirilis
  Katanya, mereka menelusuri dataset graf Software Heritage 2023-09-06 dan mengumpulkan 3,28 miliar file unik yang termasuk dalam 104,2 juta repositori GitHub, serta mengumpulkan metadata tingkat repositori tambahan dari data GitHub Archive hingga 2023-09-14
  Total ukuran tanpa kompresi adalah 67,53 TB, dan pipeline prapemrosesan menerapkan deduplikasi perkiraan di atas deduplikasi persis
  Setelah deduplikasi, berdasarkan ukuran dan jumlah token, v1 adalah 2,9 TB·200B, sedangkan v2 adalah 32,1 TB·900B
  Sepertinya sebentar lagi akan muncul model coding terbuka yang cukup kuat, dan model yang ingin saya uji adalah dolphincoder-starcoder2-15b-iMat.GGUF, CodeFuse-DeepSeek-33B-iMat.GGUF, OpenCodeInterpreter-DS-33B-iMat.GGUF, starcoder2-15b-instruct-iMat.GGUF
  Dataset: https://huggingface.co/datasets/bigcode/the-stack-v2
  Kuantisasi GGUF: https://huggingface.co/dranger003
Studio besar Hollywood membayar banyak uang kepada berbagai perusahaan keamanan siber untuk menemukan konten bajakan dan mengirim pemberitahuan penghentian pelanggaran hak cipta kepada perusahaan hosting
Jika para penulis dan seniman berkumpul dalam bentuk semacam konsorsium data, mereka bisa melakukan hal yang sama seperti studio
Jika hukum hak cipta memiliki kekuatan nyata, organisasi semacam itu dapat mengirim permintaan hukum ke tempat yang meng-hosting konten tersebut dan menuntut agar konten itu diturunkan

The Pile, dataset pemodelan bahasa open-source berukuran 825GiB (2020)

Komposisi dan distribusi The Pile

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Peran sebagai set pelatihan dan benchmark

Bacaan terkait

1 komentar

Komentar Hacker News