RedPajama - Proyek open source untuk menulis ulang dataset LLaMA

xguru · 2023-04-19T10:03:01+09:00

Proyek untuk membuat model bahasa yang dapat direproduksi dan sepenuhnya terbuka, bukan model semi-terbuka seperti LLaMA, Alpaca, atau Vicuna Terdiri dari 3 komponen Data pre-training dengan kualitas tinggi dan cakupan luas Model dasar yang dilatih dalam skala besar berdasarkan data ini Data dan model instruction tuning untuk membuat model dasar aman dan dapat digunakan Sebagai komponen pertama, mereka merilis dataset RedPajama-Data-1T Dataset sepenuhnya terbuka yang terdiri dari 1,2 triliun token, dibuat mengikuti resep yang dijelaskan dalam makalah LLaMA Dapat diunduh melalui HuggingFace. Total 5TB (didistribusikan dalam bentuk terkompresi 3TB) Terdiri dari 7 bagian data: masing-masing dipraproses dan difilter agar jumlahnya mirip dengan yang ada di makalah LLaMA (metode praproses dan filternya juga dibuka di GitHub) CommonCrawl (878b) - data crawling web C4 (175b) - versi Common Crawl yang besar dan telah dibersihkan GitHub (59b) - data dari GitHub yang difilter berdasarkan lisensi dan kualitas arXiv (28b) - makalah dan artikel ilmiah (boilerplate dihapus) Books (26b) - korpus buku publik yang dideduplicasi berdasarkan kemiripan konten Wikipedia (24b) - sebagian halaman Wikipedia (boilerplate dihapus) StackExchange (20b) - sebagian halaman StackExchange (boilerplate dihapus) Langkah berikutnya adalah melatih model dasar yang kuat. Dijadwalkan rilis dalam beberapa minggu ke depan Instruction tuning direncanakan menggunakan yang disediakan melalui OpenChatkit

(together.xyz)

14 poin oleh xguru 2023-04-19 | 1 komentar | Bagikan ke WhatsApp

Proyek untuk membuat model bahasa yang dapat direproduksi dan sepenuhnya terbuka, bukan model semi-terbuka seperti LLaMA, Alpaca, atau Vicuna
Terdiri dari 3 komponen
- Data pre-training dengan kualitas tinggi dan cakupan luas
- Model dasar yang dilatih dalam skala besar berdasarkan data ini
- Data dan model instruction tuning untuk membuat model dasar aman dan dapat digunakan
Sebagai komponen pertama, mereka merilis dataset RedPajama-Data-1T
- Dataset sepenuhnya terbuka yang terdiri dari 1,2 triliun token, dibuat mengikuti resep yang dijelaskan dalam makalah LLaMA
- Dapat diunduh melalui HuggingFace. Total 5TB (didistribusikan dalam bentuk terkompresi 3TB)
- Terdiri dari 7 bagian data: masing-masing dipraproses dan difilter agar jumlahnya mirip dengan yang ada di makalah LLaMA (metode praproses dan filternya juga dibuka di GitHub)
  - CommonCrawl (878b) - data crawling web
  - C4 (175b) - versi Common Crawl yang besar dan telah dibersihkan
  - GitHub (59b) - data dari GitHub yang difilter berdasarkan lisensi dan kualitas
  - arXiv (28b) - makalah dan artikel ilmiah (boilerplate dihapus)
  - Books (26b) - korpus buku publik yang dideduplicasi berdasarkan kemiripan konten
  - Wikipedia (24b) - sebagian halaman Wikipedia (boilerplate dihapus)
  - StackExchange (20b) - sebagian halaman StackExchange (boilerplate dihapus)
Langkah berikutnya adalah melatih model dasar yang kuat. Dijadwalkan rilis dalam beberapa minggu ke depan
Instruction tuning direncanakan menggunakan yang disediakan melalui OpenChatkit

1 komentar

xguru 2023-04-19

OpenChatKit dirilis - proyek open source yang memungkinkan implementasi ChatGPT

RedPajama - Proyek open source untuk menulis ulang dataset LLaMA

Bacaan terkait

1 komentar