- Proyek untuk membuat model bahasa yang dapat direproduksi dan sepenuhnya terbuka, bukan model semi-terbuka seperti LLaMA, Alpaca, atau Vicuna
- Terdiri dari 3 komponen
- Data pre-training dengan kualitas tinggi dan cakupan luas
- Model dasar yang dilatih dalam skala besar berdasarkan data ini
- Data dan model instruction tuning untuk membuat model dasar aman dan dapat digunakan
- Sebagai komponen pertama, mereka merilis dataset RedPajama-Data-1T
- Dataset sepenuhnya terbuka yang terdiri dari 1,2 triliun token, dibuat mengikuti resep yang dijelaskan dalam makalah LLaMA
- Dapat diunduh melalui HuggingFace. Total 5TB (didistribusikan dalam bentuk terkompresi 3TB)
- Terdiri dari 7 bagian data: masing-masing dipraproses dan difilter agar jumlahnya mirip dengan yang ada di makalah LLaMA (metode praproses dan filternya juga dibuka di GitHub)
- CommonCrawl (878b) - data crawling web
- C4 (175b) - versi Common Crawl yang besar dan telah dibersihkan
- GitHub (59b) - data dari GitHub yang difilter berdasarkan lisensi dan kualitas
- arXiv (28b) - makalah dan artikel ilmiah (boilerplate dihapus)
- Books (26b) - korpus buku publik yang dideduplicasi berdasarkan kemiripan konten
- Wikipedia (24b) - sebagian halaman Wikipedia (boilerplate dihapus)
- StackExchange (20b) - sebagian halaman StackExchange (boilerplate dihapus)
- Langkah berikutnya adalah melatih model dasar yang kuat. Dijadwalkan rilis dalam beberapa minggu ke depan
- Instruction tuning direncanakan menggunakan yang disediakan melalui OpenChatkit
1 komentar
OpenChatKit dirilis - proyek open source yang memungkinkan implementasi ChatGPT