14 poin oleh xguru 2023-04-19 | 1 komentar | Bagikan ke WhatsApp
  • Proyek untuk membuat model bahasa yang dapat direproduksi dan sepenuhnya terbuka, bukan model semi-terbuka seperti LLaMA, Alpaca, atau Vicuna
  • Terdiri dari 3 komponen
    • Data pre-training dengan kualitas tinggi dan cakupan luas
    • Model dasar yang dilatih dalam skala besar berdasarkan data ini
    • Data dan model instruction tuning untuk membuat model dasar aman dan dapat digunakan
  • Sebagai komponen pertama, mereka merilis dataset RedPajama-Data-1T
    • Dataset sepenuhnya terbuka yang terdiri dari 1,2 triliun token, dibuat mengikuti resep yang dijelaskan dalam makalah LLaMA
    • Dapat diunduh melalui HuggingFace. Total 5TB (didistribusikan dalam bentuk terkompresi 3TB)
    • Terdiri dari 7 bagian data: masing-masing dipraproses dan difilter agar jumlahnya mirip dengan yang ada di makalah LLaMA (metode praproses dan filternya juga dibuka di GitHub)
      • CommonCrawl (878b) - data crawling web
      • C4 (175b) - versi Common Crawl yang besar dan telah dibersihkan
      • GitHub (59b) - data dari GitHub yang difilter berdasarkan lisensi dan kualitas
      • arXiv (28b) - makalah dan artikel ilmiah (boilerplate dihapus)
      • Books (26b) - korpus buku publik yang dideduplicasi berdasarkan kemiripan konten
      • Wikipedia (24b) - sebagian halaman Wikipedia (boilerplate dihapus)
      • StackExchange (20b) - sebagian halaman StackExchange (boilerplate dihapus)
  • Langkah berikutnya adalah melatih model dasar yang kuat. Dijadwalkan rilis dalam beberapa minggu ke depan
  • Instruction tuning direncanakan menggunakan yang disediakan melalui OpenChatkit