4 poin oleh xguru 2023-07-01 | Belum ada komentar. | Bagikan ke WhatsApp
  • Seiring LLM makin banyak digunakan, kemampuan untuk diterapkan pada sekuens panjang menjadi semakin penting: peringkasan dokumen, penulisan kode, prediksi sekuens protein, dan lain-lain
  • Namun, sebagian besar LLM open-source seperti LLaMA, MPT, dan Falcon dilatih dengan panjang sekuens token maksimum 2K
  • XGen-7B dilatih pada 1,5T token dengan panjang sekuens hingga maksimum 8K
  • Pada benchmark NLP standar, performanya setara atau lebih baik dibanding MPT, Falcon, LLaMA, Redpajama, dan OpenLLaMA dengan ukuran model yang sama
  • Menunjukkan hasil yang sangat baik pada tugas teks (MMLU, QA) maupun kode (HumanEval)
  • Biaya pelatihan sekitar $150K untuk 1T token menggunakan TPU-v4

Belum ada komentar.

Belum ada komentar.