XGen-7B - LLM 7B yang dilatih pada 1,5T token dengan panjang sekuens hingga 8K

(blog.salesforceairesearch.com)

4 poin oleh xguru 2023-07-01 | Belum ada komentar. | Bagikan ke WhatsApp

Seiring LLM makin banyak digunakan, kemampuan untuk diterapkan pada sekuens panjang menjadi semakin penting: peringkasan dokumen, penulisan kode, prediksi sekuens protein, dan lain-lain
Namun, sebagian besar LLM open-source seperti LLaMA, MPT, dan Falcon dilatih dengan panjang sekuens token maksimum 2K
XGen-7B dilatih pada 1,5T token dengan panjang sekuens hingga maksimum 8K
Pada benchmark NLP standar, performanya setara atau lebih baik dibanding MPT, Falcon, LLaMA, Redpajama, dan OpenLLaMA dengan ukuran model yang sama
Menunjukkan hasil yang sangat baik pada tugas teks (MMLU, QA) maupun kode (HumanEval)
Biaya pelatihan sekitar $150K untuk 1T token menggunakan TPU-v4

Bacaan terkait