- Seiring LLM makin banyak digunakan, kemampuan untuk diterapkan pada sekuens panjang menjadi semakin penting: peringkasan dokumen, penulisan kode, prediksi sekuens protein, dan lain-lain
- Namun, sebagian besar LLM open-source seperti LLaMA, MPT, dan Falcon dilatih dengan panjang sekuens token maksimum 2K
- XGen-7B dilatih pada 1,5T token dengan panjang sekuens hingga maksimum 8K
- Pada benchmark NLP standar, performanya setara atau lebih baik dibanding MPT, Falcon, LLaMA, Redpajama, dan OpenLLaMA dengan ukuran model yang sama
- Menunjukkan hasil yang sangat baik pada tugas teks (MMLU, QA) maupun kode (HumanEval)
- Biaya pelatihan sekitar $150K untuk 1T token menggunakan TPU-v4
Belum ada komentar.