Prediksi Multi-Token Meningkatkan Efisiensi Sampel dan Kinerja Model Bahasa Besar

(arxiv.org)

2 poin oleh brainer 2024-05-01 | Belum ada komentar. | Bagikan ke WhatsApp

• Makalah ini mengusulkan metode pelatihan baru untuk model bahasa besar (LLM) bernama prediksi multi-token, yang melibatkan pelatihan model agar memprediksi beberapa token di masa depan secara bersamaan. Penulis berargumen bahwa pendekatan ini menghasilkan efisiensi sampel yang lebih tinggi, yang berarti model dapat belajar lebih efektif dari jumlah data pelatihan yang tersedia.

• Mereka menunjukkan efektivitas metode ini pada berbagai tugas downstream, termasuk pembuatan kode dan pemrosesan bahasa alami, dan menunjukkan bahwa prediksi multi-token secara konsisten mengungguli baseline yang kuat beberapa poin persentase. Secara khusus, model 13B parameter mereka mencapai peningkatan signifikan pada benchmark coding yang menantang seperti HumanEval dan MBPP.

• Selain peningkatan kinerja, prediksi multi-token juga memberikan keuntungan komputasi. Model yang dilatih dengan prediksi 4 token menunjukkan kecepatan inferensi hingga 3× lebih cepat saat batch size besar, sehingga lebih efisien untuk aplikasi nyata.

Prediksi Multi-Token Meningkatkan Efisiensi Sampel dan Kinerja Model Bahasa Besar

Bacaan terkait

Belum ada komentar.