Model Bahasa Besar dengan Performa Lebih Baik dan Kecepatan Lebih Cepat Melalui Prediksi Multi-Token
(arxiv.org)Pelatihan Model Bahasa Skala Besar yang Lebih Baik Melalui Prediksi Multi-Token
- Model bahasa skala besar seperti GPT dan Llama dilatih menggunakan loss prediksi token berikutnya
- Penelitian ini mengusulkan bahwa melatih model bahasa agar memprediksi beberapa token masa depan sekaligus meningkatkan efisiensi sampel
- Secara spesifik, model diminta memprediksi n token berikutnya di tiap posisi korpus pelatihan menggunakan n kepala output independen yang berjalan di atas shared model trunk
- Dengan memperlakukan prediksi multi-token sebagai tugas pelatihan tambahan, dicatat bahwa kemampuan task turunan pada model kode dan model bahasa alami meningkat tanpa menambah overhead pada waktu pelatihan
Metode ini semakin efektif pada model yang lebih besar dan tetap menarik saat training multi-epoch
- Metode ini semakin berguna ketika ukuran model makin besar, dan tetap mempertahankan keunggulannya saat dilatih selama beberapa epoch
- Keuntungan ini paling menonjol pada benchmark generatif seperti coding, di mana model ini secara konsisten unggul beberapa poin persentase dibandingkan baseline yang kuat
- Model 13 miliar parameter menyelesaikan 12% lebih banyak soal di HumanEval dan 17% lebih banyak di MBPP
Menguntungkan pengembangan induction head dan kemampuan penalaran algoritmik
- Eksperimen pada tugas algoritma kecil menunjukkan bahwa prediksi multi-token menguntungkan pengembangan induction head dan kemampuan penalaran algoritmik
- Sebagai tambahan, model yang dilatih dengan prediksi 4-token memiliki kecepatan inferensi hingga 3x lebih cepat bahkan pada batch size besar
Pendapat GN+
-
Ini adalah penelitian menarik yang mengusulkan metode pelatihan baru untuk meningkatkan efisiensi model bahasa. Hal yang menonjol adalah kenaikan performa yang terlihat lebih jelas pada model berskala besar
-
Akan menarik jika ada eksperimen tambahan mengenai dampak prediksi multi-token terhadap pembelajaran dependensi jangka panjang. Misalnya, melihat perubahan performa pada tugas dependensi jarak jauh seperti coreference resolution antar kalimat juga terasa bermakna
-
Penelitian ini melaporkan peningkatan kinerja yang signifikan pada tugas generatif di domain tertentu seperti coding atau pemecahan soal matematika, tetapi penasaran bagaimana efeknya pada pemahaman bahasa alami umum atau tugas QA. Akan lebih baik bila hasil eksperimen dari berbagai benchmark dilengkapi
-
Peningkatan kecepatan inferensi dapat menjadi keunggulan praktis yang besar. Dalam penerapan pada chatbot atau sistem tanya jawab yang menuntut real-time, ini tampak sangat menjanjikan
-
Di tengah perhatian terhadap model berbasis RLHF seperti Constitutional AI dari Anthropic dan InstructGPT dari OpenAI, penelitian ini tampak berarti karena menawarkan cara meningkatkan performa model bahasa hanya dengan supervised learning. Tentu saja, isu seperti alignment nilai etis masih menjadi tantangan yang harus diselesaikan, tetapi dari sisi efisiensi pelatihan, pendekatan ini terlihat cukup kompetitif
1 komentar
Komentar Hacker News
Ringkasan: