1 poin oleh GN⁺ 2024-05-02 | 1 komentar | Bagikan ke WhatsApp

Pelatihan Model Bahasa Skala Besar yang Lebih Baik Melalui Prediksi Multi-Token

  • Model bahasa skala besar seperti GPT dan Llama dilatih menggunakan loss prediksi token berikutnya
  • Penelitian ini mengusulkan bahwa melatih model bahasa agar memprediksi beberapa token masa depan sekaligus meningkatkan efisiensi sampel
  • Secara spesifik, model diminta memprediksi n token berikutnya di tiap posisi korpus pelatihan menggunakan n kepala output independen yang berjalan di atas shared model trunk
  • Dengan memperlakukan prediksi multi-token sebagai tugas pelatihan tambahan, dicatat bahwa kemampuan task turunan pada model kode dan model bahasa alami meningkat tanpa menambah overhead pada waktu pelatihan

Metode ini semakin efektif pada model yang lebih besar dan tetap menarik saat training multi-epoch

  • Metode ini semakin berguna ketika ukuran model makin besar, dan tetap mempertahankan keunggulannya saat dilatih selama beberapa epoch
  • Keuntungan ini paling menonjol pada benchmark generatif seperti coding, di mana model ini secara konsisten unggul beberapa poin persentase dibandingkan baseline yang kuat
  • Model 13 miliar parameter menyelesaikan 12% lebih banyak soal di HumanEval dan 17% lebih banyak di MBPP

Menguntungkan pengembangan induction head dan kemampuan penalaran algoritmik

  • Eksperimen pada tugas algoritma kecil menunjukkan bahwa prediksi multi-token menguntungkan pengembangan induction head dan kemampuan penalaran algoritmik
  • Sebagai tambahan, model yang dilatih dengan prediksi 4-token memiliki kecepatan inferensi hingga 3x lebih cepat bahkan pada batch size besar

Pendapat GN+

  • Ini adalah penelitian menarik yang mengusulkan metode pelatihan baru untuk meningkatkan efisiensi model bahasa. Hal yang menonjol adalah kenaikan performa yang terlihat lebih jelas pada model berskala besar

  • Akan menarik jika ada eksperimen tambahan mengenai dampak prediksi multi-token terhadap pembelajaran dependensi jangka panjang. Misalnya, melihat perubahan performa pada tugas dependensi jarak jauh seperti coreference resolution antar kalimat juga terasa bermakna

  • Penelitian ini melaporkan peningkatan kinerja yang signifikan pada tugas generatif di domain tertentu seperti coding atau pemecahan soal matematika, tetapi penasaran bagaimana efeknya pada pemahaman bahasa alami umum atau tugas QA. Akan lebih baik bila hasil eksperimen dari berbagai benchmark dilengkapi

  • Peningkatan kecepatan inferensi dapat menjadi keunggulan praktis yang besar. Dalam penerapan pada chatbot atau sistem tanya jawab yang menuntut real-time, ini tampak sangat menjanjikan

  • Di tengah perhatian terhadap model berbasis RLHF seperti Constitutional AI dari Anthropic dan InstructGPT dari OpenAI, penelitian ini tampak berarti karena menawarkan cara meningkatkan performa model bahasa hanya dengan supervised learning. Tentu saja, isu seperti alignment nilai etis masih menjadi tantangan yang harus diselesaikan, tetapi dari sisi efisiensi pelatihan, pendekatan ini terlihat cukup kompetitif

1 komentar

 
GN⁺ 2024-05-02
Komentar Hacker News

Ringkasan:

  • Diperlukan penjelasan yang mudah dipahami mengenai bagaimana berbagai istilah pada LLM (data, pre-training, training, inference, mixture of experts, RAG, dan sebagainya) digunakan dalam konteksnya
  • Self-speculative decoding mengirim ulang urutan label yang diprediksi ke jaringan dan mempertahankan prediksi hanya sampai titik yang cocok, sehingga dapat meningkatkan kecepatan tanpa menurunkan performa
  • LLM saat ini tidak mempertimbangkan distribusi probabilitas untuk semua kombinasi token hingga jumlah token output saat ini; jika ini dipertimbangkan, kemungkinan akan muncul performa yang lebih baik
  • Menarik untuk memodifikasi fungsi loss cross-entropy LLM agar selama pelatihan hanya memperhatikan token masa depan ke-n, serta menganalisis performa LLM berdasarkan n
  • Penasaran apakah ada cara menggunakan status token yang sudah dihasilkan LLM untuk jawaban berikutnya
  • Ada pertanyaan tentang apakah model bisa dilatih untuk memprediksi vektor yang mengenkode makna keseluruhan kalimat
  • Penjelasan pada bagian 5.2 makalah terasa kurang memadai. Secara khusus, penjelasan yang tidak jelas soal menghilangkan H(Y|X)
  • Mungkin bisa dipertimbangkan agar LLM menghasilkan model seperti PixelCNN kecil untuk N token berikutnya, sehingga bisa menjelaskan probabilitas kondisional token-toke berikutnya
  • Penasaran apakah bisa meningkatkan pembelajaran struktur diskursus jangka panjang dengan memprediksi token masa depan yang lebih jauh—seperti 128, 512, 2048—bukan hanya token berikutnya sebanyak n
  • Memunculkan pertanyaan tentang bagaimana mengatasi gangguan antar prediksi saat memprediksi beberapa token sekaligus