Meta merilis LLaMA 2 Long yang mendukung context window 32k token
(venturebeat.com)- Meta memperkenalkan model LLaMA 2 Long melalui makalah berjudul Effective Long-Context Scaling of Foundation Models
- Tautan makalah: https://arxiv.org/pdf/2309.16039.pdf
- Panjang context window didukung hingga 32K (32.768) token
- Versi 70B sudah melampaui performa keseluruhan
gpt-3.5-turbo-16kpada kumpulan tugas long-context - Dengan tetap mempertahankan arsitektur model yang ada, model ini menerapkan RoPE (Rotary Positional Embedding) pada positional encoding untuk menghasilkan respons yang lebih baik dengan informasi yang lebih sedikit
- Penjelasan RoPE: https://blog.eleuther.ai/rotary-embeddings/
Belum ada komentar.