10 poin oleh ninebow 2023-10-03 | Belum ada komentar. | Bagikan ke WhatsApp
  • Meta memperkenalkan model LLaMA 2 Long melalui makalah berjudul Effective Long-Context Scaling of Foundation Models
  • Panjang context window didukung hingga 32K (32.768) token
  • Versi 70B sudah melampaui performa keseluruhan gpt-3.5-turbo-16k pada kumpulan tugas long-context
  • Dengan tetap mempertahankan arsitektur model yang ada, model ini menerapkan RoPE (Rotary Positional Embedding) pada positional encoding untuk menghasilkan respons yang lebih baik dengan informasi yang lebih sedikit

Belum ada komentar.

Belum ada komentar.