- Model yang dikembangkan oleh Gradient ini memperluas panjang konteks LLama-3 8B dari 8k menjadi lebih dari 1040K
- LLM state-of-the-art (SOTA) menunjukkan bahwa menyesuaikan RoPE theta secara tepat memungkinkan model belajar bekerja pada konteks panjang dengan pelatihan minimal
- Tahapan ini dilatih dengan 830M token dan totalnya 1,4B token di setiap tahap, hanya 0,1% dari data pra-pelatihan asli Llama3
- Catatan: untuk konteks 256k dibutuhkan setidaknya 64GB memori. Untuk konteks lebih dari 1M dibutuhkan lebih dari 100GB
1 komentar
Karena jendela konteks diperluas, ada komentar bahwa performanya turun secara signifikan dibandingkan LLaMa 3 aslinya hingga nyaris tidak bisa dipakai lagi.
https://twitter.com/ArkaPal999/status/1785611161540378707