Llama3-gradient - Model yang memperluas panjang konteks LLAMA dari 8k menjadi 1M

xguru · 2024-05-02T10:46:01+09:00

Model yang dikembangkan oleh Gradient ini memperluas panjang konteks LLama-3 8B dari 8k menjadi lebih dari 1040K LLM state-of-the-art (SOTA) menunjukkan bahwa menyesuaikan RoPE theta secara tepat memungkinkan model belajar bekerja pada konteks panjang dengan pelatihan minimal Tahapan ini dilatih dengan 830M token dan totalnya 1,4B token di setiap tahap, hanya 0,1% dari data pra-pelatihan asli Llama3 Catatan: untuk konteks 256k dibutuhkan setidaknya 64GB memori. Untuk konteks lebih dari 1M dibutuhkan lebih dari 100GB

(ollama.com)

6 poin oleh xguru 2024-05-02 | 1 komentar | Bagikan ke WhatsApp

Model yang dikembangkan oleh Gradient ini memperluas panjang konteks LLama-3 8B dari 8k menjadi lebih dari 1040K
LLM state-of-the-art (SOTA) menunjukkan bahwa menyesuaikan RoPE theta secara tepat memungkinkan model belajar bekerja pada konteks panjang dengan pelatihan minimal
Tahapan ini dilatih dengan 830M token dan totalnya 1,4B token di setiap tahap, hanya 0,1% dari data pra-pelatihan asli Llama3
Catatan: untuk konteks 256k dibutuhkan setidaknya 64GB memori. Untuk konteks lebih dari 1M dibutuhkan lebih dari 100GB

1 komentar

livekth 2024-05-02

Karena jendela konteks diperluas, ada komentar bahwa performanya turun secara signifikan dibandingkan LLaMa 3 aslinya hingga nyaris tidak bisa dipakai lagi.

https://twitter.com/ArkaPal999/status/1785611161540378707

Llama3-gradient - Model yang memperluas panjang konteks LLAMA dari 8k menjadi 1M

Bacaan terkait

1 komentar