- Model 8B dan 70B (baik model dasar maupun model yang telah di-fine-tune) dirilis. Keduanya menunjukkan performa kuat di kelas model masing-masing.
- Model 400B masih dalam proses pelatihan, tetapi sudah mendekati wilayah GPT-4 (misalnya: MMLU 84.8 vs. GPT-4 86.5)
Tokenizer
- Jumlah token meningkat 4x dari 32K (Llama 2) menjadi 128K (Llama 3)
- Dengan token yang lebih banyak, panjang sekuens bisa dikompresi lebih baik. Mereka menyebut 15% lebih sedikit token dan peningkatan performa downstream
Arsitektur
- Di Llama 2, hanya model besar yang menggunakan Grouped Query Attention (GQA), tetapi sekarang semua model, termasuk model 8B yang paling kecil, menggunakan GQA
- GQA adalah skema berbagi parameter untuk key/value pada Attention, yang mengurangi ukuran cache KV saat inferensi
- Ini adalah perubahan yang baik, disambut baik, untuk mengurangi kompleksitas dan mengoptimalkan sistem
Panjang sekuens
- Jumlah token maksimum pada context window meningkat dari 4096 (Llama 2) dan 2048 (Llama 1) menjadi 8192
- Peningkatan ini patut disambut, tetapi masih cukup kecil dibanding standar terkini (misalnya GPT-4 adalah 128K)
- Banyak orang mungkin berharap lebih pada sumbu ini. Mungkin nanti bisa melalui fine-tuning (?)
Data pelatihan
- Llama 2 dilatih dengan 2T token, dan Llama 3 meningkat menjadi dataset pelatihan 15T
- Banyak perhatian diberikan pada kualitas data, 4x lebih banyak token kode, dan 5% token non-en di lebih dari 30 bahasa
- Angka 5% cukup rendah untuk campuran non-en:en, jadi model ini pada dasarnya tetap model berbahasa Inggris. Namun, lebih besar dari 0 sudah cukup bagus
Hukum penskalaan
- 15T adalah dataset yang sangat besar untuk melatih model "kecil" seperti 8B, dan ini adalah hal baru yang umumnya tidak dilakukan serta sangat patut disambut
- Pada titik Chinchilla "compute optimal", model 8B seharusnya dilatih dengan sekitar ~200B token
- Jika yang Anda pedulikan hanya "bang-for-the-buck" terhadap performa model, jumlah itu sudah cukup
- Namun Meta melatihnya sekitar ~75x melewati titik tersebut, yang tidak biasa, tetapi secara pribadi menurut saya sangat patut disambut
- Kita semua jadi mendapatkan model yang sangat mumpuni, sangat kecil, mudah dikerjakan, dan mudah diinferensikan
- Meta juga menyebut bahwa bahkan pada titik ini model tampaknya belum "konvergen" dalam arti standar
- Artinya, LLM yang selama ini kita gunakan selalu kekurangan pelatihan yang jauh lebih panjang, sekitar 100-1000x lagi, dan belum mendekati titik konvergensi
- Semoga tren merilis model yang dilatih lebih lama dan jauh lebih kecil terus berlanjut
Sistem
- Disebutkan bahwa Llama 3 dilatih pada 16K GPU dengan throughput teramati sebesar 400 TFLOPS
- Meski tidak disebutkan, diasumsikan mereka menggunakan H100 fp16 yang dalam materi pemasaran NVIDIA tercatat 1.979 TFLOPS
- Namun kita semua tahu tanda bintang kecil mereka (*with sparsity) bekerja sangat keras, dan untuk mendapatkan TFLOPS nyata angka itu harus dibagi 2 menjadi ~990
- (Mengapa sparsity dihitung sebagai FLOPS?)
- Bagaimanapun, 400/990 ~= tingkat utilisasi 40%, yang cukup bagus untuk GPU sebanyak itu!
- Untuk mencapai ini pada skala tersebut dibutuhkan banyak engineering yang benar-benar solid
Ringkasan
- Llama 3 tampak sebagai rilis model yang sangat mumpuni dan sangat disambut baik
- Tetap berpegang pada dasar, menghabiskan banyak waktu untuk kerja sistem dan data yang solid, serta mengeksplorasi batas model dengan pelatihan jangka panjang
- Model 400B juga sangat dinantikan, dan bisa menjadi rilis open source pertama setara GPT-4
- Banyak orang tampaknya akan meminta panjang konteks yang lebih besar
Belum ada komentar.