Penilaian Andrej Karpathy terhadap Meta Llama 3

xguru · 2024-04-19T09:17:00+09:00

Model 8B dan 70B (baik model dasar maupun model yang telah di-fine-tune) dirilis. Keduanya menunjukkan performa kuat di kelas model masing-masing. Model 400B masih dalam proses pelatihan, tetapi sudah mendekati wilayah GPT-4 (misalnya: MMLU 84.8 vs. GPT-4 86.5) Tokenizer Jumlah token meningkat 4x dari 32K (Llama 2) menjadi 128K (Llama 3) Dengan token yang lebih banyak, panjang sekuens bisa dikompresi lebih baik. Mereka menyebut 15% lebih sedikit token dan peningkatan performa downstream Arsitektur Di Llama 2, hanya model besar yang menggunakan Grouped Query Attention (GQA), tetapi sekarang semua model, termasuk model 8B yang paling kecil, menggunakan GQA GQA adalah skema berbagi parameter untuk key/value pada Attention, yang mengurangi ukuran cache KV saat inferensi Ini adalah perubahan yang baik, disambut baik, untuk mengurangi kompleksitas dan mengoptimalkan sistem Panjang sekuens Jumlah token maksimum pada context window meningkat dari 4096 (Llama 2) dan 2048 (Llama 1) menjadi 8192 Peningkatan ini patut disambut, tetapi masih cukup kecil dibanding standar terkini (misalnya GPT-4 adalah 128K) Banyak orang mungkin berharap lebih pada sumbu ini. Mungkin nanti bisa melalui fine-tuning (?) Data pelatihan Llama 2 dilatih dengan 2T token, dan Llama 3 meningkat menjadi dataset pelatihan 15T Banyak perhatian diberikan pada kualitas data, 4x lebih banyak token kode, dan 5% token non-en di lebih dari 30 bahasa Angka 5% cukup rendah untuk campuran non-en:en, jadi model ini pada dasarnya tetap model berbahasa Inggris. Namun, lebih besar dari 0 sudah cukup bagus Hukum penskalaan 15T adalah dataset yang sangat besar untuk melatih model "kecil" seperti 8B, dan ini adalah hal baru yang umumnya tidak dilakukan serta sangat patut disambut Pada titik Chinchilla "compute optimal", model 8B seharusnya dilatih dengan sekitar ~200B token Jika yang Anda pedulikan hanya "bang-for-the-buck" terhadap performa model, jumlah itu sudah cukup Namun Meta melatihnya sekitar ~75x melewati titik tersebut, yang tidak biasa, tetapi secara pribadi menurut saya sangat patut disambut Kita semua jadi mendapatkan model yang sangat mumpuni, sangat kecil, mudah dikerjakan, dan mudah diinferensikan Meta juga menyebut bahwa bahkan pada titik ini model tampaknya belum "konvergen" dalam arti standar Artinya, LLM yang selama ini kita gunakan selalu kekurangan pelatihan yang jauh lebih panjang, sekitar 100-1000x lagi, dan belum mendekati titik konvergensi Semoga tren merilis model yang dilatih lebih lama dan jauh lebih kecil terus berlanjut Sistem Disebutkan bahwa Llama 3 dilatih pada 16K GPU dengan throughput teramati sebesar 400 TFLOPS Meski tidak disebutkan, diasumsikan mereka menggunakan H100 fp16 yang dalam materi pemasaran NVIDIA tercatat 1.979 TFLOPS Namun kita semua tahu tanda bintang kecil mereka (*with sparsity) bekerja sangat keras, dan untuk mendapatkan TFLOPS nyata angka itu harus dibagi 2 menjadi ~990 (Mengapa sparsity dihitung sebagai FLOPS?) Bagaimanapun, 400/990 ~= tingkat utilisasi 40%, yang cukup bagus untuk GPU sebanyak itu! Untuk mencapai ini pada skala tersebut dibutuhkan banyak engineering yang benar-benar solid Ringkasan Llama 3 tampak sebagai rilis model yang sangat mumpuni dan sangat disambut baik Tetap berpegang pada dasar, menghabiskan banyak waktu untuk kerja sistem dan data yang solid, serta mengeksplorasi batas model dengan pelatihan jangka panjang Model 400B juga sangat dinantikan, dan bisa menjadi rilis open source pertama setara GPT-4 Banyak orang tampaknya akan meminta panjang konteks yang lebih besar

(twitter.com/karpathy)

16 poin oleh xguru 2024-04-19 | Belum ada komentar. | Bagikan ke WhatsApp

Model 8B dan 70B (baik model dasar maupun model yang telah di-fine-tune) dirilis. Keduanya menunjukkan performa kuat di kelas model masing-masing.
Model 400B masih dalam proses pelatihan, tetapi sudah mendekati wilayah GPT-4 (misalnya: MMLU 84.8 vs. GPT-4 86.5)

Tokenizer

Jumlah token meningkat 4x dari 32K (Llama 2) menjadi 128K (Llama 3)
Dengan token yang lebih banyak, panjang sekuens bisa dikompresi lebih baik. Mereka menyebut 15% lebih sedikit token dan peningkatan performa downstream

Arsitektur

Di Llama 2, hanya model besar yang menggunakan Grouped Query Attention (GQA), tetapi sekarang semua model, termasuk model 8B yang paling kecil, menggunakan GQA
GQA adalah skema berbagi parameter untuk key/value pada Attention, yang mengurangi ukuran cache KV saat inferensi
Ini adalah perubahan yang baik, disambut baik, untuk mengurangi kompleksitas dan mengoptimalkan sistem

Panjang sekuens

Jumlah token maksimum pada context window meningkat dari 4096 (Llama 2) dan 2048 (Llama 1) menjadi 8192
Peningkatan ini patut disambut, tetapi masih cukup kecil dibanding standar terkini (misalnya GPT-4 adalah 128K)
Banyak orang mungkin berharap lebih pada sumbu ini. Mungkin nanti bisa melalui fine-tuning (?)

Data pelatihan

Llama 2 dilatih dengan 2T token, dan Llama 3 meningkat menjadi dataset pelatihan 15T
Banyak perhatian diberikan pada kualitas data, 4x lebih banyak token kode, dan 5% token non-en di lebih dari 30 bahasa
Angka 5% cukup rendah untuk campuran non-en:en, jadi model ini pada dasarnya tetap model berbahasa Inggris. Namun, lebih besar dari 0 sudah cukup bagus

Hukum penskalaan

15T adalah dataset yang sangat besar untuk melatih model "kecil" seperti 8B, dan ini adalah hal baru yang umumnya tidak dilakukan serta sangat patut disambut
Pada titik Chinchilla "compute optimal", model 8B seharusnya dilatih dengan sekitar ~200B token
Jika yang Anda pedulikan hanya "bang-for-the-buck" terhadap performa model, jumlah itu sudah cukup
Namun Meta melatihnya sekitar ~75x melewati titik tersebut, yang tidak biasa, tetapi secara pribadi menurut saya sangat patut disambut
Kita semua jadi mendapatkan model yang sangat mumpuni, sangat kecil, mudah dikerjakan, dan mudah diinferensikan
Meta juga menyebut bahwa bahkan pada titik ini model tampaknya belum "konvergen" dalam arti standar
Artinya, LLM yang selama ini kita gunakan selalu kekurangan pelatihan yang jauh lebih panjang, sekitar 100-1000x lagi, dan belum mendekati titik konvergensi
Semoga tren merilis model yang dilatih lebih lama dan jauh lebih kecil terus berlanjut

Sistem

Disebutkan bahwa Llama 3 dilatih pada 16K GPU dengan throughput teramati sebesar 400 TFLOPS
Meski tidak disebutkan, diasumsikan mereka menggunakan H100 fp16 yang dalam materi pemasaran NVIDIA tercatat 1.979 TFLOPS
Namun kita semua tahu tanda bintang kecil mereka (*with sparsity) bekerja sangat keras, dan untuk mendapatkan TFLOPS nyata angka itu harus dibagi 2 menjadi ~990
(Mengapa sparsity dihitung sebagai FLOPS?)
Bagaimanapun, 400/990 ~= tingkat utilisasi 40%, yang cukup bagus untuk GPU sebanyak itu!
Untuk mencapai ini pada skala tersebut dibutuhkan banyak engineering yang benar-benar solid

Ringkasan

Llama 3 tampak sebagai rilis model yang sangat mumpuni dan sangat disambut baik
Tetap berpegang pada dasar, menghabiskan banyak waktu untuk kerja sistem dan data yang solid, serta mengeksplorasi batas model dengan pelatihan jangka panjang
Model 400B juga sangat dinantikan, dan bisa menjadi rilis open source pertama setara GPT-4
Banyak orang tampaknya akan meminta panjang konteks yang lebih besar