16 poin oleh xguru 2024-04-19 | Belum ada komentar. | Bagikan ke WhatsApp
  • Model 8B dan 70B (baik model dasar maupun model yang telah di-fine-tune) dirilis. Keduanya menunjukkan performa kuat di kelas model masing-masing.
  • Model 400B masih dalam proses pelatihan, tetapi sudah mendekati wilayah GPT-4 (misalnya: MMLU 84.8 vs. GPT-4 86.5)

Tokenizer

  • Jumlah token meningkat 4x dari 32K (Llama 2) menjadi 128K (Llama 3)
  • Dengan token yang lebih banyak, panjang sekuens bisa dikompresi lebih baik. Mereka menyebut 15% lebih sedikit token dan peningkatan performa downstream

Arsitektur

  • Di Llama 2, hanya model besar yang menggunakan Grouped Query Attention (GQA), tetapi sekarang semua model, termasuk model 8B yang paling kecil, menggunakan GQA
  • GQA adalah skema berbagi parameter untuk key/value pada Attention, yang mengurangi ukuran cache KV saat inferensi
  • Ini adalah perubahan yang baik, disambut baik, untuk mengurangi kompleksitas dan mengoptimalkan sistem

Panjang sekuens

  • Jumlah token maksimum pada context window meningkat dari 4096 (Llama 2) dan 2048 (Llama 1) menjadi 8192
  • Peningkatan ini patut disambut, tetapi masih cukup kecil dibanding standar terkini (misalnya GPT-4 adalah 128K)
  • Banyak orang mungkin berharap lebih pada sumbu ini. Mungkin nanti bisa melalui fine-tuning (?)

Data pelatihan

  • Llama 2 dilatih dengan 2T token, dan Llama 3 meningkat menjadi dataset pelatihan 15T
  • Banyak perhatian diberikan pada kualitas data, 4x lebih banyak token kode, dan 5% token non-en di lebih dari 30 bahasa
  • Angka 5% cukup rendah untuk campuran non-en:en, jadi model ini pada dasarnya tetap model berbahasa Inggris. Namun, lebih besar dari 0 sudah cukup bagus

Hukum penskalaan

  • 15T adalah dataset yang sangat besar untuk melatih model "kecil" seperti 8B, dan ini adalah hal baru yang umumnya tidak dilakukan serta sangat patut disambut
  • Pada titik Chinchilla "compute optimal", model 8B seharusnya dilatih dengan sekitar ~200B token
  • Jika yang Anda pedulikan hanya "bang-for-the-buck" terhadap performa model, jumlah itu sudah cukup
  • Namun Meta melatihnya sekitar ~75x melewati titik tersebut, yang tidak biasa, tetapi secara pribadi menurut saya sangat patut disambut
  • Kita semua jadi mendapatkan model yang sangat mumpuni, sangat kecil, mudah dikerjakan, dan mudah diinferensikan
  • Meta juga menyebut bahwa bahkan pada titik ini model tampaknya belum "konvergen" dalam arti standar
  • Artinya, LLM yang selama ini kita gunakan selalu kekurangan pelatihan yang jauh lebih panjang, sekitar 100-1000x lagi, dan belum mendekati titik konvergensi
  • Semoga tren merilis model yang dilatih lebih lama dan jauh lebih kecil terus berlanjut

Sistem

  • Disebutkan bahwa Llama 3 dilatih pada 16K GPU dengan throughput teramati sebesar 400 TFLOPS
  • Meski tidak disebutkan, diasumsikan mereka menggunakan H100 fp16 yang dalam materi pemasaran NVIDIA tercatat 1.979 TFLOPS
  • Namun kita semua tahu tanda bintang kecil mereka (*with sparsity) bekerja sangat keras, dan untuk mendapatkan TFLOPS nyata angka itu harus dibagi 2 menjadi ~990
  • (Mengapa sparsity dihitung sebagai FLOPS?)
  • Bagaimanapun, 400/990 ~= tingkat utilisasi 40%, yang cukup bagus untuk GPU sebanyak itu!
  • Untuk mencapai ini pada skala tersebut dibutuhkan banyak engineering yang benar-benar solid

Ringkasan

  • Llama 3 tampak sebagai rilis model yang sangat mumpuni dan sangat disambut baik
  • Tetap berpegang pada dasar, menghabiskan banyak waktu untuk kerja sistem dan data yang solid, serta mengeksplorasi batas model dengan pelatihan jangka panjang
  • Model 400B juga sangat dinantikan, dan bisa menjadi rilis open source pertama setara GPT-4
  • Banyak orang tampaknya akan meminta panjang konteks yang lebih besar

Belum ada komentar.

Belum ada komentar.