Meta merilis model bahasa generasi berikutnya, Llama 2

(ai.meta.com)

5 poin oleh GN⁺ 2023-07-19 | 1 komentar | Bagikan ke WhatsApp

Model bahasa besar open-source yang dapat digunakan untuk riset maupun keperluan komersial
Dilatih dengan 2 triliun token data, 40% lebih banyak dibanding Llama 1
Panjang konteks 2x lipat: 4096
Tiga ukuran model: 7B, 13B, 70B
Menunjukkan performa yang lebih baik daripada model bahasa open-source lain pada banyak benchmark seperti penalaran, coding, kemahiran, dan pengujian pengetahuan (MPT, Falcon, Llama-1)
Dilatih menggunakan sumber data yang dipublikasikan, dan Llama-2-chat yang telah di-fine-tune juga memanfaatkan set instruksi yang dipublikasikan serta lebih dari satu juta anotasi manusia
- Menggunakan Reinforcement Learning from Human Feedback (RLHF), termasuk Rejection Sampling dan Proximal Policy Optimization (PPO)
Yang termasuk dalam unduhan
- Kode model
- Bobot model
- README (Panduan Pengguna)
- Panduan Penggunaan yang Bertanggung Jawab
- Lisensi
- Kebijakan Penggunaan yang Dapat Diterima
- Kartu Model

1 komentar

GN⁺ 2023-07-19

Llama 2 melampaui dan sedang menyamai GPT-3.5 pada benchmark tertentu
Llama 2 menunjukkan performa yang sangat baik pada pengujian AI2 Reasoning Challenge, HellaSwag, dan MMLU
Llama 2 memiliki performa yang mirip dengan GPT-3.5 meskipun jumlah parameternya lebih sedikit
Llama 2 mudah diuji dan ditambahkan ke aplikasi
Llama 2 memiliki lisensi non-terbuka yang dikritik oleh sebagian pengguna
Llama 2 dapat diakses melalui berbagai alat dan platform
Llama 2 memiliki guardrail yang dalam beberapa kasus dapat dilewati
Rilis Llama 2 dianggap sebagai langkah positif yang menguntungkan industri
Pelatihan Llama 2 dengan 2T token meningkatkan performa dibandingkan Llama 1
Skalabilitas model Llama diperkirakan dapat menghadirkan model yang kuat di GPU konsumen