5 poin oleh GN⁺ 2023-07-19 | 1 komentar | Bagikan ke WhatsApp
  • Model bahasa besar open-source yang dapat digunakan untuk riset maupun keperluan komersial
  • Dilatih dengan 2 triliun token data, 40% lebih banyak dibanding Llama 1
  • Panjang konteks 2x lipat: 4096
  • Tiga ukuran model: 7B, 13B, 70B
  • Menunjukkan performa yang lebih baik daripada model bahasa open-source lain pada banyak benchmark seperti penalaran, coding, kemahiran, dan pengujian pengetahuan (MPT, Falcon, Llama-1)
  • Dilatih menggunakan sumber data yang dipublikasikan, dan Llama-2-chat yang telah di-fine-tune juga memanfaatkan set instruksi yang dipublikasikan serta lebih dari satu juta anotasi manusia
    • Menggunakan Reinforcement Learning from Human Feedback (RLHF), termasuk Rejection Sampling dan Proximal Policy Optimization (PPO)
  • Yang termasuk dalam unduhan
    • Kode model
    • Bobot model
    • README (Panduan Pengguna)
    • Panduan Penggunaan yang Bertanggung Jawab
    • Lisensi
    • Kebijakan Penggunaan yang Dapat Diterima
    • Kartu Model

1 komentar

 
GN⁺ 2023-07-19
Opini Hacker News
  • Llama 2 melampaui dan sedang menyamai GPT-3.5 pada benchmark tertentu
  • Llama 2 menunjukkan performa yang sangat baik pada pengujian AI2 Reasoning Challenge, HellaSwag, dan MMLU
  • Llama 2 memiliki performa yang mirip dengan GPT-3.5 meskipun jumlah parameternya lebih sedikit
  • Llama 2 mudah diuji dan ditambahkan ke aplikasi
  • Llama 2 memiliki lisensi non-terbuka yang dikritik oleh sebagian pengguna
  • Llama 2 dapat diakses melalui berbagai alat dan platform
  • Llama 2 memiliki guardrail yang dalam beberapa kasus dapat dilewati
  • Rilis Llama 2 dianggap sebagai langkah positif yang menguntungkan industri
  • Pelatihan Llama 2 dengan 2T token meningkatkan performa dibandingkan Llama 1
  • Skalabilitas model Llama diperkirakan dapat menghadirkan model yang kuat di GPU konsumen