Llama 2 Chat 70B, melampaui ChatGPT (3.5) dalam evaluasi model
(tatsu-lab.github.io)- Berdasarkan AlpacaEval Leaderboard, yang secara otomatis mengevaluasi model bahasa instruction-following
- GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
- AlpacaEval melakukan evaluasi otomatis dengan menggunakan set evaluasi AlpacaFarm dan membandingkannya dengan respons GPT-4
Belum ada komentar.