Llama 2 Chat 70B, melampaui ChatGPT (3.5) dalam evaluasi model

xguru · 2023-07-31T10:17:01+09:00

Berdasarkan AlpacaEval Leaderboard, yang secara otomatis mengevaluasi model bahasa instruction-following GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37% AlpacaEval melakukan evaluasi otomatis dengan menggunakan set evaluasi AlpacaFarm dan membandingkannya dengan respons GPT-4

(tatsu-lab.github.io)

10 poin oleh xguru 2023-07-31 | Belum ada komentar. | Bagikan ke WhatsApp

Berdasarkan AlpacaEval Leaderboard, yang secara otomatis mengevaluasi model bahasa instruction-following
GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
AlpacaEval melakukan evaluasi otomatis dengan menggunakan set evaluasi AlpacaFarm dan membandingkannya dengan respons GPT-4

Llama 2 Chat 70B, melampaui ChatGPT (3.5) dalam evaluasi model

Bacaan terkait

Belum ada komentar.