- Qwen2.5-Max adalah model Mixture-of-Experts (MoE) skala besar yang telah dipra-latih dengan lebih dari 20 triliun (20T) token
- Pelatihan lanjutan dilakukan melalui Supervised Fine-Tuning (SFT) dan Reinforcement Learning from Human Feedback (RLHF)
- Menunjukkan performa unggul dan memimpin pada sebagian besar benchmark dibandingkan DeepSeek V3, GPT-4o, Claude-3.5-Sonnet, dan Llama-3.1-405B
- Melampaui DeepSeek V3 pada Arena-Hard, LiveBench, LiveCodeBench, dan GPQA-Diamond, serta menunjukkan hasil yang kompetitif di MMLU-Pro.
Hasil benchmark utama
- Arena-Hard: evaluasi pendekatan preferensi manusia
Qwen2.5-Max mencatat 89.4 poin dan menunjukkan performa tertinggi. Lebih unggul daripada DeepSeek V3 (85.5), GPT-4o (85.2), dan Claude-3.5-Sonnet (77.9). Llama-3.1-405B mencatat 69.3, relatif lebih rendah.
- MMLU-Pro: evaluasi pengetahuan tingkat universitas
Qwen2.5-Max mencatat 76.1, dengan performa yang nyaris setara dengan DeepSeek V3 (75.9). GPT-4o (78.0) sedikit lebih tinggi, tetapi Qwen2.5-Max lebih unggul daripada Claude-3.5-Sonnet (77.0) dan Llama-3.1-405B (73.3).
- GPQA-Diamond: evaluasi kemampuan tanya-jawab umum
Qwen2.5-Max mencatat 60.1, sedikit di atas DeepSeek V3 (59.1), namun sedikit di bawah GPT-4o (53.6), Claude-3.5-Sonnet (51.1), dan Llama-3.1-405B (65.0).
- LiveCodeBench: evaluasi kemampuan coding
Qwen2.5-Max mencatat 38.7, sedikit lebih tinggi daripada DeepSeek V3 (37.6). Setara dengan GPT-4o (35.1), Claude-3.5-Sonnet (30.2), dan Llama-3.1-405B (38.9).
- LiveBench: evaluasi performa model secara keseluruhan
Qwen2.5-Max mencatat 62.2, skor tertinggi. Performa ini lebih unggul daripada DeepSeek V3 (60.5), GPT-4o (60.3), Claude-3.5-Sonnet (56.0), dan Llama-3.1-405B (53.2).
Arah ke depan
- Perluasan data dan ukuran model menunjukkan kemajuan kecerdasan model, dan penelitian difokuskan pada peningkatan kemampuan berpikir dan penalaran model bahasa skala besar
- Melalui penerapan inovatif reinforcement learning, terbuka kemungkinan untuk mengembangkan model yang melampaui kecerdasan manusia serta menjelajahi ranah pengetahuan dan pemahaman baru
1 komentar
2023-08-03 Alibaba merilis model AI open source QWEN
2024-04-25 Qwen1.5-110B: model 100B+ pertama dari seri LLM open source Qwen1.5 milik Alibaba
2024-06-07 Alibaba merilis model Qwen 2
2024-09-19 Qwen2.5 - merilis berbagai foundation model
2024-11-28 QwQ - LLM penalaran Alibaba yang mirip dengan ChatGPT o1
2024-12-24 Pengalaman menggunakan QvQ, model penalaran visual baru dari Qwen
2025-01-27 Qwen2.5-1M - men-deploy sendiri Qwen dengan dukungan hingga 1 juta token
Di saat DeepSeek sedang membuat gebrakan, Qwen juga terus membanjiri dengan hasil luar biasa hampir satu per hari.
Perusahaan-perusahaan Tiongkok benar-benar mengerikan.