Qwen2.5-Max: Menjelajahi kecerdasan model MoE berskala besar

(qwenlm.github.io)

1 poin oleh GN⁺ 2025-01-29 | 2 komentar | Bagikan ke WhatsApp

Qwen2.5-Max adalah model MoE berskala besar yang dipra-latih dengan lebih dari 20 triliun token, lalu dirilis melalui Alibaba Cloud API dan Qwen Chat setelah post-training SFT dan RLHF
Evaluasi mencakup MMLU-Pro, LiveCodeBench, LiveBench, dan Arena-Hard, dengan perbandingan model instruct yang berfokus pada penggunaan downstream nyata seperti chat dan coding
Qwen2.5-Max mengungguli DeepSeek V3 pada Arena-Hard, LiveBench, LiveCodeBench, dan GPQA-Diamond, serta menunjukkan hasil yang kompetitif pada MMLU-Pro dan tolok ukur lainnya
Dalam perbandingan model base, karena tidak ada akses langsung ke GPT-4o dan Claude-3.5-Sonnet, pembandingnya adalah DeepSeek V3, Llama-3.1-405B, dan Qwen2.5-72B
Nama model API adalah qwen-max-2025-01-25, dan karena kompatibel dengan OpenAI API, alur pemanggilan berbasis klien OpenAI yang sudah ada dapat digunakan

Skala model dan hasil benchmark

Qwen2.5-Max adalah model MoE berskala besar yang dikembangkan dengan asumsi bahwa perluasan ukuran data dan ukuran model dapat meningkatkan kecerdasan model
Model ini dipra-latih dengan lebih dari 20 triliun token, lalu menjalani post-training melalui Supervised Fine-Tuning (SFT) terpilih dan Reinforcement Learning from Human Feedback (RLHF)
Evaluasi performa menggunakan beberapa benchmark utama untuk pengetahuan, coding, dan kemampuan umum
- MMLU-Pro: evaluasi pengetahuan melalui soal setingkat universitas
- LiveCodeBench: evaluasi kemampuan coding
- LiveBench: evaluasi menyeluruh kemampuan umum
- Arena-Hard: evaluasi yang lebih mendekati preferensi manusia
Model instruct dibandingkan bersama Qwen2.5-Max, DeepSeek V3, GPT-4o, dan Claude-3.5-Sonnet
- Qwen2.5-Max mengungguli DeepSeek V3 pada Arena-Hard, LiveBench, LiveCodeBench, dan GPQA-Diamond
- Pada evaluasi lain termasuk MMLU-Pro, model ini juga menunjukkan hasil yang kompetitif
Dalam perbandingan model base, karena tidak ada akses ke model tertutup seperti GPT-4o dan Claude-3.5-Sonnet, evaluasi berfokus pada model open-weight
- Model pembanding adalah DeepSeek V3, Llama-3.1-405B, dan Qwen2.5-72B
- Model base Qwen2.5-Max menunjukkan keunggulan yang berarti di sebagian besar benchmark
Versi mendatang menargetkan performa yang lebih tinggi melalui peningkatan teknik post-training

Penggunaan API dan tugas berikutnya

Qwen2.5-Max dapat digunakan di Qwen Chat, untuk chat langsung maupun menggunakan artifacts, search, dan lainnya
API disediakan melalui Alibaba Cloud
- Nama model adalah qwen-max-2025-01-25
- Anda dapat mendaftarkan akun Alibaba Cloud, mengaktifkan layanan Model Studio, lalu membuat API key di konsol
Qwen API berbentuk kompatibel dengan OpenAI API, sehingga dapat dipanggil dengan klien OpenAI

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1";,
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant.'},
        {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

Pekerjaan selanjutnya berfokus pada penerapan reinforcement learning yang diperluas untuk meningkatkan kemampuan berpikir dan penalaran model bahasa besar
Informasi sitasi terkait Qwen2.5 adalah preprint arXiv Qwen2.5 technical report arXiv:2412.15115

2 komentar

GN⁺ 2025-01-29

Komentar Hacker News

Setelah DeepSeek V3 baru-baru ini dirilis, mereka bilang itu menunjukkan betapa bergunanya detail inti dari proses scaling, tetapi ironisnya mereka sendiri tidak membuka informasi pelatihannya
Jika ini adalah API tertutup dan tidak ada informasi tambahan, saya juga tidak terlalu tertarik dengan klaim bahwa model ini “hampir mendekati o1”
- Bahkan bukan “hampir mendekati o1”. Pembandingnya hanya 4o yang lebih lama
  Bisa dibilang aman untuk menganggap skor Qwen2.5-Max akan lebih rendah daripada model penalaran terbaru (o1, DeepSeek-R1, Gemini 2.0 Flash Thinking)
  Jika reinforcement learning untuk penalaran diterapkan, model ini berpotensi menjadi sangat kuat, tetapi karena semua resep yang terbukti berhasil masih tertutup, itu bisa memakan waktu. Sementara itu, supervised fine-tuning (SFT) berbasis rantai penalaran model lain mungkin bisa dilakukan, tetapi laporan teknis DeepSeek-R1 juga mengatakan hasilnya tidak sebaik reinforcement learning
Saya kira ada tiga item DeepSeek di halaman depan HN, ternyata yang ini adalah yang keempat. Soalnya ini adalah postingan yang mengatakan tim Qwen punya versi rahasia Qwen yang lebih baik daripada DeepSeek-V3
Saya tidak ingat kapan terakhir kali 20% halaman depan HN membahas topik yang sama. Tentu saja, saya juga sulit mengingat preseden perusahaan yang kehilangan kapitalisasi pasar $569 miliar seperti yang dialami NVIDIA kemarin
- Saya luput bahwa 4 ÷ 30 bukan 20%. Sebenarnya lebih dekat ke 13%. Kesalahan bodoh dari saya
Demo HuggingFace: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
Sumber: https://x.com/Alibaba_Qwen/status/1884263157574820053
Cukup mengejutkan bahwa perusahaan Tiongkok mengumumkan ini pada malam sebelum Tahun Baru Imlek. Pengumuman DeepSeek tampaknya benar-benar memicu semuanya
Fakta bahwa ada sesuatu yang sedang berjalan di perusahaan teknologi Tiongkok saat ini sendiri terasa mengejutkan
- Para insinyur DeepSeek mungkin sedang mati-matian menangani gangguan karena kapasitas yang tersedia jauh dari cukup. Para pesaing tampaknya sudah buru-buru merilis sesuatu, atau diam-diam memutuskan untuk mengeluarkan sesuatu yang sebelumnya sudah mereka siapkan. Suasananya terasa seperti semua orang sedang kerja keras habis-habisan
- Mirip dengan saat Gemini naik ke peringkat 1 di papan peringkat Chatbot Arena, lalu OpenAI merilis model keesokan harinya
Ini tampaknya adalah model performa tertinggi baru dari Qwen, dan saat ini hanya tersedia lewat API. Mereka mengatakan model ini lebih baik daripada DeepSeek v3
- Bisa digunakan lewat pemilih model di https://chat.qwenlm.ai/
Saya menjalankan benchmark NYT Connections saya dan mendapat skor 18,6, naik dari 14,8 untuk Qwen 2.5 72B. Saya berencana menjalankan benchmark lain nanti
https://github.com/lechmazur/nyt-connections/
Mixture of Experts (MoE) di cloud terasa agak meragukan. Namun, pada perangkat kelas desktop ini bisa benar-benar bersinar
Memori terus menjadi lebih cepat, jadi dalam waktu dekat MoE mungkin tidak akan terasa sangat lambat bahkan pada model yang relatif besar
Tanpa bobot, tidak ada bukti
- Apakah Anda akan mengatakan hal yang sama saat OpenAI merilis model baru?
Ini bukan model penalaran. Jika model ini mengalahkan DeepSeek V3 di benchmark, versi model penalarannya mungkin bahkan bisa mengalahkan o1 Pro

xguru 2025-01-29

2023-08-03 Alibaba merilis model AI open source QWEN
2024-04-25 Qwen1.5-110B: model 100B+ pertama dari seri LLM open source Qwen1.5 milik Alibaba
2024-06-07 Alibaba merilis model Qwen 2
2024-09-19 Qwen2.5 - merilis berbagai foundation model
2024-11-28 QwQ - LLM penalaran Alibaba yang mirip dengan ChatGPT o1
2024-12-24 Pengalaman menggunakan QvQ, model penalaran visual baru dari Qwen
2025-01-27 Qwen2.5-1M - men-deploy sendiri Qwen dengan dukungan hingga 1 juta token

Di saat DeepSeek sedang membuat gebrakan, Qwen juga terus membanjiri dengan hasil luar biasa hampir satu per hari.
Perusahaan-perusahaan Tiongkok benar-benar mengerikan.