Model Qwen3-Next Dirilis - Menuju Efisiensi Pelatihan dan Inferensi yang Maksimal

(qwen.ai)

3 poin oleh GN⁺ 2025-09-13 | Belum ada komentar. | Bagikan ke WhatsApp

Qwen3-Next adalah arsitektur model baru yang dikembangkan untuk mendukung perluasan panjang konteks dan perluasan total parameter, dua tren masa depan untuk model skala besar, sekaligus memaksimalkan efisiensi pelatihan dan inferensi
Dengan memperkenalkan mekanisme attention hibrida dan struktur MoE yang sangat sparse, performa ditingkatkan dalam pengaturan konteks panjang dan parameter berskala besar
Optimasi stabilitas pelatihan dan mekanisme prediksi multi-token digunakan untuk mempercepat kecepatan inferensi
Model Qwen3-Next-80B-A3B-Base mencapai performa setara atau lebih baik daripada Qwen3-32B sambil menurunkan biaya pelatihan hingga kurang dari 10%
Rilis model ini menghadirkan kemajuan arsitektur mutakhir bagi komunitas open source dan menjadi fondasi untuk peningkatan kecerdasan serta produktivitas menuju pengembangan Qwen3.5

Pendahuluan

Dengan keyakinan bahwa perluasan panjang konteks dan perluasan total parameter adalah tren utama model skala besar di masa depan, dirancanglah arsitektur model baru bernama Qwen3-Next untuk meningkatkan efisiensi pelatihan dan inferensi pada pengaturan konteks panjang dan parameter besar
Dibandingkan dengan struktur MoE pada Qwen3, diperkenalkan sejumlah peningkatan utama seperti mekanisme attention hibrida, struktur MoE yang sangat sparse, optimasi stabilitas pelatihan, dan mekanisme prediksi multi-token untuk inferensi yang lebih cepat
Berdasarkan arsitektur ini, model Qwen3-Next-80B-A3B-Base dilatih; model ini memiliki 80 miliar parameter, tetapi hanya mengaktifkan 3 miliar parameter saat inferensi
Model base ini mencapai performa yang setara atau sedikit lebih baik dibanding model dense Qwen3-32B, sambil menggunakan biaya pelatihan (waktu GPU) kurang dari 10%
Secara khusus, model ini memberikan throughput lebih dari 10 kali lebih tinggi pada panjang konteks di atas 32K token, sehingga mencapai efisiensi ekstrem dalam pelatihan dan inferensi
Berdasarkan Qwen3-Next-80B-A3B-Base, dua versi post-training dikembangkan dan dirilis: Qwen3-Next-80B-A3B-Instruct dan Qwen3-Next-80B-A3B-Thinking
Dengan arsitektur hybrid attention dan MoE yang sangat sparse, masalah lama terkait stabilitas dan efisiensi pelatihan reinforcement learning (RL) dapat diatasi, sehingga meningkatkan baik kecepatan pelatihan RL maupun performa akhirnya
Qwen3-Next-80B-A3B-Instruct menunjukkan performa setara dengan model flagship Qwen3-235B-A22B-Instruct-2507, serta memperlihatkan keunggulan jelas pada tugas konteks sangat panjang hingga 256K token
Qwen3-Next-80B-A3B-Thinking unggul pada tugas penalaran kompleks, melampaui model yang lebih mahal seperti Qwen3-30B-A3B-Thinking-2507 dan Qwen3-32B-Thinking, mengungguli model closed-source Gemini-2.5-Flash-Thinking di berbagai benchmark, dan mendekati performa model papan atas Qwen3-235B-A22B-Thinking-2507
Qwen3-Next telah dirilis di Hugging Face dan ModelScope, dan siapa pun dapat menggunakan layanan Qwen3-Next melalui Alibaba Cloud Model Studio dan NVIDIA API Catalog

Fitur Utama

Arsitektur hibrida: Gated DeltaNet + Gated Attention memanfaatkan fakta bahwa linear attention dapat menembus kompleksitas kuadratik standard attention dan lebih efisien pada konteks panjang
- Ditemukan bahwa linear attention cepat tetapi lemah dalam recall, sementara standard attention mahal dan lambat. Melalui eksperimen sistematis, dipastikan bahwa Gated DeltaNet memberikan kemampuan in-context learning yang lebih kuat dibanding pendekatan umum seperti Sliding Window Attention atau Mamba2
- Dengan mencampurkan Gated DeltaNet dan standard attention dalam rasio 3:1 (75% layer menggunakan Gated DeltaNet, 25% mempertahankan standard attention), dicapai performa dan efisiensi yang secara konsisten lebih baik daripada arsitektur tunggal
- Pada layer standard attention, mekanisme output gating diadopsi untuk mengurangi masalah low-rank pada attention, dan dimensi per attention head ditingkatkan dari 128 menjadi 256
- Rotary positional encoding hanya diterapkan pada 25% pertama dari dimensi posisi untuk meningkatkan ekstrapolasi ke urutan yang lebih panjang
MoE ultra-sparse: hanya 3,7% parameter yang aktif sehingga Qwen3-Next mengadopsi desain MoE yang sangat sparse, dengan hanya sekitar 3B dari total 80B parameter yang diaktifkan pada setiap langkah inferensi
- Eksperimen menunjukkan bahwa dengan global load balancing, loss pelatihan terus menurun secara stabil seiring peningkatan total parameter expert sambil mempertahankan expert aktif tetap
- Dibandingkan MoE Qwen3 (total 128 expert, 8 routing), Qwen3-Next diperluas menjadi total 512 expert, menggabungkan 10 routing expert + 1 shared expert untuk memaksimalkan penggunaan sumber daya tanpa menurunkan performa
Desain ramah stabilitas pelatihan di mana mekanisme attention output gating menghilangkan masalah seperti Attention Sink dan Massive Activation untuk menjamin stabilitas numerik di seluruh model
- Ditemukan bahwa pada QK-Norm yang digunakan di Qwen3, bobot layer norm tertentu membesar secara tidak normal; karena itu Qwen3-Next mengadopsi Zero-Centered RMSNorm dan menerapkan weight decay pada bobot norm untuk mencegah pertumbuhan tak terbatas
- Parameter router MoE dinormalisasi saat inisialisasi agar setiap expert dipilih tanpa bias pada tahap awal pelatihan, sehingga mengurangi noise akibat inisialisasi acak
- Desain yang berfokus pada stabilitas ini membuat eksperimen skala kecil lebih andal dan pelatihan skala besar berjalan lebih lancar
Prediksi multi-token: Qwen3-Next memperkenalkan mekanisme native multi-token prediction (MTP), yang tidak hanya menghasilkan modul MTP dengan acceptance rate tinggi untuk speculative decoding, tetapi juga meningkatkan performa keseluruhan
- Qwen3-Next secara khusus mengoptimalkan performa inferensi multi-step dari MTP, dan melalui pelatihan multi-step yang menjaga konsistensi antara pelatihan dan inferensi, acceptance rate pada speculative decoding dalam skenario nyata semakin ditingkatkan

Pre-training

Efisiensi pre-training dan kecepatan inferensi: Qwen3-Next dilatih pada subset yang disampling secara seragam (15T token) dari korpus pre-training Qwen3 sebesar 36T token
- Menggunakan kurang dari 80% waktu GPU yang dibutuhkan Qwen3-30A-3B dan hanya 9,3% biaya komputasi Qwen3-32B, namun mencapai performa yang lebih baik, menunjukkan efisiensi pelatihan dan nilai yang luar biasa
- Berkat arsitektur hibrida, model ini juga unggul dalam inferensi, memberikan throughput hampir 7 kali lebih tinggi daripada Qwen3-32B pada panjang konteks 4K di tahap prefill
- Lebih dari 10 kali lebih cepat pada konteks di atas 32K
- Pada tahap decode, model ini menunjukkan throughput hampir 4 kali lebih tinggi pada konteks 4K, dan tetap mempertahankan keunggulan kecepatan lebih dari 10 kali pada konteks di atas 32K
Performa model base: Qwen3-Next-80B-A3B-Base hanya mengaktifkan 1/10 parameter non-embedding dari Qwen3-32B-Base, tetapi melampauinya di sebagian besar benchmark, serta jauh mengungguli Qwen3-30B-A3B, membuktikan efisiensi luar biasa dan performa yang kuat

Post-training

Performa model instruct: Qwen3-Next-80B-A3B-Instruct jauh melampaui Qwen3-30B-A3B-Instruct-2507 dan Qwen3-32B-Non-thinking, serta mencapai hasil yang hampir sama dengan flagship Qwen3-235B-A22B-Instruct-2507
- Di RULER, Qwen3-Next-80B-A3B-Instruct mengungguli Qwen3-30B-A3B-Instruct-2507 yang memiliki lebih banyak layer attention pada semua panjang, dan melampaui Qwen3-235B-A22B-Instruct-2507 yang memiliki lebih banyak total layer dalam konteks 256K, membuktikan kekuatan desain hibrida Gated DeltaNet + Gated Attention untuk tugas konteks panjang
Performa model Thinking: Qwen3-Next-80B-A3B-Thinking melampaui model yang lebih mahal seperti Qwen3-30B-A3B-Thinking-2507 dan Qwen3-32B-Thinking
- Model ini mengungguli closed-source Gemini-2.5-Flash-Thinking di berbagai benchmark dan mendekati flagship terbaru Qwen3-235B-A22B-Thinking-2507 pada metrik utama

Develop with Qwen3

Hugging Face Transformers: kode Qwen3-Next telah digabungkan ke branch utama Hugging Face transformers
- Error dapat terjadi pada versi sebelumnya
- Termasuk cuplikan kode yang mencontohkan keluaran generasi model berdasarkan input yang diberikan
- Multi-token prediction (MTP) belum tersedia secara umum di Hugging Face Transformers
- Peningkatan efisiensi atau throughput sangat bergantung pada implementasi
- Untuk tugas inferensi, disarankan mengadopsi framework inferensi khusus seperti SGLang dan vLLM
- Dengan menggunakan flash-linear-attention dan causal-conv1d, efisiensi yang lebih baik dapat diamati tergantung pengaturan inferensi
- Lihat tautan terkait untuk petunjuk dan persyaratan lebih rinci
- Untuk deployment, gunakan sglang atau vllm terbaru untuk membuat endpoint API yang kompatibel dengan OpenAI
SGLang adalah framework serving cepat untuk large language model dan vision language model, yang dapat menjalankan server dengan layanan API kompatibel OpenAI
- SGLang mendukung Qwen3-Next di branch utama dan dapat diinstal dari source
- Disediakan perintah untuk membuat endpoint API di http://localhost:30000/v1 dengan panjang konteks maksimum 256K token menggunakan tensor parallel pada 4 GPU
- Perintah yang direkomendasikan untuk MTP juga disediakan dengan pengaturan lain yang sama
- Saat ini memerlukan variabel lingkungan SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
- Panjang konteks default adalah 256K; jika server gagal dijalankan, pertimbangkan menurunkannya ke nilai lebih kecil seperti 32768
vLLM adalah mesin inferensi dan serving untuk LLM dengan throughput tinggi dan efisiensi memori, yang dapat menjalankan server dengan layanan API kompatibel OpenAI
- vLLM mendukung Qwen3-Next di branch utama dan dapat diinstal dari source
- Disediakan perintah untuk membuat endpoint API di http://localhost:8000/v1 dengan panjang konteks maksimum 256K token menggunakan tensor parallel pada 4 GPU
- Perintah yang direkomendasikan untuk MTP juga disediakan dengan pengaturan lain yang sama
- Saat ini memerlukan variabel lingkungan VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
- Panjang konteks default adalah 256K; jika server gagal dijalankan, pertimbangkan menurunkannya ke nilai lebih kecil seperti 32768
Penggunaan agentic: Qwen3 unggul dalam kemampuan tool calling, dan disarankan menggunakan Qwen-Agent untuk memaksimalkan kemampuan agen Qwen3
- Qwen-Agent secara internal mengenkapsulasi template tool calling dan parser tool calling, sehingga sangat mengurangi kompleksitas coding
- Untuk mendefinisikan tool yang tersedia, dapat menggunakan file konfigurasi MCP, memakai tool bawaan Qwen-Agent, atau menggunakan tool terintegrasi sendiri
Pemrosesan teks ultra-panjang: Qwen3-Next secara native mendukung panjang konteks hingga 262.144 token
- Untuk percakapan dengan total panjang input dan output yang jauh melebihi batas ini, disarankan menggunakan teknik scaling RoPE seperti YaRN agar teks panjang dapat diproses secara efektif
- Performa model dengan YaRN telah divalidasi hingga panjang konteks 1 juta token
- YaRN saat ini didukung di berbagai framework inferensi seperti transformers, vllm, dan sglang
- Dua pendekatan untuk mengaktifkan YaRN di framework yang didukung adalah memodifikasi file model atau memberikan argumen command line
- Tambahkan field rope_scaling di file config.json
- Untuk vllm, gunakan argumen command line
- Untuk sglang, gunakan argumen command line
- Semua framework open source penting mengimplementasikan YaRN statis, sehingga scaling factor tetap konstan terlepas dari panjang input, dengan potensi dampak pada performa teks pendek
- Disarankan menambahkan pengaturan rope_scaling hanya saat pemrosesan konteks panjang benar-benar diperlukan
- Disarankan menyesuaikan factor sesuai kebutuhan; misalnya, jika panjang konteks umum aplikasi adalah 524.288 token, atur factor ke 2.0

Ringkasan

Qwen3-Next menandai lompatan besar dalam arsitektur model dengan memperkenalkan inovasi pada mekanisme attention, termasuk linear attention dan attention gate, serta meningkatkan sparsity dalam desain MoE
Qwen3-Next-80B-A3B memberikan performa setara dengan Qwen3-235B-A22B-2507 yang lebih besar baik dalam mode thinking maupun non-thinking, sambil menawarkan inferensi yang jauh lebih cepat dalam skenario long-context
Melalui rilis ini, mereka ingin memperkuat kemajuan arsitektur mutakhir bagi komunitas open source dan terus berevolusi bersama perkembangan arsitektur paling canggih

Model Qwen3-Next Dirilis - Menuju Efisiensi Pelatihan dan Inferensi yang Maksimal

Pendahuluan

Fitur Utama

Pre-training

Post-training

Develop with Qwen3

Ringkasan

Bacaan terkait

Belum ada komentar.