- Qwen3-Next adalah arsitektur model baru yang dikembangkan untuk mendukung perluasan panjang konteks dan perluasan total parameter, dua tren masa depan untuk model skala besar, sekaligus memaksimalkan efisiensi pelatihan dan inferensi
- Dengan memperkenalkan mekanisme attention hibrida dan struktur MoE yang sangat sparse, performa ditingkatkan dalam pengaturan konteks panjang dan parameter berskala besar
- Optimasi stabilitas pelatihan dan mekanisme prediksi multi-token digunakan untuk mempercepat kecepatan inferensi
- Model Qwen3-Next-80B-A3B-Base mencapai performa setara atau lebih baik daripada Qwen3-32B sambil menurunkan biaya pelatihan hingga kurang dari 10%
- Rilis model ini menghadirkan kemajuan arsitektur mutakhir bagi komunitas open source dan menjadi fondasi untuk peningkatan kecerdasan serta produktivitas menuju pengembangan Qwen3.5
Pendahuluan
- Dengan keyakinan bahwa perluasan panjang konteks dan perluasan total parameter adalah tren utama model skala besar di masa depan, dirancanglah arsitektur model baru bernama Qwen3-Next untuk meningkatkan efisiensi pelatihan dan inferensi pada pengaturan konteks panjang dan parameter besar
- Dibandingkan dengan struktur MoE pada Qwen3, diperkenalkan sejumlah peningkatan utama seperti mekanisme attention hibrida, struktur MoE yang sangat sparse, optimasi stabilitas pelatihan, dan mekanisme prediksi multi-token untuk inferensi yang lebih cepat
- Berdasarkan arsitektur ini, model Qwen3-Next-80B-A3B-Base dilatih; model ini memiliki 80 miliar parameter, tetapi hanya mengaktifkan 3 miliar parameter saat inferensi
- Model base ini mencapai performa yang setara atau sedikit lebih baik dibanding model dense Qwen3-32B, sambil menggunakan biaya pelatihan (waktu GPU) kurang dari 10%
- Secara khusus, model ini memberikan throughput lebih dari 10 kali lebih tinggi pada panjang konteks di atas 32K token, sehingga mencapai efisiensi ekstrem dalam pelatihan dan inferensi
- Berdasarkan Qwen3-Next-80B-A3B-Base, dua versi post-training dikembangkan dan dirilis: Qwen3-Next-80B-A3B-Instruct dan Qwen3-Next-80B-A3B-Thinking
- Dengan arsitektur hybrid attention dan MoE yang sangat sparse, masalah lama terkait stabilitas dan efisiensi pelatihan reinforcement learning (RL) dapat diatasi, sehingga meningkatkan baik kecepatan pelatihan RL maupun performa akhirnya
- Qwen3-Next-80B-A3B-Instruct menunjukkan performa setara dengan model flagship Qwen3-235B-A22B-Instruct-2507, serta memperlihatkan keunggulan jelas pada tugas konteks sangat panjang hingga 256K token
- Qwen3-Next-80B-A3B-Thinking unggul pada tugas penalaran kompleks, melampaui model yang lebih mahal seperti Qwen3-30B-A3B-Thinking-2507 dan Qwen3-32B-Thinking, mengungguli model closed-source Gemini-2.5-Flash-Thinking di berbagai benchmark, dan mendekati performa model papan atas Qwen3-235B-A22B-Thinking-2507
- Qwen3-Next telah dirilis di Hugging Face dan ModelScope, dan siapa pun dapat menggunakan layanan Qwen3-Next melalui Alibaba Cloud Model Studio dan NVIDIA API Catalog
Fitur Utama
- Arsitektur hibrida: Gated DeltaNet + Gated Attention memanfaatkan fakta bahwa linear attention dapat menembus kompleksitas kuadratik standard attention dan lebih efisien pada konteks panjang
- Ditemukan bahwa linear attention cepat tetapi lemah dalam recall, sementara standard attention mahal dan lambat. Melalui eksperimen sistematis, dipastikan bahwa Gated DeltaNet memberikan kemampuan in-context learning yang lebih kuat dibanding pendekatan umum seperti Sliding Window Attention atau Mamba2
- Dengan mencampurkan Gated DeltaNet dan standard attention dalam rasio 3:1 (75% layer menggunakan Gated DeltaNet, 25% mempertahankan standard attention), dicapai performa dan efisiensi yang secara konsisten lebih baik daripada arsitektur tunggal
- Pada layer standard attention, mekanisme output gating diadopsi untuk mengurangi masalah low-rank pada attention, dan dimensi per attention head ditingkatkan dari 128 menjadi 256
- Rotary positional encoding hanya diterapkan pada 25% pertama dari dimensi posisi untuk meningkatkan ekstrapolasi ke urutan yang lebih panjang
- MoE ultra-sparse: hanya 3,7% parameter yang aktif sehingga Qwen3-Next mengadopsi desain MoE yang sangat sparse, dengan hanya sekitar 3B dari total 80B parameter yang diaktifkan pada setiap langkah inferensi
- Eksperimen menunjukkan bahwa dengan global load balancing, loss pelatihan terus menurun secara stabil seiring peningkatan total parameter expert sambil mempertahankan expert aktif tetap
- Dibandingkan MoE Qwen3 (total 128 expert, 8 routing), Qwen3-Next diperluas menjadi total 512 expert, menggabungkan 10 routing expert + 1 shared expert untuk memaksimalkan penggunaan sumber daya tanpa menurunkan performa
- Desain ramah stabilitas pelatihan di mana mekanisme attention output gating menghilangkan masalah seperti Attention Sink dan Massive Activation untuk menjamin stabilitas numerik di seluruh model
- Ditemukan bahwa pada QK-Norm yang digunakan di Qwen3, bobot layer norm tertentu membesar secara tidak normal; karena itu Qwen3-Next mengadopsi Zero-Centered RMSNorm dan menerapkan weight decay pada bobot norm untuk mencegah pertumbuhan tak terbatas
- Parameter router MoE dinormalisasi saat inisialisasi agar setiap expert dipilih tanpa bias pada tahap awal pelatihan, sehingga mengurangi noise akibat inisialisasi acak
- Desain yang berfokus pada stabilitas ini membuat eksperimen skala kecil lebih andal dan pelatihan skala besar berjalan lebih lancar
- Prediksi multi-token: Qwen3-Next memperkenalkan mekanisme native multi-token prediction (MTP), yang tidak hanya menghasilkan modul MTP dengan acceptance rate tinggi untuk speculative decoding, tetapi juga meningkatkan performa keseluruhan
- Qwen3-Next secara khusus mengoptimalkan performa inferensi multi-step dari MTP, dan melalui pelatihan multi-step yang menjaga konsistensi antara pelatihan dan inferensi, acceptance rate pada speculative decoding dalam skenario nyata semakin ditingkatkan
Pre-training
- Efisiensi pre-training dan kecepatan inferensi: Qwen3-Next dilatih pada subset yang disampling secara seragam (15T token) dari korpus pre-training Qwen3 sebesar 36T token
- Menggunakan kurang dari 80% waktu GPU yang dibutuhkan Qwen3-30A-3B dan hanya 9,3% biaya komputasi Qwen3-32B, namun mencapai performa yang lebih baik, menunjukkan efisiensi pelatihan dan nilai yang luar biasa
- Berkat arsitektur hibrida, model ini juga unggul dalam inferensi, memberikan throughput hampir 7 kali lebih tinggi daripada Qwen3-32B pada panjang konteks 4K di tahap prefill
- Lebih dari 10 kali lebih cepat pada konteks di atas 32K
- Pada tahap decode, model ini menunjukkan throughput hampir 4 kali lebih tinggi pada konteks 4K, dan tetap mempertahankan keunggulan kecepatan lebih dari 10 kali pada konteks di atas 32K
- Performa model base: Qwen3-Next-80B-A3B-Base hanya mengaktifkan 1/10 parameter non-embedding dari Qwen3-32B-Base, tetapi melampauinya di sebagian besar benchmark, serta jauh mengungguli Qwen3-30B-A3B, membuktikan efisiensi luar biasa dan performa yang kuat
Post-training
- Performa model instruct: Qwen3-Next-80B-A3B-Instruct jauh melampaui Qwen3-30B-A3B-Instruct-2507 dan Qwen3-32B-Non-thinking, serta mencapai hasil yang hampir sama dengan flagship Qwen3-235B-A22B-Instruct-2507
- Di RULER, Qwen3-Next-80B-A3B-Instruct mengungguli Qwen3-30B-A3B-Instruct-2507 yang memiliki lebih banyak layer attention pada semua panjang, dan melampaui Qwen3-235B-A22B-Instruct-2507 yang memiliki lebih banyak total layer dalam konteks 256K, membuktikan kekuatan desain hibrida Gated DeltaNet + Gated Attention untuk tugas konteks panjang
- Performa model Thinking: Qwen3-Next-80B-A3B-Thinking melampaui model yang lebih mahal seperti Qwen3-30B-A3B-Thinking-2507 dan Qwen3-32B-Thinking
- Model ini mengungguli closed-source Gemini-2.5-Flash-Thinking di berbagai benchmark dan mendekati flagship terbaru Qwen3-235B-A22B-Thinking-2507 pada metrik utama
Develop with Qwen3
- Hugging Face Transformers: kode Qwen3-Next telah digabungkan ke branch utama Hugging Face transformers
- Error dapat terjadi pada versi sebelumnya
- Termasuk cuplikan kode yang mencontohkan keluaran generasi model berdasarkan input yang diberikan
- Multi-token prediction (MTP) belum tersedia secara umum di Hugging Face Transformers
- Peningkatan efisiensi atau throughput sangat bergantung pada implementasi
- Untuk tugas inferensi, disarankan mengadopsi framework inferensi khusus seperti SGLang dan vLLM
- Dengan menggunakan flash-linear-attention dan causal-conv1d, efisiensi yang lebih baik dapat diamati tergantung pengaturan inferensi
- Lihat tautan terkait untuk petunjuk dan persyaratan lebih rinci
- Untuk deployment, gunakan sglang atau vllm terbaru untuk membuat endpoint API yang kompatibel dengan OpenAI
- SGLang adalah framework serving cepat untuk large language model dan vision language model, yang dapat menjalankan server dengan layanan API kompatibel OpenAI
- SGLang mendukung Qwen3-Next di branch utama dan dapat diinstal dari source
- Disediakan perintah untuk membuat endpoint API di http://localhost:30000/v1 dengan panjang konteks maksimum 256K token menggunakan tensor parallel pada 4 GPU
- Perintah yang direkomendasikan untuk MTP juga disediakan dengan pengaturan lain yang sama
- Saat ini memerlukan variabel lingkungan
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 - Panjang konteks default adalah 256K; jika server gagal dijalankan, pertimbangkan menurunkannya ke nilai lebih kecil seperti 32768
- vLLM adalah mesin inferensi dan serving untuk LLM dengan throughput tinggi dan efisiensi memori, yang dapat menjalankan server dengan layanan API kompatibel OpenAI
- vLLM mendukung Qwen3-Next di branch utama dan dapat diinstal dari source
- Disediakan perintah untuk membuat endpoint API di http://localhost:8000/v1 dengan panjang konteks maksimum 256K token menggunakan tensor parallel pada 4 GPU
- Perintah yang direkomendasikan untuk MTP juga disediakan dengan pengaturan lain yang sama
- Saat ini memerlukan variabel lingkungan
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 - Panjang konteks default adalah 256K; jika server gagal dijalankan, pertimbangkan menurunkannya ke nilai lebih kecil seperti 32768
- Penggunaan agentic: Qwen3 unggul dalam kemampuan tool calling, dan disarankan menggunakan Qwen-Agent untuk memaksimalkan kemampuan agen Qwen3
- Qwen-Agent secara internal mengenkapsulasi template tool calling dan parser tool calling, sehingga sangat mengurangi kompleksitas coding
- Untuk mendefinisikan tool yang tersedia, dapat menggunakan file konfigurasi MCP, memakai tool bawaan Qwen-Agent, atau menggunakan tool terintegrasi sendiri
- Pemrosesan teks ultra-panjang: Qwen3-Next secara native mendukung panjang konteks hingga 262.144 token
- Untuk percakapan dengan total panjang input dan output yang jauh melebihi batas ini, disarankan menggunakan teknik scaling RoPE seperti YaRN agar teks panjang dapat diproses secara efektif
- Performa model dengan YaRN telah divalidasi hingga panjang konteks 1 juta token
- YaRN saat ini didukung di berbagai framework inferensi seperti transformers, vllm, dan sglang
- Dua pendekatan untuk mengaktifkan YaRN di framework yang didukung adalah memodifikasi file model atau memberikan argumen command line
- Tambahkan field
rope_scalingdi fileconfig.json - Untuk vllm, gunakan argumen command line
- Untuk sglang, gunakan argumen command line
- Semua framework open source penting mengimplementasikan YaRN statis, sehingga scaling factor tetap konstan terlepas dari panjang input, dengan potensi dampak pada performa teks pendek
- Disarankan menambahkan pengaturan
rope_scalinghanya saat pemrosesan konteks panjang benar-benar diperlukan - Disarankan menyesuaikan
factorsesuai kebutuhan; misalnya, jika panjang konteks umum aplikasi adalah 524.288 token, aturfactorke 2.0
Ringkasan
- Qwen3-Next menandai lompatan besar dalam arsitektur model dengan memperkenalkan inovasi pada mekanisme attention, termasuk linear attention dan attention gate, serta meningkatkan sparsity dalam desain MoE
- Qwen3-Next-80B-A3B memberikan performa setara dengan Qwen3-235B-A22B-2507 yang lebih besar baik dalam mode thinking maupun non-thinking, sambil menawarkan inferensi yang jauh lebih cepat dalam skenario long-context
- Melalui rilis ini, mereka ingin memperkuat kemajuan arsitektur mutakhir bagi komunitas open source dan terus berevolusi bersama perkembangan arsitektur paling canggih
1 komentar
Komentar Hacker News
embed_tokensdanshared_head.head(sekitar 2GB dalam FP8), sehingga Qwen3-Next dapat menangani MTP dengan parameter aktif yang jauh lebih sedikit dan menghemat memori hingga hitungan GB. Berkat ini, kecepatan inferensi meningkat secara signifikan.llm, hasilnya hanya bentuk yang sangat dasar. Dengan Qwen3-Coder-480B-A35B-Instruct, ASCII Spongebob yang dihasilkan jauh lebih matang. Ketika saya bereksperimen berkali-kali tadi malam, banyak ASCII dari Qwen3-coder yang bagian kakinya hilang atau penyelesaiannya tidak rapi, tetapi pagi ini dengan prompt yang sama hasilnya langsung sempurna sekali jadi. Saya jadi bertanya-tanya apakah pemakaian atau kondisi resource (server, API) memengaruhi kualitas respons, atau ini murni soal keberuntungan. Saat dicoba lagi beberapa menit kemudian ternyata gagal, jadi mungkin peluangnya sekitar 1 dari 10 kali, dan di Qwen3-next hampir tidak pernah keluar.gemma3:27bsangat bagus, dangpt-oss:20bjuga sering saya pakai karena cepat.