- Qwen3-Next adalah arsitektur model baru yang dikembangkan untuk mendukung perluasan panjang konteks dan perluasan total parameter, dua tren masa depan untuk model skala besar, sekaligus memaksimalkan efisiensi pelatihan dan inferensi
- Dengan memperkenalkan mekanisme attention hibrida dan struktur MoE yang sangat sparse, performa ditingkatkan dalam pengaturan konteks panjang dan parameter berskala besar
- Optimasi stabilitas pelatihan dan mekanisme prediksi multi-token digunakan untuk mempercepat kecepatan inferensi
- Model Qwen3-Next-80B-A3B-Base mencapai performa setara atau lebih baik daripada Qwen3-32B sambil menurunkan biaya pelatihan hingga kurang dari 10%
- Rilis model ini menghadirkan kemajuan arsitektur mutakhir bagi komunitas open source dan menjadi fondasi untuk peningkatan kecerdasan serta produktivitas menuju pengembangan Qwen3.5
Pendahuluan
- Dengan keyakinan bahwa perluasan panjang konteks dan perluasan total parameter adalah tren utama model skala besar di masa depan, dirancanglah arsitektur model baru bernama Qwen3-Next untuk meningkatkan efisiensi pelatihan dan inferensi pada pengaturan konteks panjang dan parameter besar
- Dibandingkan dengan struktur MoE pada Qwen3, diperkenalkan sejumlah peningkatan utama seperti mekanisme attention hibrida, struktur MoE yang sangat sparse, optimasi stabilitas pelatihan, dan mekanisme prediksi multi-token untuk inferensi yang lebih cepat
- Berdasarkan arsitektur ini, model Qwen3-Next-80B-A3B-Base dilatih; model ini memiliki 80 miliar parameter, tetapi hanya mengaktifkan 3 miliar parameter saat inferensi
- Model base ini mencapai performa yang setara atau sedikit lebih baik dibanding model dense Qwen3-32B, sambil menggunakan biaya pelatihan (waktu GPU) kurang dari 10%
- Secara khusus, model ini memberikan throughput lebih dari 10 kali lebih tinggi pada panjang konteks di atas 32K token, sehingga mencapai efisiensi ekstrem dalam pelatihan dan inferensi
- Berdasarkan Qwen3-Next-80B-A3B-Base, dua versi post-training dikembangkan dan dirilis: Qwen3-Next-80B-A3B-Instruct dan Qwen3-Next-80B-A3B-Thinking
- Dengan arsitektur hybrid attention dan MoE yang sangat sparse, masalah lama terkait stabilitas dan efisiensi pelatihan reinforcement learning (RL) dapat diatasi, sehingga meningkatkan baik kecepatan pelatihan RL maupun performa akhirnya
- Qwen3-Next-80B-A3B-Instruct menunjukkan performa setara dengan model flagship Qwen3-235B-A22B-Instruct-2507, serta memperlihatkan keunggulan jelas pada tugas konteks sangat panjang hingga 256K token
- Qwen3-Next-80B-A3B-Thinking unggul pada tugas penalaran kompleks, melampaui model yang lebih mahal seperti Qwen3-30B-A3B-Thinking-2507 dan Qwen3-32B-Thinking, mengungguli model closed-source Gemini-2.5-Flash-Thinking di berbagai benchmark, dan mendekati performa model papan atas Qwen3-235B-A22B-Thinking-2507
- Qwen3-Next telah dirilis di Hugging Face dan ModelScope, dan siapa pun dapat menggunakan layanan Qwen3-Next melalui Alibaba Cloud Model Studio dan NVIDIA API Catalog
Fitur Utama
- Arsitektur hibrida: Gated DeltaNet + Gated Attention memanfaatkan fakta bahwa linear attention dapat menembus kompleksitas kuadratik standard attention dan lebih efisien pada konteks panjang
- Ditemukan bahwa linear attention cepat tetapi lemah dalam recall, sementara standard attention mahal dan lambat. Melalui eksperimen sistematis, dipastikan bahwa Gated DeltaNet memberikan kemampuan in-context learning yang lebih kuat dibanding pendekatan umum seperti Sliding Window Attention atau Mamba2
- Dengan mencampurkan Gated DeltaNet dan standard attention dalam rasio 3:1 (75% layer menggunakan Gated DeltaNet, 25% mempertahankan standard attention), dicapai performa dan efisiensi yang secara konsisten lebih baik daripada arsitektur tunggal
- Pada layer standard attention, mekanisme output gating diadopsi untuk mengurangi masalah low-rank pada attention, dan dimensi per attention head ditingkatkan dari 128 menjadi 256
- Rotary positional encoding hanya diterapkan pada 25% pertama dari dimensi posisi untuk meningkatkan ekstrapolasi ke urutan yang lebih panjang
- MoE ultra-sparse: hanya 3,7% parameter yang aktif sehingga Qwen3-Next mengadopsi desain MoE yang sangat sparse, dengan hanya sekitar 3B dari total 80B parameter yang diaktifkan pada setiap langkah inferensi
- Eksperimen menunjukkan bahwa dengan global load balancing, loss pelatihan terus menurun secara stabil seiring peningkatan total parameter expert sambil mempertahankan expert aktif tetap
- Dibandingkan MoE Qwen3 (total 128 expert, 8 routing), Qwen3-Next diperluas menjadi total 512 expert, menggabungkan 10 routing expert + 1 shared expert untuk memaksimalkan penggunaan sumber daya tanpa menurunkan performa
- Desain ramah stabilitas pelatihan di mana mekanisme attention output gating menghilangkan masalah seperti Attention Sink dan Massive Activation untuk menjamin stabilitas numerik di seluruh model
- Ditemukan bahwa pada QK-Norm yang digunakan di Qwen3, bobot layer norm tertentu membesar secara tidak normal; karena itu Qwen3-Next mengadopsi Zero-Centered RMSNorm dan menerapkan weight decay pada bobot norm untuk mencegah pertumbuhan tak terbatas
- Parameter router MoE dinormalisasi saat inisialisasi agar setiap expert dipilih tanpa bias pada tahap awal pelatihan, sehingga mengurangi noise akibat inisialisasi acak
- Desain yang berfokus pada stabilitas ini membuat eksperimen skala kecil lebih andal dan pelatihan skala besar berjalan lebih lancar
- Prediksi multi-token: Qwen3-Next memperkenalkan mekanisme native multi-token prediction (MTP), yang tidak hanya menghasilkan modul MTP dengan acceptance rate tinggi untuk speculative decoding, tetapi juga meningkatkan performa keseluruhan
- Qwen3-Next secara khusus mengoptimalkan performa inferensi multi-step dari MTP, dan melalui pelatihan multi-step yang menjaga konsistensi antara pelatihan dan inferensi, acceptance rate pada speculative decoding dalam skenario nyata semakin ditingkatkan
Pre-training
- Efisiensi pre-training dan kecepatan inferensi: Qwen3-Next dilatih pada subset yang disampling secara seragam (15T token) dari korpus pre-training Qwen3 sebesar 36T token
- Menggunakan kurang dari 80% waktu GPU yang dibutuhkan Qwen3-30A-3B dan hanya 9,3% biaya komputasi Qwen3-32B, namun mencapai performa yang lebih baik, menunjukkan efisiensi pelatihan dan nilai yang luar biasa
- Berkat arsitektur hibrida, model ini juga unggul dalam inferensi, memberikan throughput hampir 7 kali lebih tinggi daripada Qwen3-32B pada panjang konteks 4K di tahap prefill
- Lebih dari 10 kali lebih cepat pada konteks di atas 32K
- Pada tahap decode, model ini menunjukkan throughput hampir 4 kali lebih tinggi pada konteks 4K, dan tetap mempertahankan keunggulan kecepatan lebih dari 10 kali pada konteks di atas 32K
- Performa model base: Qwen3-Next-80B-A3B-Base hanya mengaktifkan 1/10 parameter non-embedding dari Qwen3-32B-Base, tetapi melampauinya di sebagian besar benchmark, serta jauh mengungguli Qwen3-30B-A3B, membuktikan efisiensi luar biasa dan performa yang kuat
Post-training
- Performa model instruct: Qwen3-Next-80B-A3B-Instruct jauh melampaui Qwen3-30B-A3B-Instruct-2507 dan Qwen3-32B-Non-thinking, serta mencapai hasil yang hampir sama dengan flagship Qwen3-235B-A22B-Instruct-2507
- Di RULER, Qwen3-Next-80B-A3B-Instruct mengungguli Qwen3-30B-A3B-Instruct-2507 yang memiliki lebih banyak layer attention pada semua panjang, dan melampaui Qwen3-235B-A22B-Instruct-2507 yang memiliki lebih banyak total layer dalam konteks 256K, membuktikan kekuatan desain hibrida Gated DeltaNet + Gated Attention untuk tugas konteks panjang
- Performa model Thinking: Qwen3-Next-80B-A3B-Thinking melampaui model yang lebih mahal seperti Qwen3-30B-A3B-Thinking-2507 dan Qwen3-32B-Thinking
- Model ini mengungguli closed-source Gemini-2.5-Flash-Thinking di berbagai benchmark dan mendekati flagship terbaru Qwen3-235B-A22B-Thinking-2507 pada metrik utama
Develop with Qwen3
- Hugging Face Transformers: kode Qwen3-Next telah digabungkan ke branch utama Hugging Face transformers
- Error dapat terjadi pada versi sebelumnya
- Termasuk cuplikan kode yang mencontohkan keluaran generasi model berdasarkan input yang diberikan
- Multi-token prediction (MTP) belum tersedia secara umum di Hugging Face Transformers
- Peningkatan efisiensi atau throughput sangat bergantung pada implementasi
- Untuk tugas inferensi, disarankan mengadopsi framework inferensi khusus seperti SGLang dan vLLM
- Dengan menggunakan flash-linear-attention dan causal-conv1d, efisiensi yang lebih baik dapat diamati tergantung pengaturan inferensi
- Lihat tautan terkait untuk petunjuk dan persyaratan lebih rinci
- Untuk deployment, gunakan sglang atau vllm terbaru untuk membuat endpoint API yang kompatibel dengan OpenAI
- SGLang adalah framework serving cepat untuk large language model dan vision language model, yang dapat menjalankan server dengan layanan API kompatibel OpenAI
- SGLang mendukung Qwen3-Next di branch utama dan dapat diinstal dari source
- Disediakan perintah untuk membuat endpoint API di http://localhost:30000/v1 dengan panjang konteks maksimum 256K token menggunakan tensor parallel pada 4 GPU
- Perintah yang direkomendasikan untuk MTP juga disediakan dengan pengaturan lain yang sama
- Saat ini memerlukan variabel lingkungan
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
- Panjang konteks default adalah 256K; jika server gagal dijalankan, pertimbangkan menurunkannya ke nilai lebih kecil seperti 32768
- vLLM adalah mesin inferensi dan serving untuk LLM dengan throughput tinggi dan efisiensi memori, yang dapat menjalankan server dengan layanan API kompatibel OpenAI
- vLLM mendukung Qwen3-Next di branch utama dan dapat diinstal dari source
- Disediakan perintah untuk membuat endpoint API di http://localhost:8000/v1 dengan panjang konteks maksimum 256K token menggunakan tensor parallel pada 4 GPU
- Perintah yang direkomendasikan untuk MTP juga disediakan dengan pengaturan lain yang sama
- Saat ini memerlukan variabel lingkungan
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
- Panjang konteks default adalah 256K; jika server gagal dijalankan, pertimbangkan menurunkannya ke nilai lebih kecil seperti 32768
- Penggunaan agentic: Qwen3 unggul dalam kemampuan tool calling, dan disarankan menggunakan Qwen-Agent untuk memaksimalkan kemampuan agen Qwen3
- Qwen-Agent secara internal mengenkapsulasi template tool calling dan parser tool calling, sehingga sangat mengurangi kompleksitas coding
- Untuk mendefinisikan tool yang tersedia, dapat menggunakan file konfigurasi MCP, memakai tool bawaan Qwen-Agent, atau menggunakan tool terintegrasi sendiri
- Pemrosesan teks ultra-panjang: Qwen3-Next secara native mendukung panjang konteks hingga 262.144 token
- Untuk percakapan dengan total panjang input dan output yang jauh melebihi batas ini, disarankan menggunakan teknik scaling RoPE seperti YaRN agar teks panjang dapat diproses secara efektif
- Performa model dengan YaRN telah divalidasi hingga panjang konteks 1 juta token
- YaRN saat ini didukung di berbagai framework inferensi seperti transformers, vllm, dan sglang
- Dua pendekatan untuk mengaktifkan YaRN di framework yang didukung adalah memodifikasi file model atau memberikan argumen command line
- Tambahkan field
rope_scaling di file config.json
- Untuk vllm, gunakan argumen command line
- Untuk sglang, gunakan argumen command line
- Semua framework open source penting mengimplementasikan YaRN statis, sehingga scaling factor tetap konstan terlepas dari panjang input, dengan potensi dampak pada performa teks pendek
- Disarankan menambahkan pengaturan
rope_scaling hanya saat pemrosesan konteks panjang benar-benar diperlukan
- Disarankan menyesuaikan
factor sesuai kebutuhan; misalnya, jika panjang konteks umum aplikasi adalah 524.288 token, atur factor ke 2.0
Ringkasan
- Qwen3-Next menandai lompatan besar dalam arsitektur model dengan memperkenalkan inovasi pada mekanisme attention, termasuk linear attention dan attention gate, serta meningkatkan sparsity dalam desain MoE
- Qwen3-Next-80B-A3B memberikan performa setara dengan Qwen3-235B-A22B-2507 yang lebih besar baik dalam mode thinking maupun non-thinking, sambil menawarkan inferensi yang jauh lebih cepat dalam skenario long-context
- Melalui rilis ini, mereka ingin memperkuat kemajuan arsitektur mutakhir bagi komunitas open source dan terus berevolusi bersama perkembangan arsitektur paling canggih
Belum ada komentar.