3 poin oleh GN⁺ 2025-09-13 | Belum ada komentar. | Bagikan ke WhatsApp
  • Qwen3-Next adalah arsitektur model baru yang dikembangkan untuk mendukung perluasan panjang konteks dan perluasan total parameter, dua tren masa depan untuk model skala besar, sekaligus memaksimalkan efisiensi pelatihan dan inferensi
  • Dengan memperkenalkan mekanisme attention hibrida dan struktur MoE yang sangat sparse, performa ditingkatkan dalam pengaturan konteks panjang dan parameter berskala besar
  • Optimasi stabilitas pelatihan dan mekanisme prediksi multi-token digunakan untuk mempercepat kecepatan inferensi
  • Model Qwen3-Next-80B-A3B-Base mencapai performa setara atau lebih baik daripada Qwen3-32B sambil menurunkan biaya pelatihan hingga kurang dari 10%
  • Rilis model ini menghadirkan kemajuan arsitektur mutakhir bagi komunitas open source dan menjadi fondasi untuk peningkatan kecerdasan serta produktivitas menuju pengembangan Qwen3.5

Pendahuluan

  • Dengan keyakinan bahwa perluasan panjang konteks dan perluasan total parameter adalah tren utama model skala besar di masa depan, dirancanglah arsitektur model baru bernama Qwen3-Next untuk meningkatkan efisiensi pelatihan dan inferensi pada pengaturan konteks panjang dan parameter besar
  • Dibandingkan dengan struktur MoE pada Qwen3, diperkenalkan sejumlah peningkatan utama seperti mekanisme attention hibrida, struktur MoE yang sangat sparse, optimasi stabilitas pelatihan, dan mekanisme prediksi multi-token untuk inferensi yang lebih cepat
  • Berdasarkan arsitektur ini, model Qwen3-Next-80B-A3B-Base dilatih; model ini memiliki 80 miliar parameter, tetapi hanya mengaktifkan 3 miliar parameter saat inferensi
  • Model base ini mencapai performa yang setara atau sedikit lebih baik dibanding model dense Qwen3-32B, sambil menggunakan biaya pelatihan (waktu GPU) kurang dari 10%
  • Secara khusus, model ini memberikan throughput lebih dari 10 kali lebih tinggi pada panjang konteks di atas 32K token, sehingga mencapai efisiensi ekstrem dalam pelatihan dan inferensi
  • Berdasarkan Qwen3-Next-80B-A3B-Base, dua versi post-training dikembangkan dan dirilis: Qwen3-Next-80B-A3B-Instruct dan Qwen3-Next-80B-A3B-Thinking
  • Dengan arsitektur hybrid attention dan MoE yang sangat sparse, masalah lama terkait stabilitas dan efisiensi pelatihan reinforcement learning (RL) dapat diatasi, sehingga meningkatkan baik kecepatan pelatihan RL maupun performa akhirnya
  • Qwen3-Next-80B-A3B-Instruct menunjukkan performa setara dengan model flagship Qwen3-235B-A22B-Instruct-2507, serta memperlihatkan keunggulan jelas pada tugas konteks sangat panjang hingga 256K token
  • Qwen3-Next-80B-A3B-Thinking unggul pada tugas penalaran kompleks, melampaui model yang lebih mahal seperti Qwen3-30B-A3B-Thinking-2507 dan Qwen3-32B-Thinking, mengungguli model closed-source Gemini-2.5-Flash-Thinking di berbagai benchmark, dan mendekati performa model papan atas Qwen3-235B-A22B-Thinking-2507
  • Qwen3-Next telah dirilis di Hugging Face dan ModelScope, dan siapa pun dapat menggunakan layanan Qwen3-Next melalui Alibaba Cloud Model Studio dan NVIDIA API Catalog

Fitur Utama

  • Arsitektur hibrida: Gated DeltaNet + Gated Attention memanfaatkan fakta bahwa linear attention dapat menembus kompleksitas kuadratik standard attention dan lebih efisien pada konteks panjang
    • Ditemukan bahwa linear attention cepat tetapi lemah dalam recall, sementara standard attention mahal dan lambat. Melalui eksperimen sistematis, dipastikan bahwa Gated DeltaNet memberikan kemampuan in-context learning yang lebih kuat dibanding pendekatan umum seperti Sliding Window Attention atau Mamba2
    • Dengan mencampurkan Gated DeltaNet dan standard attention dalam rasio 3:1 (75% layer menggunakan Gated DeltaNet, 25% mempertahankan standard attention), dicapai performa dan efisiensi yang secara konsisten lebih baik daripada arsitektur tunggal
    • Pada layer standard attention, mekanisme output gating diadopsi untuk mengurangi masalah low-rank pada attention, dan dimensi per attention head ditingkatkan dari 128 menjadi 256
    • Rotary positional encoding hanya diterapkan pada 25% pertama dari dimensi posisi untuk meningkatkan ekstrapolasi ke urutan yang lebih panjang
  • MoE ultra-sparse: hanya 3,7% parameter yang aktif sehingga Qwen3-Next mengadopsi desain MoE yang sangat sparse, dengan hanya sekitar 3B dari total 80B parameter yang diaktifkan pada setiap langkah inferensi
    • Eksperimen menunjukkan bahwa dengan global load balancing, loss pelatihan terus menurun secara stabil seiring peningkatan total parameter expert sambil mempertahankan expert aktif tetap
    • Dibandingkan MoE Qwen3 (total 128 expert, 8 routing), Qwen3-Next diperluas menjadi total 512 expert, menggabungkan 10 routing expert + 1 shared expert untuk memaksimalkan penggunaan sumber daya tanpa menurunkan performa
  • Desain ramah stabilitas pelatihan di mana mekanisme attention output gating menghilangkan masalah seperti Attention Sink dan Massive Activation untuk menjamin stabilitas numerik di seluruh model
    • Ditemukan bahwa pada QK-Norm yang digunakan di Qwen3, bobot layer norm tertentu membesar secara tidak normal; karena itu Qwen3-Next mengadopsi Zero-Centered RMSNorm dan menerapkan weight decay pada bobot norm untuk mencegah pertumbuhan tak terbatas
    • Parameter router MoE dinormalisasi saat inisialisasi agar setiap expert dipilih tanpa bias pada tahap awal pelatihan, sehingga mengurangi noise akibat inisialisasi acak
    • Desain yang berfokus pada stabilitas ini membuat eksperimen skala kecil lebih andal dan pelatihan skala besar berjalan lebih lancar
  • Prediksi multi-token: Qwen3-Next memperkenalkan mekanisme native multi-token prediction (MTP), yang tidak hanya menghasilkan modul MTP dengan acceptance rate tinggi untuk speculative decoding, tetapi juga meningkatkan performa keseluruhan
    • Qwen3-Next secara khusus mengoptimalkan performa inferensi multi-step dari MTP, dan melalui pelatihan multi-step yang menjaga konsistensi antara pelatihan dan inferensi, acceptance rate pada speculative decoding dalam skenario nyata semakin ditingkatkan

Pre-training

  • Efisiensi pre-training dan kecepatan inferensi: Qwen3-Next dilatih pada subset yang disampling secara seragam (15T token) dari korpus pre-training Qwen3 sebesar 36T token
    • Menggunakan kurang dari 80% waktu GPU yang dibutuhkan Qwen3-30A-3B dan hanya 9,3% biaya komputasi Qwen3-32B, namun mencapai performa yang lebih baik, menunjukkan efisiensi pelatihan dan nilai yang luar biasa
    • Berkat arsitektur hibrida, model ini juga unggul dalam inferensi, memberikan throughput hampir 7 kali lebih tinggi daripada Qwen3-32B pada panjang konteks 4K di tahap prefill
    • Lebih dari 10 kali lebih cepat pada konteks di atas 32K
    • Pada tahap decode, model ini menunjukkan throughput hampir 4 kali lebih tinggi pada konteks 4K, dan tetap mempertahankan keunggulan kecepatan lebih dari 10 kali pada konteks di atas 32K
  • Performa model base: Qwen3-Next-80B-A3B-Base hanya mengaktifkan 1/10 parameter non-embedding dari Qwen3-32B-Base, tetapi melampauinya di sebagian besar benchmark, serta jauh mengungguli Qwen3-30B-A3B, membuktikan efisiensi luar biasa dan performa yang kuat

Post-training

  • Performa model instruct: Qwen3-Next-80B-A3B-Instruct jauh melampaui Qwen3-30B-A3B-Instruct-2507 dan Qwen3-32B-Non-thinking, serta mencapai hasil yang hampir sama dengan flagship Qwen3-235B-A22B-Instruct-2507
    • Di RULER, Qwen3-Next-80B-A3B-Instruct mengungguli Qwen3-30B-A3B-Instruct-2507 yang memiliki lebih banyak layer attention pada semua panjang, dan melampaui Qwen3-235B-A22B-Instruct-2507 yang memiliki lebih banyak total layer dalam konteks 256K, membuktikan kekuatan desain hibrida Gated DeltaNet + Gated Attention untuk tugas konteks panjang
  • Performa model Thinking: Qwen3-Next-80B-A3B-Thinking melampaui model yang lebih mahal seperti Qwen3-30B-A3B-Thinking-2507 dan Qwen3-32B-Thinking
    • Model ini mengungguli closed-source Gemini-2.5-Flash-Thinking di berbagai benchmark dan mendekati flagship terbaru Qwen3-235B-A22B-Thinking-2507 pada metrik utama

Develop with Qwen3

  • Hugging Face Transformers: kode Qwen3-Next telah digabungkan ke branch utama Hugging Face transformers
    • Error dapat terjadi pada versi sebelumnya
    • Termasuk cuplikan kode yang mencontohkan keluaran generasi model berdasarkan input yang diberikan
    • Multi-token prediction (MTP) belum tersedia secara umum di Hugging Face Transformers
    • Peningkatan efisiensi atau throughput sangat bergantung pada implementasi
    • Untuk tugas inferensi, disarankan mengadopsi framework inferensi khusus seperti SGLang dan vLLM
    • Dengan menggunakan flash-linear-attention dan causal-conv1d, efisiensi yang lebih baik dapat diamati tergantung pengaturan inferensi
    • Lihat tautan terkait untuk petunjuk dan persyaratan lebih rinci
    • Untuk deployment, gunakan sglang atau vllm terbaru untuk membuat endpoint API yang kompatibel dengan OpenAI
  • SGLang adalah framework serving cepat untuk large language model dan vision language model, yang dapat menjalankan server dengan layanan API kompatibel OpenAI
    • SGLang mendukung Qwen3-Next di branch utama dan dapat diinstal dari source
    • Disediakan perintah untuk membuat endpoint API di http://localhost:30000/v1 dengan panjang konteks maksimum 256K token menggunakan tensor parallel pada 4 GPU
    • Perintah yang direkomendasikan untuk MTP juga disediakan dengan pengaturan lain yang sama
    • Saat ini memerlukan variabel lingkungan SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
    • Panjang konteks default adalah 256K; jika server gagal dijalankan, pertimbangkan menurunkannya ke nilai lebih kecil seperti 32768
  • vLLM adalah mesin inferensi dan serving untuk LLM dengan throughput tinggi dan efisiensi memori, yang dapat menjalankan server dengan layanan API kompatibel OpenAI
    • vLLM mendukung Qwen3-Next di branch utama dan dapat diinstal dari source
    • Disediakan perintah untuk membuat endpoint API di http://localhost:8000/v1 dengan panjang konteks maksimum 256K token menggunakan tensor parallel pada 4 GPU
    • Perintah yang direkomendasikan untuk MTP juga disediakan dengan pengaturan lain yang sama
    • Saat ini memerlukan variabel lingkungan VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
    • Panjang konteks default adalah 256K; jika server gagal dijalankan, pertimbangkan menurunkannya ke nilai lebih kecil seperti 32768
  • Penggunaan agentic: Qwen3 unggul dalam kemampuan tool calling, dan disarankan menggunakan Qwen-Agent untuk memaksimalkan kemampuan agen Qwen3
    • Qwen-Agent secara internal mengenkapsulasi template tool calling dan parser tool calling, sehingga sangat mengurangi kompleksitas coding
    • Untuk mendefinisikan tool yang tersedia, dapat menggunakan file konfigurasi MCP, memakai tool bawaan Qwen-Agent, atau menggunakan tool terintegrasi sendiri
  • Pemrosesan teks ultra-panjang: Qwen3-Next secara native mendukung panjang konteks hingga 262.144 token
    • Untuk percakapan dengan total panjang input dan output yang jauh melebihi batas ini, disarankan menggunakan teknik scaling RoPE seperti YaRN agar teks panjang dapat diproses secara efektif
    • Performa model dengan YaRN telah divalidasi hingga panjang konteks 1 juta token
    • YaRN saat ini didukung di berbagai framework inferensi seperti transformers, vllm, dan sglang
    • Dua pendekatan untuk mengaktifkan YaRN di framework yang didukung adalah memodifikasi file model atau memberikan argumen command line
    • Tambahkan field rope_scaling di file config.json
    • Untuk vllm, gunakan argumen command line
    • Untuk sglang, gunakan argumen command line
    • Semua framework open source penting mengimplementasikan YaRN statis, sehingga scaling factor tetap konstan terlepas dari panjang input, dengan potensi dampak pada performa teks pendek
    • Disarankan menambahkan pengaturan rope_scaling hanya saat pemrosesan konteks panjang benar-benar diperlukan
    • Disarankan menyesuaikan factor sesuai kebutuhan; misalnya, jika panjang konteks umum aplikasi adalah 524.288 token, atur factor ke 2.0

Ringkasan

  • Qwen3-Next menandai lompatan besar dalam arsitektur model dengan memperkenalkan inovasi pada mekanisme attention, termasuk linear attention dan attention gate, serta meningkatkan sparsity dalam desain MoE
  • Qwen3-Next-80B-A3B memberikan performa setara dengan Qwen3-235B-A22B-2507 yang lebih besar baik dalam mode thinking maupun non-thinking, sambil menawarkan inferensi yang jauh lebih cepat dalam skenario long-context
  • Melalui rilis ini, mereka ingin memperkuat kemajuan arsitektur mutakhir bagi komunitas open source dan terus berevolusi bersama perkembangan arsitektur paling canggih

Belum ada komentar.

Belum ada komentar.