- Dirilis sebagai model multimodal dense 27 miliar parameter, mendukung mode thinking dan non-thinking serta pemrosesan gambar dan video dalam satu checkpoint terpadu
- Performa agentic coding melampaui flagship open-source generasi sebelumnya, Qwen3.5-397B-A17B, di berbagai benchmark coding utama, bahkan mengungguli model dengan total parameter hingga 15 kali lebih besar
- Mencatat SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2, dan juga mempublikasikan skor penalaran teks serta STEM seperti GPQA Diamond 87.8 dan AIME26 94.1
- Dengan mengadopsi arsitektur dense, model ini tidak memiliki kompleksitas routing MoE, lebih sederhana untuk dideploy, serta menyediakan open weights, API, jalur penggunaan instan di Qwen Studio, dan dukungan integrasi OpenClaw, Qwen Code, serta Claude Code
- Menunjukkan bahwa model dense yang terlatih dengan baik dapat melampaui generasi sebelumnya yang jauh lebih besar dalam tugas inti developer, sekaligus memperluas agentic coding di lini Qwen3.6
Ikhtisar
- Qwen3.6-27B dirilis sebagai model multimodal dense berukuran 27 miliar parameter, dengan dukungan mode multimodal thinking dan non-thinking
- Dalam performa agentic coding, model ini melampaui flagship open-source generasi sebelumnya, Qwen3.5-397B-A17B, di berbagai benchmark coding utama
- Dengan mengadopsi arsitektur dense tanpa kompleksitas routing MoE, deployment menjadi lebih sederhana, sambil tetap menawarkan performa coding papan atas pada skala yang praktis dan mudah didistribusikan
- Tersedia langsung di Qwen Studio, dan juga disediakan open weights untuk komunitas serta jalur akses API
- Karakteristik utamanya mencakup agentic coding kelas flagship, penalaran teks yang kuat, dan kemampuan penalaran multimodal
Performa
- Qwen3.6-27B dievaluasi terhadap model acuan dense dan MoE, dan mencatat peningkatan besar pada benchmark agentic coding
- Disebutkan juga bahwa model ini melampaui model-model yang total parameternya hingga 15 kali lebih besar
- Kategori evaluasi mencakup bahasa, pengetahuan, STEM dan penalaran, vision-language, pemahaman dokumen, pemahaman video, serta visual agent
-
Bahasa
- Hanya dengan 27 miliar parameter, model ini melampaui Qwen3.5-397B-A17B di semua benchmark coding utama
- SWE-bench Verified 77.2 vs 76.2
- SWE-bench Pro 53.5 vs 50.9
- Terminal-Bench 2.0 59.3 vs 52.5
- SkillsBench 48.2 vs 30.0
- Juga unggul jauh atas model dense lain pada skala serupa
- Pada tugas penalaran, model ini mencatat GPQA Diamond 87.8, angka yang kompetitif dengan model internal yang beberapa kali lebih besar
- Tabel rinci mencakup perbandingan Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, dan Qwen3.6-27B
- Angka utama pada kategori Coding Agent
- SWE-bench Multilingual 71.3
- QwenWebBench 1487
- NL2Repo 36.2
- Claw-Eval Avg 72.4
- Claw-Eval Pass^3 60.6
- QwenClawBench 53.4
- Angka utama pada kategori Knowledge
- MMLU-Pro 86.2
- MMLU-Redux 93.5
- SuperGPQA 66.0
- C-Eval 91.4
- Angka utama pada kategori STEM dan penalaran
- HLE 24.0
- LiveCodeBench v6 83.9
- HMMT Feb 25 93.8
- HMMT Nov 25 90.7
- HMMT Feb 26 84.3
- IMOAnswerBench 80.8
- AIME26 94.1
- Hanya dengan 27 miliar parameter, model ini melampaui Qwen3.5-397B-A17B di semua benchmark coding utama
-
Pengaturan evaluasi bahasa
- SWE-Bench Series menggunakan agent scaffold internal serta tool bash dan file-edit, dengan temp 1.0, top_p 0.95, dan context window 200K
- Semua model acuan dievaluasi pada refined benchmark yang memperbaiki sebagian task bermasalah di set publik SWE-bench Pro
- Terminal-Bench 2.0 menggunakan harness Harbor atau Terminus-2
- timeout 3 jam, 32 CPU, 48 GB RAM
- temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, ctx 256K
- Rata-rata dari 5 kali eksekusi
- SkillsBench mengevaluasi 78 task dengan OpenCode
- Menggunakan subset self-contained yang mengecualikan task yang bergantung pada API
- Rata-rata dari 5 kali eksekusi
- Evaluasi model lain pada NL2Repo menggunakan Claude Code
- temp 1.0, top_p 0.95, max_turns 900
- QwenClawBench adalah benchmark agent Claw berbasis distribusi pengguna nyata
- temp 0.6, ctx 256K
- QwenWebBench adalah benchmark internal untuk pembuatan kode frontend
- Tersusun secara dwibahasa EN dan CN
- Memiliki 7 kategori: Web Design, Web Apps, Games, SVG, Data Visualization, Animation, dan 3D
- Menilai keselarasan kode dan visual melalui auto-render serta multimodal judge
- Menggunakan sistem rating BT atau Elo
- AIME 26 menggunakan keseluruhan AIME 2026 I dan II
- Disebutkan bahwa skornya bisa berbeda dari catatan Qwen 3.5
- SWE-Bench Series menggunakan agent scaffold internal serta tool bash dan file-edit, dengan temp 1.0, top_p 0.95, dan context window 200K
-
Vision-language
- Qwen3.6-27B mendukung mode vision-language thinking dan non-thinking dalam satu checkpoint terpadu
- Dapat memproses gambar dan video bersama teks
- Mendukung tugas penalaran multimodal, pemahaman dokumen, dan visual question answering
- Tabel perbandingan disajikan dengan acuan Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, dan Qwen3.6-27B
-
STEM dan puzzle
- MMMU 82.9
- MMMU-Pro 75.8
- MathVista mini 87.4
- DynaMath 85.6
- VlmsAreBlind 97.0
-
VQA umum
- RealWorldQA 84.1
- MMStar 81.4
- MMBench EN-DEV-v1.1 92.3
- SimpleVQA 56.1
-
Pemahaman dokumen
- CharXiv RQ 78.4
- CC-OCR 81.2
- OCRBench 89.4
-
Kecerdasan spasial
- ERQA 62.5
- CountBench 97.8
- RefCOCO avg 92.5
- EmbSpatialBench 84.6
- RefSpatialBench 70.0
-
Pemahaman video
- VideoMME(w sub.) 87.7
- VideoMMMU 84.4
- MLVU 86.6
- MVBench 75.5
-
Visual Agent
- V* 94.7
- AndroidWorld 70.3
-
Catatan
- Kolom kosong (
--) pada tabel berarti skor belum tersedia atau tidak berlaku
- Kolom kosong (
Pemanfaatan Qwen3.6-27B
- Dukungan Alibaba Cloud Model Studio disebut akan segera tersedia
- Open weights tersedia di Hugging Face dan ModelScope, sehingga bisa di-self-host
- Disediakan jalur penggunaan melalui Alibaba Cloud Model Studio API dan jalur uji coba instan di Qwen Studio
- Mendukung integrasi dengan asisten coding pihak ketiga seperti OpenClaw, Claude Code, dan Qwen Code
- Disebutkan juga penyederhanaan alur kerja developer dan dukungan untuk context-aware coding experience
-
Penggunaan API
- Rilis ini mendukung fitur
preserve_thinking - Fitur ini mempertahankan semua konten thinking yang dihasilkan pada seluruh giliran sebelumnya dalam pesan, dan direkomendasikan untuk agentic task
- Rilis ini mendukung fitur
-
Alibaba Cloud Model Studio
- Mendukung chat completions dan responses API yang kompatibel dengan spesifikasi OpenAI
- Juga mendukung API interface yang kompatibel dengan Anthropic
- Dokumentasi resmi menyediakan contoh environment variable
DASHSCOPE_API_KEYDASHSCOPE_BASE_URLDASHSCOPE_MODEL
- Contoh region untuk Base URL juga disediakan
- Dalam contoh kode, nama model default yang digunakan adalah
qwen3.6-27b extra_bodymencakupenable_thinking: Truepreserve_thinking: Trueditampilkan dalam bentuk komentar
- Termasuk contoh pengumpulan terpisah antara reasoning_content dan answer content dalam respons streaming
- Untuk informasi tambahan, diarahkan ke tautan API doc
-
Coding & Agents
- Qwen3.6-27B memiliki kemampuan agentic coding dan dapat terintegrasi mulus dengan OpenClaw, Claude Code, dan Qwen Code
-
OpenClaw
- OpenClaw adalah AI coding agent open-source yang di-self-host, sebelumnya bernama Moltbot atau Clawdbot
- Dapat dihubungkan ke Model Studio untuk menghadirkan pengalaman agentic coding penuh di terminal
- Skrip awal mencakup Node.js 22+, menjalankan skrip instalasi, mengatur
DASHSCOPE_API_KEY, lalu menjalankanopenclaw dashboardatauopenclaw tui - Pada penggunaan pertama, perlu mengubah
~/.openclaw/openclaw.json- Disebutkan secara eksplisit agar tidak menimpa seluruh file
- Hanya gabungkan field yang diperlukan untuk menjaga konfigurasi yang sudah ada
- Contoh konfigurasi mencakup provider
modelstudiodan pendaftaran modelqwen3.6-27bapiadalahopenai-completions- Nilai
reasoningadalah true - Tipe input adalah
text,image contextWindowadalah 131072maxTokensadalah 16384- Model primary default adalah
modelstudio/qwen3.6-27b
-
Qwen Code
- Qwen Code adalah AI agent open-source untuk terminal dan merupakan tool yang sangat dioptimalkan untuk Qwen Series
- Skrip awal mencakup Node.js 20+, instalasi
@qwen-code/qwen-code@latest, lalu menjalankanqwen - Di dalam sesi tersedia contoh penggunaan perintah
/helpdan/auth - Pada penggunaan pertama, prompt login akan ditampilkan, dan metode autentikasi dapat diganti melalui
/auth
-
Claude Code
- Qwen APIs juga mendukung protocol Anthropic API
- Disebutkan dapat digunakan bersama tool seperti Claude Code
- Contoh konfigurasi mencakup environment variable berikut
ANTHROPIC_MODEL="qwen3.6-27b"ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropicANTHROPIC_AUTH_TOKEN=<your_api_key>
- Perintah menjalankannya adalah
claude
Penutup
- Model dense yang terlatih dengan baik dibuktikan oleh Qwen3.6-27B mampu melampaui generasi sebelumnya yang jauh lebih besar pada tugas-tugas penting bagi developer
- Dengan skala 27 miliar parameter, model ini tetap melampaui Qwen3.5-397B-A17B di semua benchmark agentic coding utama
- Strukturnya sederhana untuk deployment dan layanan, dan lini open-source Qwen3.6 kini memiliki konfigurasi model yang lebih luas dengan penambahan Qwen3.6-27B
4 komentar
Setidaknya harus a3b, baru agak mungkin dijalankan secara lokal, hehe
Bench-nya katanya bagus, tapi dalam penggunaan nyata sepertinya masih belum sampai tingkat yang layak dipakai sebagai agen coding.
Saya sudah mencobanya, dan tidak ada masalah besar untuk coding agentic. Namun, seperti yang Anda katakan, untuk penggunaan nyata + coding umum, performanya memang tidak bisa tidak akan tertinggal dibanding model dengan parameter yang lebih besar. Nilai pengaturannya berbeda dari 3.5 dan mode
preserve_thinkingjuga telah ditambahkan, jadi harap diperhatikan. Jika sekitar 27B kuantisasi 4bit, tidak ada masalah untuk digunakan secara lokal.Komentar Hacker News
unsloth/Qwen3.6-27B-GGUF:Q4_K_Mdenganllama-server, dan model 35B-A3B sekitar 25 t/s. Sebagai perbandingan, di A100 angkanya masing-masing sekitar 41 t/s dan 97 t/s. Saya belum menguji 27B terlalu lama, tetapi 35B-A3B sering keluar jalur setelah konteks melewati 15k~20k token. Untuk tugas dasar model ini bisa diandalkan, tetapi saya rasa belum pantas disebut setara frontier model