- Dirilis sebagai model multimodal dense 27 miliar parameter, dengan dukungan mode thinking·non-thinking serta pemrosesan gambar·video dalam satu checkpoint terintegrasi
- Performa agentic coding disebut melampaui flagship open-source generasi sebelumnya Qwen3.5-397B-A17B di berbagai benchmark coding utama, dan bahkan mengungguli model dengan total parameter hingga 15 kali lebih besar
- Mencatat SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2, serta turut merilis angka evaluasi penalaran teks dan STEM seperti GPQA Diamond 87.8 dan AIME26 94.1
- Dengan mengadopsi arsitektur dense, model ini tidak memiliki kompleksitas routing MoE dan lebih sederhana untuk dideploy, serta menyediakan dukungan open weights, API, jalur penggunaan instan di Qwen Studio, dan integrasi dengan OpenClaw·Qwen Code·Claude Code
- Menunjukkan bahwa model dense yang terlatih dengan baik dapat melampaui generasi sebelumnya yang jauh lebih besar dalam tugas inti pengembang, sekaligus memperluas agentic coding di lini Qwen3.6
Ringkasan
- Qwen3.6-27B dirilis sebagai model multimodal dense dengan 27 miliar parameter, serta mendukung mode thinking dan non-thinking multimodal sekaligus
- Dalam performa agentic coding, model ini melampaui flagship open-source generasi sebelumnya, Qwen3.5-397B-A17B, di berbagai benchmark coding utama
- Dengan mengadopsi arsitektur dense tanpa kompleksitas routing MoE, deployment menjadi lebih sederhana, sambil tetap menawarkan performa coding papan atas pada skala yang praktis dan mudah didistribusikan
- Sudah bisa langsung digunakan di Qwen Studio, dan juga tersedia open weights untuk komunitas serta jalur akses API
- Karakteristik utamanya mencakup agentic coding kelas flagship, penalaran teks yang kuat, dan kemampuan penalaran multimodal
Performa
- Qwen3.6-27B dievaluasi secara komprehensif terhadap model acuan dense dan MoE, dan mencatat peningkatan besar pada benchmark agentic coding
- Disebutkan juga bahwa model ini mengungguli model dengan total parameter hingga 15 kali lebih besar
- Kategori evaluasi mencakup bahasa, pengetahuan, STEM dan penalaran, vision-language, pemahaman dokumen, pemahaman video, dan visual agent
-
Bahasa
- Dengan hanya 27 miliar parameter, model ini melampaui Qwen3.5-397B-A17B di semua benchmark coding utama
- SWE-bench Verified 77.2 vs 76.2
- SWE-bench Pro 53.5 vs 50.9
- Terminal-Bench 2.0 59.3 vs 52.5
- SkillsBench 48.2 vs 30.0
- Juga unggul jauh atas model dense lain pada kelas ukuran serupa
- Pada tugas penalaran, model ini mencatat GPQA Diamond 87.8 poin, angka yang kompetitif dengan model internal yang beberapa kali lebih besar
- Tabel detail mencakup perbandingan antara Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, dan Qwen3.6-27B
- Angka utama pada kategori Coding Agent
- SWE-bench Multilingual 71.3
- QwenWebBench 1487
- NL2Repo 36.2
- Claw-Eval Avg 72.4
- Claw-Eval Pass^3 60.6
- QwenClawBench 53.4
- Angka utama pada kategori Knowledge
- MMLU-Pro 86.2
- MMLU-Redux 93.5
- SuperGPQA 66.0
- C-Eval 91.4
- Angka utama pada kategori STEM dan penalaran
- HLE 24.0
- LiveCodeBench v6 83.9
- HMMT Feb 25 93.8
- HMMT Nov 25 90.7
- HMMT Feb 26 84.3
- IMOAnswerBench 80.8
- AIME26 94.1
-
Konfigurasi evaluasi bahasa
- SWE-Bench Series menggunakan agent scaffold internal serta tool bash dan file-edit, dengan temp 1.0, top_p 0.95, dan context window 200K
- Semua model acuan dievaluasi pada refined benchmark yang memperbaiki sebagian task bermasalah dari set publik SWE-bench Pro
- Terminal-Bench 2.0 menggunakan harness Harbor atau Terminus-2
- timeout 3 jam, 32 CPU, 48 GB RAM
- temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, 256K ctx
- rata-rata dari 5 kali eksekusi
- SkillsBench mengevaluasi 78 task dengan OpenCode
- menggunakan subset self-contained dengan task yang bergantung pada API dikecualikan
- rata-rata dari 5 kali eksekusi
- Evaluasi model lain pada NL2Repo menggunakan Claude Code
- temp 1.0, top_p 0.95, max_turns 900
- QwenClawBench adalah benchmark agent Claw berbasis distribusi pengguna nyata
- QwenWebBench adalah benchmark internal untuk pembuatan kode frontend
- konfigurasi dwibahasa EN dan CN
- 7 kategori: Web Design, Web Apps, Games, SVG, Data Visualization, Animation, 3D
- menilai keselarasan kode dan visual melalui auto-render dan multimodal judge
- menggunakan BT atau sistem rating Elo
- AIME 26 menggunakan keseluruhan AIME 2026 I dan II
- disebutkan bahwa skornya bisa berbeda dari catatan Qwen 3.5
-
Vision-language
- Qwen3.6-27B mendukung mode thinking dan non-thinking vision-language dalam satu checkpoint terintegrasi
- Dapat memproses gambar dan video bersama teks
- Mendukung tugas penalaran multimodal, pemahaman dokumen, dan visual question answering
- Tabel perbandingan disajikan dengan acuan Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, dan Qwen3.6-27B
-
STEM dan puzzle
- MMMU 82.9
- MMMU-Pro 75.8
- MathVista mini 87.4
- DynaMath 85.6
- VlmsAreBlind 97.0
-
VQA umum
- RealWorldQA 84.1
- MMStar 81.4
- MMBench EN-DEV-v1.1 92.3
- SimpleVQA 56.1
-
Pemahaman dokumen
- CharXiv RQ 78.4
- CC-OCR 81.2
- OCRBench 89.4
-
Kecerdasan spasial
- ERQA 62.5
- CountBench 97.8
- RefCOCO avg 92.5
- EmbSpatialBench 84.6
- RefSpatialBench 70.0
-
Pemahaman video
- VideoMME(w sub.) 87.7
- VideoMMMU 84.4
- MLVU 86.6
- MVBench 75.5
-
Visual Agent
- V* 94.7
- AndroidWorld 70.3
-
Catatan
- Kolom kosong (--) pada tabel berarti skor belum tersedia atau tidak berlaku
Pemanfaatan Qwen3.6-27B
- Dukungan Alibaba Cloud Model Studio disebut akan segera tersedia
- Open weights tersedia di Hugging Face dan ModelScope, sehingga memungkinkan self-hosting
- Tersedia jalur penggunaan melalui Alibaba Cloud Model Studio API dan jalur uji coba instan di Qwen Studio
- Mendukung integrasi dengan asisten coding pihak ketiga seperti OpenClaw, Claude Code, dan Qwen Code
- Disebut mendukung penyederhanaan workflow pengembangan dan context-aware coding experience
-
Penggunaan API
- Rilis ini mendukung fitur
preserve_thinking
- Fitur ini mempertahankan konten thinking yang dihasilkan di semua giliran sebelumnya dalam pesan, dan disebut direkomendasikan untuk agentic task
-
Alibaba Cloud Model Studio
- Mendukung chat completions dan responses API yang kompatibel dengan spesifikasi OpenAI
- Juga mendukung API interface yang kompatibel dengan Anthropic
- Berdasarkan dokumentasi resmi, disertakan contoh environment variable
DASHSCOPE_API_KEY
DASHSCOPE_BASE_URL
DASHSCOPE_MODEL
- Contoh region untuk Base URL juga disertakan
- Dalam contoh kode, nama model default yang digunakan adalah
qwen3.6-27b
extra_body memuat enable_thinking: True
preserve_thinking: True ditampilkan dalam bentuk komentar
- Termasuk contoh untuk mengumpulkan reasoning_content dan answer content secara terpisah dari respons streaming
- Untuk informasi tambahan, diarahkan melihat tautan API doc
-
Coding & Agents
- Qwen3.6-27B memiliki kemampuan agentic coding dan dapat terintegrasi mulus dengan OpenClaw, Claude Code, dan Qwen Code
-
OpenClaw
- OpenClaw adalah AI coding agent open-source self-hosted, sebelumnya bernama Moltbot atau Clawdbot
- Dapat dihubungkan ke Model Studio untuk menghadirkan pengalaman agentic coding penuh di terminal
- Skrip awal mencakup Node.js 22+, menjalankan skrip instalasi, menetapkan
DASHSCOPE_API_KEY, lalu menjalankan openclaw dashboard atau openclaw tui
- Pada penggunaan pertama, perlu mengedit
~/.openclaw/openclaw.json
- Ditegaskan agar tidak menimpa seluruh file
- Hanya field yang diperlukan yang harus digabungkan untuk menjaga konfigurasi yang ada
- Contoh konfigurasi mencakup provider
modelstudio dan pendaftaran model qwen3.6-27b
api adalah openai-completions
- nilai
reasoning adalah true
- tipe input adalah
text, image
contextWindow adalah 131072
maxTokens adalah 16384
- model primary default adalah
modelstudio/qwen3.6-27b
-
Qwen Code
- Qwen Code adalah AI agent open-source untuk terminal, sebuah tool yang dioptimalkan secara mendalam untuk Qwen Series
- Skrip awal mencakup Node.js 20+, instalasi
@qwen-code/qwen-code@latest, lalu menjalankan qwen
- Di dalam sesi tersedia contoh penggunaan perintah
/help dan /auth
- Pada penggunaan pertama akan muncul prompt login, dan metode autentikasi dapat diganti lewat
/auth
-
Claude Code
- Qwen APIs juga mendukung protokol Anthropic API
- Disebut dapat digunakan bersama tool seperti Claude Code
- Contoh konfigurasi memuat environment variable berikut
- Perintah eksekusinya adalah
claude
Penutup
- Disebutkan bahwa model dense yang terlatih dengan baik dapat melampaui generasi sebelumnya yang jauh lebih besar pada tugas-tugas penting bagi pengembang, dan Qwen3.6-27B membuktikannya
- Dengan skala 27 miliar parameter, model ini tetap melampaui Qwen3.5-397B-A17B di semua benchmark agentic coding utama
- Struktur yang lebih sederhana untuk deployment dan layanan juga ikut ditekankan
- Lini open-source Qwen3.6 kini memiliki cakupan konfigurasi model yang lebih luas dengan tambahan Qwen3.6-27B
- Di bagian akhir artikel juga disebutkan bahwa terobosan agentic coding di generasi yang sama membentang dari Qwen3.6-35B-A3B yang 3B-active hingga Qwen3.6-Plus dan Qwen3.6-Max-Preview yang dapat diakses via API
- Termasuk ucapan terima kasih atas masukan komunitas dan pemberitahuan bahwa akan ada rilis lanjutan
1 komentar
Komentar Hacker News
unsloth/Qwen3.6-27B-GGUF:Q4_K_Mdenganllama-server, dan model 35B-A3B sekitar 25 t/s. Sebagai perbandingan, di A100 angkanya masing-masing sekitar 41 t/s dan 97 t/s. Saya belum menguji 27B terlalu lama, tetapi 35B-A3B sering keluar jalur setelah konteks melewati 15k~20k token. Untuk tugas dasar model ini bisa diandalkan, tetapi saya rasa belum pantas disebut setara frontier model