- Model open-source dengan arsitektur sparse Mixture-of-Experts (MoE), di mana hanya 3 miliar dari total 35 miliar parameter yang aktif, sehingga mencapai efisiensi dan performa sekaligus
- Dibanding generasi sebelumnya, kemampuan coding agentik meningkat drastis, dan menunjukkan tingkat yang mampu bersaing dengan model dense besar seperti Qwen3.5-27B atau Gemma4-31B
- Mencatat skor tinggi pada benchmark coding utama seperti SWE-bench, Terminal-Bench, dan Claw-Eval, serta mencapai performa setingkat Claude Sonnet 4.5 pada tugas multimodal
- Bobot terbuka dan akses API tersedia melalui Alibaba Cloud Model Studio API, Hugging Face, dan ModelScope, serta mendukung integrasi dengan berbagai alat coding seperti OpenClaw dan Claude Code
- Dengan 3 miliar parameter aktif, model ini menghadirkan standar baru untuk model terbuka yang efisien dan sebanding dengan model besar
Ikhtisar Qwen3.6-35B-A3B
- Qwen3.6-35B-A3B adalah model sparse Mixture-of-Experts (MoE), di mana hanya 3 miliar dari total 35 miliar parameter yang aktif, menjadikannya model open-source yang menghadirkan efisiensi dan performa sekaligus
- Dibanding versi sebelumnya, Qwen3.5-35B-A3B, performa agentic coding meningkat besar, dan mencapai tingkat yang mampu bersaing dengan model dense besar seperti Qwen3.5-27B atau Gemma4-31B
- Mendukung mode penalaran multimodal dan non-penalaran, dan dirilis melalui Qwen Studio, API, Hugging Face, serta ModelScope
- Model dapat digunakan secara interaktif di Qwen Studio, dipanggil melalui Alibaba Cloud Model Studio API (
qwen3.6-flash), atau di-host sendiri
Evaluasi performa
-
Performa bahasa dan coding
- Qwen3.6-35B-A3B melampaui Qwen3.5-27B (model dense dengan 27 miliar parameter) pada berbagai benchmark coding utama hanya dengan 3 miliar parameter aktif
- Mencatat skor tinggi seperti SWE-bench Verified 73.4, Terminal-Bench 51.5, dan rata-rata Claw-Eval 68.7
- Pada QwenWebBench (benchmark pembuatan kode web), model ini mencatat 1397 poin, salah satu yang tertinggi di kelasnya
- Pada benchmark agen umum seperti MCPMark, MCP-Atlas, dan WideSearch, model ini juga menunjukkan hasil unggul dibanding model pesaing
- Pada MMLU-Pro, GPQA, AIME26, dan tolok ukur pengetahuan serta penalaran lainnya, akurasi tetap tinggi
-
Lingkungan evaluasi
- Seri SWE-Bench dievaluasi dalam jendela konteks 200K berbasis scaffold agen internal (alat bash + file-edit)
- Terminal-Bench 2.0 menggunakan batas waktu 3 jam, lingkungan 32 CPU/48GB RAM, dan dirata-ratakan dari 5 kali percobaan
- SkillsBench dievaluasi pada 78 tugas, tidak termasuk pekerjaan yang bergantung pada API
- QwenClawBench dan QwenWebBench adalah benchmark internal berbasis distribusi penggunaan nyata, sehingga mencerminkan lingkungan pengguna sebenarnya
-
Performa vision-language
- Qwen3.6-35B-A3B adalah model multimodal native, dan hanya dengan 3 miliar parameter aktif mampu mencapai performa setingkat Claude Sonnet 4.5
- Menunjukkan kekuatan pada kecerdasan spasial dengan RefCOCO (kesadaran spasial) 92.0 dan ODInW13 50.8
- Mencatat skor tinggi pada berbagai tugas vision-language seperti RealWorldQA 85.3, MMBench EN-DEV 92.8, dan OmniDocBench1.5 89.9
- Pada benchmark pemahaman video seperti VideoMME, VideoMMMU, dan MLVU, model ini juga stabil dengan skor di kisaran 80–86
Pemanfaatan Qwen3.6-35B-A3B
-
Deployment dan akses
- Tersedia melalui Alibaba Cloud Model Studio API (
qwen3.6-flash), dan bobot terbuka dapat diunduh dari Hugging Face dan ModelScope
- Dapat langsung dicoba di Qwen Studio, serta mendukung integrasi dengan asisten coding pihak ketiga seperti OpenClaw, Claude Code, dan Qwen Code
-
Penggunaan API
- Mendukung fitur
preserve_thinking, yang mempertahankan isi thinking dari percakapan sebelumnya, sehingga cocok untuk tugas agentik
- Alibaba Cloud Model Studio menyediakan chat completions API yang kompatibel dengan spesifikasi OpenAI dan Anthropic API
- Pada kode contoh, opsi
enable_thinking memungkinkan keluaran terpisah antara reasoning trace dan jawaban akhir
-
Integrasi OpenClaw
- Qwen3.6-35B-A3B kompatibel dengan OpenClaw (sebelumnya Moltbot/Clawdbot), dan dapat dihubungkan ke Model Studio untuk menyediakan lingkungan coding agentik berbasis terminal
- Informasi API Model Studio digunakan dengan menggabungkannya ke file konfigurasi (
~/.openclaw/openclaw.json)
- Instalasi dan eksekusi dapat dilakukan pada lingkungan Node.js 22 atau lebih baru
-
Integrasi Qwen Code
- Sepenuhnya kompatibel dengan Qwen Code (agen AI open-source untuk terminal) yang dioptimalkan untuk seri Qwen
- Setelah instalasi pada Node.js 20 atau lebih baru, proses autentikasi dilakukan dengan perintah
/auth
-
Integrasi Claude Code
- Karena mendukung protokol Anthropic API, model ini juga dapat langsung digunakan di Claude Code
- Jalankan CLI setelah mengatur variabel lingkungan
ANTHROPIC_MODEL="qwen3.6-flash"
Ringkasan dan prospek
- Qwen3.6-35B-A3B membuktikan kemampuan coding agentik dan penalaran yang sebanding dengan model dense besar meski menggunakan arsitektur sparse MoE
- Dengan 3 miliar parameter aktif, model ini mencapai efisiensi sekaligus performa tinggi, dan juga menunjukkan hasil unggul pada benchmark multimodal
- Dirilis sebagai checkpoint open-source penuh, model ini menghadirkan standar baru untuk model terbuka yang efisien
- Tim Qwen berencana terus memperluas keluarga open-source Qwen3.6, dan menantikan umpan balik serta pemanfaatan dari komunitas
Informasi kutipan
1 komentar
Komentar Hacker News
Saya mencoba menjalankan versi Unsloth 20.9GB GGUF di laptop saya lewat LM Studio
Tautan model
Yang mengejutkan, model ini menggambar pelikan yang mengendarai sepeda lebih baik daripada Opus 4.7
Lihat postingan perbandingan Simon Willison
Hasil saya punya matahari dan awan di langit, rumput berupa garis hijau tipis, dan efek matahari dengan halo
Ada juga ekspresi "aliran udara" yang mirip dengan hasil Simon, tapi pada akhirnya yang penting adalah pelikan dan sepedanya
Saya memakainya di proyek Shoggoth.db untuk pekerjaan penjelajahan wiki + pembangunan DB otomatis
Saya merasa kemampuan eksplorasi makhluk baru meningkat dibanding Qwen3.5
Kecepatannya juga naik menjadi sekitar 140 token/s, dan berjalan stabil di RTX 4090 tanpa memory offload
Hanya saja, untuk mencegah konflik multimodal saya harus memakai opsi
--no-mmproj-offloadAwalnya ini dimaksudkan untuk menilai kreativitas model lewat prompt aneh yang tak terpikirkan orang, tapi sekarang rasanya sudah seperti benchmark internal
Flamingonya duduk di atas ban, posisi paruhnya aneh, dan proporsi jari-jari roda serta kaki terasa janggal
Kacamata hitamnya juga semi-transparan sehingga hanya satu mata yang terlihat
Memang lucu, tetapi justru saya menganggap dasi kupu-kupu dan aksesori yang tidak diminta itu sebagai pengurang nilai
Hasil Opus kurang mencolok, tetapi lebih akurat
Pada akhirnya, model-model sekarang masih terasa tidak lebih dari generator kalimat probabilistik
Lega melihat tim Qwen terus merilis open weights
Berita terkait 1, berita 2
Mengesankan bahwa proyek ini tetap berlanjut bahkan setelah hengkangnya personel utama seperti Junyang Lin
Model berukuran kecil kemungkinan akan segera dirilis, tetapi tampaknya model unggulan 397A17B tidak termasuk
Unsloth sudah punya versi yang selesai dikuantisasi dan dikonversi
Tautan Hugging Face
Sebaiknya cek lagi sekitar seminggu kemudian untuk mendapatkan versi yang stabil
Karena bug awal, model bagus pun kadang jadi diremehkan
Proses kuantisasi itu rumit dan berisiko menurunkan kualitas, jadi menurut saya lebih baik dikerjakan langsung oleh pengembang aslinya
Versi quant yang buruk bisa merusak reputasi model
dan apa keuntungan dari format yang bagus
Akan bagus juga kalau konsep quantization itu sendiri dijelaskan
ollama run claudeSenang melihat rilisan terbaru dari tim Qwen ini
Model coding open-weight berukuran kecil berguna untuk membuat agen khusus bagi tim pengembang di industri tertentu (misalnya keuangan atau kesehatan)
yang akses cloud-nya dibatasi
Di dunia Barat, pasar seperti ini hampir tidak disentuh, dan tampaknya hanya Mistral yang jadi pengecualian
Perusahaan AI lain terasa hanya mengejar pendapatan jangka pendek
Untuk pekerjaan serius, kita tetap perlu investasi pada hardware yang bisa menjalankan model lebih besar sendiri
Dengan perangkat sekitar 100 ribu dolar pun, model yang lebih besar bisa dijalankan on-premise
Karakteristik embedding bahasa Qwen menarik
Tweet analisis terkait
Disebutkan bahwa, tidak seperti model lain, Qwen berada pada basin distribusi yang berfokus pada ujian
Seorang eksekutif Qwen sempat membuat polling di Twitter tentang model mana yang ingin dilihat orang sebagai open source,
tetapi meskipun versi 27B paling populer, model itu tetap tidak dirilis
Karena arsitektur A3B punya kecepatan distillation tinggi, mungkin akan segera keluar
Yang terakhir terasa lebih cepat dan lebih "pintar"
Dengan VRAM yang sama, model dense 27B bisa menangani konteks lebih besar sehingga kualitasnya akan lebih tinggi
Dalam pengujian lokal saya banyak memakai Qwen3.5-35B-A3B,
dan itu adalah model terkuat yang bisa berjalan di perangkat saya
Secara khusus saya terkesan dengan versi quant Mudler APEX-I-Quality dan Byteshape Q3_K_S-3.40bpw
Di lingkungan RTX 3060 12GB, ada lebih banyak ruang memori dan kecepatannya juga naik menjadi lebih dari 40 t/s
Bahkan perbaikan proyek yang sebelumnya macet pun bisa dikerjakan sendiri
Inilah jenis rilis perangkat lunak AI yang paling saya nantikan
Tidak ada pemasaran risiko yang berlebihan, tidak ada biaya langganan, hanya model yang memang ingin saya coba
sehingga praktis untuk sebagian besar use case
Saya penasaran bagaimana orang benar-benar memakai model lokal seperti ini
Ingin tahu nilainya dibanding sekadar menyewa token dari Anthropic atau OpenAI
Karena format dokumen sangat beragam, dulu saya memakai pipeline berbasis aturan yang rumit,
tetapi sekarang berkat kemampuan multimodal, ekstraksi gabungan bahasa+visi jadi memungkinkan
Cukup layak untuk analisis video, sementara ringkasan teks atau terjemahan saya proses dengan model yang lebih besar
Jika tidak real-time, kualitas lebih penting daripada kecepatan sehingga cocok untuk batch processing
Saya menginginkan model self-hosted yang sepenuhnya privat
Saya lelah dengan layanan SaaS yang dihentikan, jadi menurut saya LLM pada akhirnya juga harus menuju self-hosting
Bisa memanfaatkan GPU 100% tanpa batas token maupun batas kecepatan
Misalnya saya memakai Gemma 4 sebagai penerjemah offline di iPhone,
dan hasilnya lebih cepat serta lebih akurat daripada Apple Translate
Untuk hal-hal kecil seperti perbaikan JSON, model lokal jauh lebih efisien