Qwen3.6-35B-A3B: Kekuatan Coding Agentik, Kini Terbuka untuk Semua

(qwen.ai)

25 poin oleh ragingwind 2026-04-17 | 2 komentar | Bagikan ke WhatsApp

Ini adalah model bahasa besar yang dirilis sebagai open source oleh tim Alibaba Qwen pada April 2026. Model ini menggunakan arsitektur MoE (Mixture-of-Experts). MoE adalah pendekatan yang menempatkan beberapa "jaringan pakar" di dalam model, lalu hanya mengaktifkan sebagian di antaranya setiap kali ada input. Total parameternya berjumlah 35 miliar, tetapi saat inferensi nyata hanya 3 miliar yang digunakan, sehingga model ini berjalan dengan sekitar 8,6% dari kapasitas totalnya. Ini adalah model multimodal yang memahami tidak hanya teks tetapi juga gambar dan video, serta mendukung baik mode Thinking yang menampilkan proses berpikir maupun mode Non-thinking yang langsung memberikan jawaban.

Poin utama

Dibanding pendahulunya, Qwen3.5-35B-A3B, performa coding agentik (metode coding otonom di mana AI sendiri menjelajahi file, menjalankan terminal, serta mendiagnosis dan memperbaiki bug) meningkat drastis
Mencapai 73,4 pada SWE-bench Verified (evaluasi perbaikan bug perangkat lunak nyata) dan 51,5 pada Terminal-Bench 2.0, melampaui Qwen3.5-27B, model Dense (arsitektur tradisional yang menggunakan semua parameter) yang parameternya jauh lebih besar, pada banyak metrik
Meraih 92,7 pada olimpiade matematika (AIME 2026) dan 80,4 pada coding real-time (LiveCodeBench v6), setara dengan model Dense 27B
Di ranah multimodal, mencatat 81,7 pada MMMU dan 85,3 pada RealWorldQA, melampaui Claude Sonnet 4.5 (model komersial berbayar), dan sangat kuat khususnya dalam kecerdasan spasial seperti pengenalan posisi objek dalam gambar (RefCOCO 92,0)
Dapat langsung terintegrasi dengan alat coding pihak ketiga seperti OpenClaw, Claude Code, dan Qwen Code, serta kompatibel dengan protokol API Anthropic

Kelebihan

Dengan 3B parameter aktif, model ini memberikan performa setara model Dense 27~31B, sehingga kebutuhan memori GPU dan konsumsi daya lebih rendah serta bisa dijalankan di lingkungan berskala kecil
Termasuk yang terkuat di kelasnya pada berbagai benchmark coding agentik
Memproses teks, gambar, video, dan dokumen dalam satu model
Sepenuhnya open source sehingga siapa pun dapat mengunduh, melakukan pelatihan lanjutan, dan menyesuaikannya

Kekurangan

Pada tugas agen umum (VITA-Bench 35,6), nilainya masih lebih rendah dibanding model Dense 27B generasi sebelumnya (41,8), sehingga masih ada ruang perbaikan
Pada penalaran akademik tingkat kesulitan tertinggi (HLE 21,4), masih tertinggal dari model Dense besar (24,3)
Sedikit kalah pada benchmark pengetahuan (MMLU-Pro)
API masih berstatus "coming soon", sehingga sulit langsung diterapkan pada layanan berskala besar

Pembeda

Jauh mengungguli Google Gemma4-26B-A4B, yang memiliki struktur MoE serupa, di hampir semua benchmark
Saat menjalankan tugas agen, fitur preserve_thinking yang mempertahankan isi pemikiran dari giliran percakapan sebelumnya memberi keuntungan dalam menjaga konteks jangka panjang
Bahkan kompatibel dengan protokol API Anthropic, sehingga dapat langsung masuk ke ekosistem Claude Code

Implikasi

Hasil yang menyaingi model 27B hanya dengan 3B parameter aktif menunjukkan bahwa arsitektur MoE sedang menjadi standar baru efisiensi AI
Karena model open source ini mengalahkan model berbayar seperti Claude Sonnet 4.5 pada banyak metrik, perusahaan memiliki insentif yang semakin kuat untuk beralih dari API mahal ke self-hosting
Karena komposisi benchmark sangat menitikberatkan pada coding agentik, hal ini menunjukkan bahwa industri memandang kemampuan AI dalam pengembangan perangkat lunak otonom sebagai kriteria evaluasi yang paling penting

2 komentar

jeeeyul 2026-04-19

Menurut hasil eksperimen di lembaga riset kami, ini adalah model yang dirilis terburu-buru oleh tim Qwen tanpa tim Qwen, demi mengelola keresahan pasar dengan hanya menyesuaikan diri pada benchmark. Obsesi terhadap tool terlalu kuat. Kami menilainya sebagai kemunduran dibanding 3.5.

woung717 2026-04-18

Saya sedang menjalankan versi Q3.5 di Mac, dan peningkatan kecerdasannya dibanding generasi sebelumnya benar-benar mengesankan. Fakta bahwa performanya sudah menyamai Oss 120b sudah cukup menjelaskan segalanya.