Ini adalah model bahasa besar yang dirilis sebagai open source oleh tim Alibaba Qwen pada April 2026. Model ini menggunakan arsitektur MoE (Mixture-of-Experts). MoE adalah pendekatan yang menempatkan beberapa "jaringan pakar" di dalam model, lalu hanya mengaktifkan sebagian di antaranya setiap kali ada input. Total parameternya berjumlah 35 miliar, tetapi saat inferensi nyata hanya 3 miliar yang digunakan, sehingga model ini berjalan dengan sekitar 8,6% dari kapasitas totalnya. Ini adalah model multimodal yang memahami tidak hanya teks tetapi juga gambar dan video, serta mendukung baik mode Thinking yang menampilkan proses berpikir maupun mode Non-thinking yang langsung memberikan jawaban.
Poin utama
- Dibanding pendahulunya, Qwen3.5-35B-A3B, performa coding agentik (metode coding otonom di mana AI sendiri menjelajahi file, menjalankan terminal, serta mendiagnosis dan memperbaiki bug) meningkat drastis
- Mencapai 73,4 pada SWE-bench Verified (evaluasi perbaikan bug perangkat lunak nyata) dan 51,5 pada Terminal-Bench 2.0, melampaui Qwen3.5-27B, model Dense (arsitektur tradisional yang menggunakan semua parameter) yang parameternya jauh lebih besar, pada banyak metrik
- Meraih 92,7 pada olimpiade matematika (AIME 2026) dan 80,4 pada coding real-time (LiveCodeBench v6), setara dengan model Dense 27B
- Di ranah multimodal, mencatat 81,7 pada MMMU dan 85,3 pada RealWorldQA, melampaui Claude Sonnet 4.5 (model komersial berbayar), dan sangat kuat khususnya dalam kecerdasan spasial seperti pengenalan posisi objek dalam gambar (RefCOCO 92,0)
- Dapat langsung terintegrasi dengan alat coding pihak ketiga seperti OpenClaw, Claude Code, dan Qwen Code, serta kompatibel dengan protokol API Anthropic
Kelebihan
- Dengan 3B parameter aktif, model ini memberikan performa setara model Dense 27~31B, sehingga kebutuhan memori GPU dan konsumsi daya lebih rendah serta bisa dijalankan di lingkungan berskala kecil
- Termasuk yang terkuat di kelasnya pada berbagai benchmark coding agentik
- Memproses teks, gambar, video, dan dokumen dalam satu model
- Sepenuhnya open source sehingga siapa pun dapat mengunduh, melakukan pelatihan lanjutan, dan menyesuaikannya
Kekurangan
- Pada tugas agen umum (VITA-Bench 35,6), nilainya masih lebih rendah dibanding model Dense 27B generasi sebelumnya (41,8), sehingga masih ada ruang perbaikan
- Pada penalaran akademik tingkat kesulitan tertinggi (HLE 21,4), masih tertinggal dari model Dense besar (24,3)
- Sedikit kalah pada benchmark pengetahuan (MMLU-Pro)
- API masih berstatus "coming soon", sehingga sulit langsung diterapkan pada layanan berskala besar
Pembeda
- Jauh mengungguli Google Gemma4-26B-A4B, yang memiliki struktur MoE serupa, di hampir semua benchmark
- Saat menjalankan tugas agen, fitur preserve_thinking yang mempertahankan isi pemikiran dari giliran percakapan sebelumnya memberi keuntungan dalam menjaga konteks jangka panjang
- Bahkan kompatibel dengan protokol API Anthropic, sehingga dapat langsung masuk ke ekosistem Claude Code
Implikasi
- Hasil yang menyaingi model 27B hanya dengan 3B parameter aktif menunjukkan bahwa arsitektur MoE sedang menjadi standar baru efisiensi AI
- Karena model open source ini mengalahkan model berbayar seperti Claude Sonnet 4.5 pada banyak metrik, perusahaan memiliki insentif yang semakin kuat untuk beralih dari API mahal ke self-hosting
- Karena komposisi benchmark sangat menitikberatkan pada coding agentik, hal ini menunjukkan bahwa industri memandang kemampuan AI dalam pengembangan perangkat lunak otonom sebagai kriteria evaluasi yang paling penting
2 komentar
Menurut hasil eksperimen di lembaga riset kami, ini adalah model yang dirilis terburu-buru oleh tim Qwen tanpa tim Qwen, demi mengelola keresahan pasar dengan hanya menyesuaikan diri pada benchmark. Obsesi terhadap tool terlalu kuat. Kami menilainya sebagai kemunduran dibanding 3.5.
Saya sedang menjalankan versi Q3.5 di Mac, dan peningkatan kecerdasannya dibanding generasi sebelumnya benar-benar mengesankan. Fakta bahwa performanya sudah menyamai Oss 120b sudah cukup menjelaskan segalanya.