23 poin oleh ragingwind 3 hari lalu | 2 komentar | Bagikan ke WhatsApp

Ini adalah model bahasa besar yang dirilis sebagai open source oleh tim Alibaba Qwen pada April 2026. Model ini menggunakan arsitektur MoE (Mixture-of-Experts). MoE adalah pendekatan yang menempatkan beberapa "jaringan pakar" di dalam model, lalu hanya mengaktifkan sebagian di antaranya setiap kali ada input. Total parameternya 35 miliar, tetapi saat inferensi hanya menggunakan 3 miliar, sehingga berjalan dengan sekitar 8,6% dari kapasitas penuhnya. Ini adalah model multimodal yang memahami bukan hanya teks, tetapi juga gambar dan video, serta mendukung mode Thinking yang menampilkan proses berpikir dan mode Non-thinking yang langsung memberi jawaban.

Poin utama

  • Dibanding pendahulunya Qwen3.5-35B-A3B, performa agentic coding (gaya coding otonom di mana AI sendiri menelusuri file, menjalankan terminal, serta mendiagnosis dan memperbaiki bug) meningkat drastis
  • Mencatat 73,4 di SWE-bench Verified (evaluasi perbaikan bug perangkat lunak nyata) dan 51,5 di Terminal-Bench 2.0, mengungguli Qwen3.5-27B, model Dense yang parameternya jauh lebih besar (struktur tradisional yang memakai semua parameter), pada banyak metrik
  • Meraih 92,7 pada olimpiade matematika (AIME 2026) dan 80,4 pada live coding (LiveCodeBench v6), setara dengan model Dense 27B
  • Di ranah multimodal, mencetak 81,7 pada MMMU dan 85,3 pada RealWorldQA, melampaui Claude Sonnet 4.5 (model komersial berbayar), dan sangat kuat khususnya dalam kecerdasan spasial seperti pengenalan lokasi objek di dalam gambar (RefCOCO 92.0)
  • Dapat langsung terintegrasi dengan alat coding pihak ketiga seperti OpenClaw, Claude Code, dan Qwen Code, serta kompatibel dengan protokol API Anthropic

Kelebihan

  • Dengan 3B parameter aktif, performanya setara model Dense 27~31B, sehingga kebutuhan memori GPU dan konsumsi daya lebih rendah, dan bisa dijalankan di lingkungan yang lebih kecil
  • Termasuk yang terkuat di kelasnya pada berbagai benchmark agentic coding
  • Menangani teks, gambar, video, dan dokumen dalam satu model
  • Sepenuhnya open source, sehingga siapa pun dapat mengunduh, melatih lanjutan, dan menyesuaikannya

Kekurangan

  • Pada tugas agen umum (VITA-Bench 35.6), nilainya masih di bawah model Dense 27B generasi sebelumnya (41.8), sehingga masih ada ruang perbaikan
  • Pada penalaran akademik tingkat tertinggi (HLE 21.4), masih tertinggal dari model Dense besar (24.3)
  • Sedikit tertinggal pada benchmark pengetahuan (MMLU-Pro)
  • API masih berstatus "coming soon", sehingga sulit langsung diterapkan untuk layanan skala besar

Pembeda

  • Jauh mengungguli Google Gemma4-26B-A4B yang memakai struktur MoE serupa di hampir semua benchmark
  • Dalam tugas agen, fitur preserve_thinking yang mempertahankan isi pemikiran dari giliran percakapan sebelumnya memberi keuntungan untuk menjaga konteks jangka panjang
  • Juga kompatibel dengan protokol API Anthropic, sehingga bisa langsung masuk ke ekosistem Claude Code

Implikasi

  • Hasil setara model 27B dengan hanya 3B parameter aktif menunjukkan bahwa arsitektur MoE sedang menjadi standar baru efisiensi AI
  • Karena model open source ini mengalahkan model berbayar seperti Claude Sonnet 4.5 pada banyak metrik, perusahaan memiliki insentif yang makin kuat untuk beralih ke self-hosting alih-alih memakai API mahal
  • Karena komposisi benchmark sangat menekankan agentic coding, ini menunjukkan bahwa industri menganggap kemampuan pengembangan perangkat lunak otonom AI sebagai kriteria evaluasi yang paling penting

2 komentar

 
jeeeyul 1 hari lalu

Menurut hasil eksperimen di lembaga riset kami, ini adalah model yang dirilis terburu-buru oleh tim Qwen tanpa tim Qwen, demi mengelola keresahan pasar dengan hanya menyesuaikan diri pada benchmark. Obsesi terhadap tool terlalu kuat. Kami menilainya sebagai kemunduran dibanding 3.5.

 
woung717 2 hari lalu

Saya sedang menjalankan versi Q3.5 di Mac, dan peningkatan kecerdasannya dibanding generasi sebelumnya benar-benar mengesankan. Fakta bahwa performanya sudah menyamai Oss 120b sudah cukup menjelaskan segalanya.