4 poin oleh GN⁺ 3 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Model open-source dengan arsitektur sparse Mixture-of-Experts (MoE), di mana hanya 3 miliar dari total 35 miliar parameter yang aktif, sehingga mencapai efisiensi dan performa sekaligus
  • Dibanding generasi sebelumnya, kemampuan coding agentik meningkat drastis, dan menunjukkan tingkat yang mampu bersaing dengan model dense besar seperti Qwen3.5-27B atau Gemma4-31B
  • Mencatat skor tinggi pada benchmark coding utama seperti SWE-bench, Terminal-Bench, dan Claw-Eval, serta mencapai performa setingkat Claude Sonnet 4.5 pada tugas multimodal
  • Bobot terbuka dan akses API tersedia melalui Alibaba Cloud Model Studio API, Hugging Face, dan ModelScope, serta mendukung integrasi dengan berbagai alat coding seperti OpenClaw dan Claude Code
  • Dengan 3 miliar parameter aktif, model ini menghadirkan standar baru untuk model terbuka yang efisien dan sebanding dengan model besar

Ikhtisar Qwen3.6-35B-A3B

  • Qwen3.6-35B-A3B adalah model sparse Mixture-of-Experts (MoE), di mana hanya 3 miliar dari total 35 miliar parameter yang aktif, menjadikannya model open-source yang menghadirkan efisiensi dan performa sekaligus
  • Dibanding versi sebelumnya, Qwen3.5-35B-A3B, performa agentic coding meningkat besar, dan mencapai tingkat yang mampu bersaing dengan model dense besar seperti Qwen3.5-27B atau Gemma4-31B
  • Mendukung mode penalaran multimodal dan non-penalaran, dan dirilis melalui Qwen Studio, API, Hugging Face, serta ModelScope
  • Model dapat digunakan secara interaktif di Qwen Studio, dipanggil melalui Alibaba Cloud Model Studio API (qwen3.6-flash), atau di-host sendiri

Evaluasi performa

  • Performa bahasa dan coding

    • Qwen3.6-35B-A3B melampaui Qwen3.5-27B (model dense dengan 27 miliar parameter) pada berbagai benchmark coding utama hanya dengan 3 miliar parameter aktif
    • Mencatat skor tinggi seperti SWE-bench Verified 73.4, Terminal-Bench 51.5, dan rata-rata Claw-Eval 68.7
    • Pada QwenWebBench (benchmark pembuatan kode web), model ini mencatat 1397 poin, salah satu yang tertinggi di kelasnya
    • Pada benchmark agen umum seperti MCPMark, MCP-Atlas, dan WideSearch, model ini juga menunjukkan hasil unggul dibanding model pesaing
    • Pada MMLU-Pro, GPQA, AIME26, dan tolok ukur pengetahuan serta penalaran lainnya, akurasi tetap tinggi
  • Lingkungan evaluasi

    • Seri SWE-Bench dievaluasi dalam jendela konteks 200K berbasis scaffold agen internal (alat bash + file-edit)
    • Terminal-Bench 2.0 menggunakan batas waktu 3 jam, lingkungan 32 CPU/48GB RAM, dan dirata-ratakan dari 5 kali percobaan
    • SkillsBench dievaluasi pada 78 tugas, tidak termasuk pekerjaan yang bergantung pada API
    • QwenClawBench dan QwenWebBench adalah benchmark internal berbasis distribusi penggunaan nyata, sehingga mencerminkan lingkungan pengguna sebenarnya
  • Performa vision-language

    • Qwen3.6-35B-A3B adalah model multimodal native, dan hanya dengan 3 miliar parameter aktif mampu mencapai performa setingkat Claude Sonnet 4.5
    • Menunjukkan kekuatan pada kecerdasan spasial dengan RefCOCO (kesadaran spasial) 92.0 dan ODInW13 50.8
    • Mencatat skor tinggi pada berbagai tugas vision-language seperti RealWorldQA 85.3, MMBench EN-DEV 92.8, dan OmniDocBench1.5 89.9
    • Pada benchmark pemahaman video seperti VideoMME, VideoMMMU, dan MLVU, model ini juga stabil dengan skor di kisaran 80–86

Pemanfaatan Qwen3.6-35B-A3B

  • Deployment dan akses

    • Tersedia melalui Alibaba Cloud Model Studio API (qwen3.6-flash), dan bobot terbuka dapat diunduh dari Hugging Face dan ModelScope
    • Dapat langsung dicoba di Qwen Studio, serta mendukung integrasi dengan asisten coding pihak ketiga seperti OpenClaw, Claude Code, dan Qwen Code
  • Penggunaan API

    • Mendukung fitur preserve_thinking, yang mempertahankan isi thinking dari percakapan sebelumnya, sehingga cocok untuk tugas agentik
    • Alibaba Cloud Model Studio menyediakan chat completions API yang kompatibel dengan spesifikasi OpenAI dan Anthropic API
    • Pada kode contoh, opsi enable_thinking memungkinkan keluaran terpisah antara reasoning trace dan jawaban akhir
  • Integrasi OpenClaw

    • Qwen3.6-35B-A3B kompatibel dengan OpenClaw (sebelumnya Moltbot/Clawdbot), dan dapat dihubungkan ke Model Studio untuk menyediakan lingkungan coding agentik berbasis terminal
    • Informasi API Model Studio digunakan dengan menggabungkannya ke file konfigurasi (~/.openclaw/openclaw.json)
    • Instalasi dan eksekusi dapat dilakukan pada lingkungan Node.js 22 atau lebih baru
  • Integrasi Qwen Code

    • Sepenuhnya kompatibel dengan Qwen Code (agen AI open-source untuk terminal) yang dioptimalkan untuk seri Qwen
    • Setelah instalasi pada Node.js 20 atau lebih baru, proses autentikasi dilakukan dengan perintah /auth
  • Integrasi Claude Code

    • Karena mendukung protokol Anthropic API, model ini juga dapat langsung digunakan di Claude Code
    • Jalankan CLI setelah mengatur variabel lingkungan ANTHROPIC_MODEL="qwen3.6-flash"

Ringkasan dan prospek

  • Qwen3.6-35B-A3B membuktikan kemampuan coding agentik dan penalaran yang sebanding dengan model dense besar meski menggunakan arsitektur sparse MoE
  • Dengan 3 miliar parameter aktif, model ini mencapai efisiensi sekaligus performa tinggi, dan juga menunjukkan hasil unggul pada benchmark multimodal
  • Dirilis sebagai checkpoint open-source penuh, model ini menghadirkan standar baru untuk model terbuka yang efisien
  • Tim Qwen berencana terus memperluas keluarga open-source Qwen3.6, dan menantikan umpan balik serta pemanfaatan dari komunitas

Informasi kutipan

1 komentar

 
GN⁺ 3 hari lalu
Komentar Hacker News
  • Saya mencoba menjalankan versi Unsloth 20.9GB GGUF di laptop saya lewat LM Studio
    Tautan model
    Yang mengejutkan, model ini menggambar pelikan yang mengendarai sepeda lebih baik daripada Opus 4.7
    Lihat postingan perbandingan Simon Willison

    • Saya juga mereproduksinya dengan model yang sama (M1 Max 64GB, kurang dari 90 detik) — gambar hasil
      Hasil saya punya matahari dan awan di langit, rumput berupa garis hijau tipis, dan efek matahari dengan halo
      Ada juga ekspresi "aliran udara" yang mirip dengan hasil Simon, tapi pada akhirnya yang penting adalah pelikan dan sepedanya
    • Saya mencobanya berkat tautan GGUF itu
      Saya memakainya di proyek Shoggoth.db untuk pekerjaan penjelajahan wiki + pembangunan DB otomatis
      Saya merasa kemampuan eksplorasi makhluk baru meningkat dibanding Qwen3.5
      Kecepatannya juga naik menjadi sekitar 140 token/s, dan berjalan stabil di RTX 4090 tanpa memory offload
      Hanya saja, untuk mencegah konflik multimodal saya harus memakai opsi --no-mmproj-offload
    • Saya penasaran kapan tes seperti "pelikan yang mengendarai sepeda" akan berhenti berguna
      Awalnya ini dimaksudkan untuk menilai kreativitas model lewat prompt aneh yang tak terpikirkan orang, tapi sekarang rasanya sudah seperti benchmark internal
    • Saya tidak paham kenapa gambar flamingo dari Qwen dianggap menang
      Flamingonya duduk di atas ban, posisi paruhnya aneh, dan proporsi jari-jari roda serta kaki terasa janggal
      Kacamata hitamnya juga semi-transparan sehingga hanya satu mata yang terlihat
      Memang lucu, tetapi justru saya menganggap dasi kupu-kupu dan aksesori yang tidak diminta itu sebagai pengurang nilai
      Hasil Opus kurang mencolok, tetapi lebih akurat
    • Semakin lama saya melihat gambar-gambarnya, semakin terasa bahwa world model masih merupakan kepingan puzzle yang hilang
      Pada akhirnya, model-model sekarang masih terasa tidak lebih dari generator kalimat probabilistik
  • Lega melihat tim Qwen terus merilis open weights
    Berita terkait 1, berita 2
    Mengesankan bahwa proyek ini tetap berlanjut bahkan setelah hengkangnya personel utama seperti Junyang Lin

    • Ini hanya salah satu dari seri Qwen 3.6
      Model berukuran kecil kemungkinan akan segera dirilis, tetapi tampaknya model unggulan 397A17B tidak termasuk
    • Secara pribadi saya berharap qwen-image 2.0 juga dirilis dengan open weights
  • Unsloth sudah punya versi yang selesai dikuantisasi dan dikonversi
    Tautan Hugging Face

    • Unsloth memang cepat mengunggah quants eksperimental, tetapi versi tepat setelah rilis sering kali direvisi
      Sebaiknya cek lagi sekitar seminggu kemudian untuk mendapatkan versi yang stabil
      Karena bug awal, model bagus pun kadang jadi diremehkan
    • Saya penasaran kenapa Qwen sendiri tidak merilis model quantized
      Proses kuantisasi itu rumit dan berisiko menurunkan kualitas, jadi menurut saya lebih baik dikerjakan langsung oleh pengembang aslinya
      Versi quant yang buruk bisa merusak reputasi model
    • Saya penasaran dengan kebutuhan VRAM-nya. Ingin tahu apakah ini bisa jalan di GPU 16GB
    • Saya ingin tahu kenapa quantization bawaan Qwen dianggap buruk, siapa sebenarnya Unsloth,
      dan apa keuntungan dari format yang bagus
      Akan bagus juga kalau konsep quantization itu sendiri dijelaskan
    • Saya penasaran apakah model ini juga bisa dipakai lewat perintah ollama run claude
  • Senang melihat rilisan terbaru dari tim Qwen ini
    Model coding open-weight berukuran kecil berguna untuk membuat agen khusus bagi tim pengembang di industri tertentu (misalnya keuangan atau kesehatan)
    yang akses cloud-nya dibatasi
    Di dunia Barat, pasar seperti ini hampir tidak disentuh, dan tampaknya hanya Mistral yang jadi pengecualian

    • Mistral tampak sebagai satu-satunya perusahaan yang mengejar model bisnis berkelanjutan
      Perusahaan AI lain terasa hanya mengejar pendapatan jangka pendek
    • Model open kecil memang menyenangkan, tetapi kelasnya berbeda dibanding model hosted besar
      Untuk pekerjaan serius, kita tetap perlu investasi pada hardware yang bisa menjalankan model lebih besar sendiri
    • Saya setuju, tetapi model kecil seperti ini masih kurang untuk penggunaan industri yang nyata
      Dengan perangkat sekitar 100 ribu dolar pun, model yang lebih besar bisa dijalankan on-premise
    • Membuat model pesaing open-weight itu keren, tetapi biayanya terlalu besar
    • Di industri yang teregulasi, saya penasaran bagaimana cara memverifikasi bahwa model tidak dilatih pada data berbahaya
  • Karakteristik embedding bahasa Qwen menarik
    Tweet analisis terkait
    Disebutkan bahwa, tidak seperti model lain, Qwen berada pada basin distribusi yang berfokus pada ujian

  • Seorang eksekutif Qwen sempat membuat polling di Twitter tentang model mana yang ingin dilihat orang sebagai open source,
    tetapi meskipun versi 27B paling populer, model itu tetap tidak dirilis

    • Seperti pada 3.5, ada kemungkinan model ini dirilis bertahap lewat proses distillation
      Karena arsitektur A3B punya kecepatan distillation tinggi, mungkin akan segera keluar
    • 27B adalah model dense, jadi dari sisi pemasaran kurang menarik dibanding 35A3B
      Yang terakhir terasa lebih cepat dan lebih "pintar"
    • Mungkin akan segera dirilis
    • Secara pribadi saya merasa arsitektur MoE tidak efisien
      Dengan VRAM yang sama, model dense 27B bisa menangani konteks lebih besar sehingga kualitasnya akan lebih tinggi
  • Dalam pengujian lokal saya banyak memakai Qwen3.5-35B-A3B,
    dan itu adalah model terkuat yang bisa berjalan di perangkat saya
    Secara khusus saya terkesan dengan versi quant Mudler APEX-I-Quality dan Byteshape Q3_K_S-3.40bpw
    Di lingkungan RTX 3060 12GB, ada lebih banyak ruang memori dan kecepatannya juga naik menjadi lebih dari 40 t/s

    • Setelah mencoba berbagai tugas, Qwen3.6 adalah lompatan yang jauh lebih besar daripada 3.5
      Bahkan perbaikan proyek yang sebelumnya macet pun bisa dikerjakan sendiri
    • Saya penasaran quant versi mana yang paling bagus
  • Inilah jenis rilis perangkat lunak AI yang paling saya nantikan
    Tidak ada pemasaran risiko yang berlebihan, tidak ada biaya langganan, hanya model yang memang ingin saya coba

    • Saya juga berpikir begitu. Dalam waktu dekat saya berharap model lokal dan performa hardware akan cukup meningkat
      sehingga praktis untuk sebagian besar use case
  • Saya penasaran bagaimana orang benar-benar memakai model lokal seperti ini
    Ingin tahu nilainya dibanding sekadar menyewa token dari Anthropic atau OpenAI

    • Saya memakai Qwen3.5-9B untuk ekstraksi tabel OCR lokal
      Karena format dokumen sangat beragam, dulu saya memakai pipeline berbasis aturan yang rumit,
      tetapi sekarang berkat kemampuan multimodal, ekstraksi gabungan bahasa+visi jadi memungkinkan
    • Saya memakai Qwen3.5-4B bersama FOSS NVR bernama Frigate
      Cukup layak untuk analisis video, sementara ringkasan teks atau terjemahan saya proses dengan model yang lebih besar
      Jika tidak real-time, kualitas lebih penting daripada kecepatan sehingga cocok untuk batch processing
    • Saya tidak ingin selamanya memakai model sewa token
      Saya menginginkan model self-hosted yang sepenuhnya privat
      Saya lelah dengan layanan SaaS yang dihentikan, jadi menurut saya LLM pada akhirnya juga harus menuju self-hosting
    • Saya telah memproses batch jutaan dokumen dengan vLLM + qwen3-coder-next
      Bisa memanfaatkan GPU 100% tanpa batas token maupun batas kecepatan
    • Tidak semua pekerjaan membutuhkan model SOTA
      Misalnya saya memakai Gemma 4 sebagai penerjemah offline di iPhone,
      dan hasilnya lebih cepat serta lebih akurat daripada Apple Translate
      Untuk hal-hal kecil seperti perbaikan JSON, model lokal jauh lebih efisien