- Qwen3.5-397B-A17B adalah model terpadu bahasa-visual yang menunjukkan performa unggul di penalaran, coding, agen, dan pemahaman multimodal secara menyeluruh
- Arsitektur hibrida yang menggabungkan linear attention berbasis GDN dan sparse MoE mengaktifkan hanya 17 miliar dari total 397 miliar parameter, sehingga mencapai efisiensi inferensi dan penghematan biaya secara bersamaan
- Dukungan bahasa dan dialek diperluas dari 119 menjadi 201, memperkuat aksesibilitas global dan kemampuan pemrosesan multibahasa
- Qwen3.5-Plus yang disediakan melalui Alibaba Cloud Model Studio secara bawaan mendukung jendela konteks 1 juta token dan fitur penggunaan alat adaptif
- Dengan perluasan lingkungan reinforcement learning dan desain infrastruktur yang efisien, model ini memperoleh stabilitas dan skalabilitas untuk pelatihan serta inferensi agen multimodal skala besar
Ikhtisar Qwen3.5
- Qwen3.5 adalah model terpadu vision-language yang menunjukkan performa sangat baik di berbagai benchmark seperti penalaran, coding, agen, dan pemahaman multimodal
- Nama model Qwen3.5-397B-A17B, dengan hanya 17 miliar parameter aktif dari total 397 miliar
- Menggabungkan linear attention berbasis Gated Delta Networks dan arsitektur sparse Mixture-of-Experts untuk mengoptimalkan kecepatan dan biaya
- Dukungan bahasa diperluas dari 119 menjadi 201, meningkatkan aksesibilitas multibahasa
- Qwen3.5-Plus tersedia di Alibaba Cloud Model Studio, dan
- mencakup jendela konteks 1M, alat bawaan resmi, dan fitur penggunaan alat adaptif
Evaluasi performa
- Saat dibandingkan dengan model terbaru seperti GPT5.2, Claude 4.5 Opus, Gemini-3 Pro, Qwen3.5
- mencatat skor yang kompetitif di seluruh area bahasa, penalaran, coding, agen, dan multimodal
- Dalam evaluasi bahasa, model ini menunjukkan performa papan atas seperti MMLU-Pro 94.9, SuperGPQA 70.4, dan IFBench 76.5
- Dalam evaluasi vision-language, model ini meraih skor tinggi seperti MathVision 88.6, AI2D_TEST 93.9, dan OCRBench 93.1
- Menunjukkan hasil yang lebih baik dibanding Qwen3-VL dalam pemahaman multimodal dan pemecahan masalah STEM
- Melalui perluasan lingkungan reinforcement learning, performa agen umum meningkat, dengan perbaikan peringkat rata-rata pada BFCL-V4 dan VITA-Bench
Pra-pelatihan (Pretraining)
- Power: Dibanding Qwen3, Qwen3.5 dilatih dengan token visual-teks skala lebih besar serta data multibahasa, STEM, dan penalaran yang diperkuat
- Qwen3.5-397B-A17B mencapai performa setara model kelas 1T parameter (Qwen3-Max-Base)
- Efficiency: Berdasarkan arsitektur Qwen3-Next, model ini menerapkan sparsifikasi MoE, Gated DeltaNet, dan prediksi multi-token
- Pada konteks 32k/256k, throughput decoding mencapai 8,6x/19x dibanding Qwen3-Max
- Versatility: Dengan early fusion teks-visual untuk pemrosesan multimodal yang alami,
- ukuran kosakata ditingkatkan menjadi 250 ribu (dari 150 ribu), sehingga efisiensi encoding dan decoding naik 10~60%
Infrastruktur dan framework pelatihan
- Infrastruktur heterogen dengan pemisahan strategi paralel vision dan language mendukung pelatihan multimodal yang efisien
- Dengan memanfaatkan aktivasi sparse, model mencapai efisiensi pemrosesan mendekati 100% bahkan pada data campuran teks, gambar, dan video
- Pipeline FP8 digunakan untuk mengoptimalkan presisi pada aktivasi, routing MoE, dan operasi GEMM
- menghasilkan pengurangan penggunaan memori 50% dan peningkatan kecepatan lebih dari 10%
- Dibangun framework reinforcement learning asinkron untuk mendukung pelatihan model teks, multimodal, dan multi-turn
- melalui pelatihan end-to-end FP8, speculative decoding, dan multi-turn rollout locking,
model ini mencapai peningkatan throughput 3~5x sekaligus skalabilitas yang stabil
Pemanfaatan dan integrasi
- Qwen Chat menyediakan mode Auto, Thinking, dan Fast
- Auto: penggunaan alat otomatis dan pemikiran adaptif
- Thinking: penalaran mendalam
- Fast: respons instan
- Melalui ModelStudio API, fitur reasoning, web search, dan Code Interpreter dapat diaktifkan
- dikendalikan dengan parameter
enable_thinking dan enable_search
- Terintegrasi dengan Qwen Code, OpenClaw, dan lainnya untuk mendukung coding berbasis bahasa alami serta kreasi multimodal
Demo dan aplikasi
- Pengembangan web: membuat webpage dan kode UI melalui perintah bahasa alami
- Visual Agent: menjalankan kontrol otomatis berbasis bahasa alami di smartphone dan PC
- Visual Coding: dengan input hingga 1 juta token, mampu memproses video sampai 2 jam,
- mendukung konversi UI sketsa tangan menjadi kode, ringkasan video, dan lainnya
- Spatial Intelligence: meningkatkan akurasi dalam menghitung objek, relasi posisi, dan deskripsi spasial
- menunjukkan potensi aplikasi untuk autonomous driving dan robotics
- Visual Reasoning: lebih baik dibanding Qwen3-VL dalam pemecahan masalah ilmiah dan penalaran logis visual
Ringkasan dan arah ke depan
- Qwen3.5, berbasis arsitektur hibrida yang efisien dan penalaran multimodal native,
membangun fondasi untuk agen digital serbaguna
- Target berikutnya adalah beralih dari ekspansi model ke integrasi sistem
- mengembangkan sistem agen otonom dan persisten dengan memori berkelanjutan, antarmuka dunia nyata, perbaikan mandiri, dan kemampuan pengambilan keputusan ekonomis
1 komentar
Komentar Hacker News
Menarik melihat bahwa dari tantangan LLM hari ini, yang dipilih adalah “drive the car to the wash”
Karena LLM sudah melahap hampir semua korpus, sulit membedakan apakah peningkatannya benar-benar hasil pembelajaran, atau sekadar menempelkan ‘catatan Post-it’
Diperlukan cara untuk membuatnya tetap diekspresikan dalam bahasa alami, tetapi terlihat seperti masalah yang ‘terenkripsi’ bagi LLM
Misalnya, sepertinya bisa diuji dengan membuat generator program LUA sederhana yang menghasilkan kode acak, menerjemahkannya ke bahasa Inggris, meminta LLM memprediksi hasilnya, lalu membandingkannya dengan hasil eksekusi sebenarnya
Pendekatan seperti ini terasa seperti semacam skenario perang informasi
Bagi yang tertarik, MXFP4 GGUFs sudah saya unggah ke Hugging Face, dan panduan menjalankannya dirangkum di dokumentasi unsloth.ai
Pelican oke, tapi bukan sepeda yang bagus — lihat contoh terkait
Jika Qwen 3.5 dirilis pada ukuran 80~110B, sepertinya akan pas sekali untuk perangkat 128GB. Qwen3-Next memang 80B, tapi tidak punya vision encoder
Sayang yang dirilis hanya model flagship dan tidak ada versi distill kecil. Dulu Qwen enak karena hadir dalam banyak ukuran
Tahun baru Imlek lalu, saya bahkan tidak membayangkan model setingkat Sonnet 4.5 bisa berjalan cepat secara lokal, tapi sekarang mungkin saja itu menjadi mungkin di MacBook Pro M5 Max tahun 2026
Qwen adalah model terbuka yang sangat kuat, terutama seri visual-nya yang mengesankan
Dalam laporan AI disebutkan bahwa Fennec (Sonnet 5) akan dirilis pada 4 Februari, tetapi kenyataannya itu campuran rumor dan halusinasi dari tool berita AI. Kasus yang menarik
Ada masalah blog Qwen tidak bisa dimuat. Bahkan setelah mematikan ad blocker, yang terlihat tetap hanya placeholder
Saya penasaran apa tepatnya yang mereka maksud dengan 15.000 lingkungan RL. Kalau ratusan sih masih bisa dipahami, tapi lebih dari itu sulit dibayangkan
Belakangan semua orang hanya fokus pada skor benchmark, padahal yang benar-benar penting adalah apakah model bisa mempertahankan konteks saat menggunakan tool multi-step
Sebagian besar model terbuka masih runtuh di bagian ini