Qwen3.5: Menuju Agen Multimodal Native

(qwen.ai)

6 poin oleh GN⁺ 2026-02-17 | 1 komentar | Bagikan ke WhatsApp

Qwen3.5-397B-A17B adalah model terpadu bahasa-visual yang menunjukkan performa unggul di penalaran, coding, agen, dan pemahaman multimodal secara menyeluruh
Arsitektur hibrida yang menggabungkan linear attention berbasis GDN dan sparse MoE mengaktifkan hanya 17 miliar dari total 397 miliar parameter, sehingga mencapai efisiensi inferensi dan penghematan biaya secara bersamaan
Dukungan bahasa dan dialek diperluas dari 119 menjadi 201, memperkuat aksesibilitas global dan kemampuan pemrosesan multibahasa
Qwen3.5-Plus yang disediakan melalui Alibaba Cloud Model Studio secara bawaan mendukung jendela konteks 1 juta token dan fitur penggunaan alat adaptif
Dengan perluasan lingkungan reinforcement learning dan desain infrastruktur yang efisien, model ini memperoleh stabilitas dan skalabilitas untuk pelatihan serta inferensi agen multimodal skala besar

Ikhtisar Qwen3.5

Qwen3.5 adalah model terpadu vision-language yang menunjukkan performa sangat baik di berbagai benchmark seperti penalaran, coding, agen, dan pemahaman multimodal
- Nama model Qwen3.5-397B-A17B, dengan hanya 17 miliar parameter aktif dari total 397 miliar
- Menggabungkan linear attention berbasis Gated Delta Networks dan arsitektur sparse Mixture-of-Experts untuk mengoptimalkan kecepatan dan biaya
Dukungan bahasa diperluas dari 119 menjadi 201, meningkatkan aksesibilitas multibahasa
Qwen3.5-Plus tersedia di Alibaba Cloud Model Studio, dan
- mencakup jendela konteks 1M, alat bawaan resmi, dan fitur penggunaan alat adaptif

Evaluasi performa

Saat dibandingkan dengan model terbaru seperti GPT5.2, Claude 4.5 Opus, Gemini-3 Pro, Qwen3.5
- mencatat skor yang kompetitif di seluruh area bahasa, penalaran, coding, agen, dan multimodal
Dalam evaluasi bahasa, model ini menunjukkan performa papan atas seperti MMLU-Pro 94.9, SuperGPQA 70.4, dan IFBench 76.5
Dalam evaluasi vision-language, model ini meraih skor tinggi seperti MathVision 88.6, AI2D_TEST 93.9, dan OCRBench 93.1
Menunjukkan hasil yang lebih baik dibanding Qwen3-VL dalam pemahaman multimodal dan pemecahan masalah STEM
Melalui perluasan lingkungan reinforcement learning, performa agen umum meningkat, dengan perbaikan peringkat rata-rata pada BFCL-V4 dan VITA-Bench

Pra-pelatihan (Pretraining)

Power: Dibanding Qwen3, Qwen3.5 dilatih dengan token visual-teks skala lebih besar serta data multibahasa, STEM, dan penalaran yang diperkuat
- Qwen3.5-397B-A17B mencapai performa setara model kelas 1T parameter (Qwen3-Max-Base)
Efficiency: Berdasarkan arsitektur Qwen3-Next, model ini menerapkan sparsifikasi MoE, Gated DeltaNet, dan prediksi multi-token
- Pada konteks 32k/256k, throughput decoding mencapai 8,6x/19x dibanding Qwen3-Max
Versatility: Dengan early fusion teks-visual untuk pemrosesan multimodal yang alami,
- ukuran kosakata ditingkatkan menjadi 250 ribu (dari 150 ribu), sehingga efisiensi encoding dan decoding naik 10~60%

Infrastruktur dan framework pelatihan

Infrastruktur heterogen dengan pemisahan strategi paralel vision dan language mendukung pelatihan multimodal yang efisien
- Dengan memanfaatkan aktivasi sparse, model mencapai efisiensi pemrosesan mendekati 100% bahkan pada data campuran teks, gambar, dan video
Pipeline FP8 digunakan untuk mengoptimalkan presisi pada aktivasi, routing MoE, dan operasi GEMM
- menghasilkan pengurangan penggunaan memori 50% dan peningkatan kecepatan lebih dari 10%
Dibangun framework reinforcement learning asinkron untuk mendukung pelatihan model teks, multimodal, dan multi-turn
- melalui pelatihan end-to-end FP8, speculative decoding, dan multi-turn rollout locking,
  model ini mencapai peningkatan throughput 3~5x sekaligus skalabilitas yang stabil

Pemanfaatan dan integrasi

Qwen Chat menyediakan mode Auto, Thinking, dan Fast
- Auto: penggunaan alat otomatis dan pemikiran adaptif
- Thinking: penalaran mendalam
- Fast: respons instan
Melalui ModelStudio API, fitur reasoning, web search, dan Code Interpreter dapat diaktifkan
- dikendalikan dengan parameter enable_thinking dan enable_search
Terintegrasi dengan Qwen Code, OpenClaw, dan lainnya untuk mendukung coding berbasis bahasa alami serta kreasi multimodal

Demo dan aplikasi

Pengembangan web: membuat webpage dan kode UI melalui perintah bahasa alami
Visual Agent: menjalankan kontrol otomatis berbasis bahasa alami di smartphone dan PC
Visual Coding: dengan input hingga 1 juta token, mampu memproses video sampai 2 jam,
- mendukung konversi UI sketsa tangan menjadi kode, ringkasan video, dan lainnya
Spatial Intelligence: meningkatkan akurasi dalam menghitung objek, relasi posisi, dan deskripsi spasial
- menunjukkan potensi aplikasi untuk autonomous driving dan robotics
Visual Reasoning: lebih baik dibanding Qwen3-VL dalam pemecahan masalah ilmiah dan penalaran logis visual

Ringkasan dan arah ke depan

Qwen3.5, berbasis arsitektur hibrida yang efisien dan penalaran multimodal native,
membangun fondasi untuk agen digital serbaguna
Target berikutnya adalah beralih dari ekspansi model ke integrasi sistem
- mengembangkan sistem agen otonom dan persisten dengan memori berkelanjutan, antarmuka dunia nyata, perbaikan mandiri, dan kemampuan pengambilan keputusan ekonomis

1 komentar

GN⁺ 2026-02-17

Komentar Hacker News

Menarik melihat bahwa dari tantangan LLM hari ini, yang dipilih adalah “drive the car to the wash”
- Yang lebih membuat penasaran daripada performanya adalah bagaimana cara menemukan ‘pertanyaan yang membingungkan’ seperti ini secara sistematis, lalu mengambil sampel statistik seberapa sering hal itu muncul pada tiap LLM
  Karena LLM sudah melahap hampir semua korpus, sulit membedakan apakah peningkatannya benar-benar hasil pembelajaran, atau sekadar menempelkan ‘catatan Post-it’
  Diperlukan cara untuk membuatnya tetap diekspresikan dalam bahasa alami, tetapi terlihat seperti masalah yang ‘terenkripsi’ bagi LLM
  Misalnya, sepertinya bisa diuji dengan membuat generator program LUA sederhana yang menghasilkan kode acak, menerjemahkannya ke bahasa Inggris, meminta LLM memprediksi hasilnya, lalu membandingkannya dengan hasil eksekusi sebenarnya
  Pendekatan seperti ini terasa seperti semacam skenario perang informasi
- Agen OpenClaw AI saya menanggapi dengan nada bercanda, mengatakan, “otaknya sebesar planet, tapi manusia malah menanyakan hal seperti ini, sungguh tidak memuaskan”
- Saya penasaran seberapa berbeda hasilnya jika pertanyaannya sedikit diubah, atau jika mobil diganti dengan sepeda, truk, kapal, atau pesawat
- Itu adalah jawaban dari Gemini assistant. Di model lain tidak bisa direproduksi
- Ini seperti kesalahan kecil yang muncul dari respons System 1 pada manusia. Pembelajaran berkelanjutan (Continual learning) mungkin bisa menjadi solusinya
Bagi yang tertarik, MXFP4 GGUFs sudah saya unggah ke Hugging Face, dan panduan menjalankannya dirangkum di dokumentasi unsloth.ai
- Saya penasaran apakah menjalankan model quantization presisi rendah 2~3 bit lebih efisien daripada model 8~16 bit. Sulit bereksperimen karena VRAM terbatas
Pelican oke, tapi bukan sepeda yang bagus — lihat contoh terkait
- Saya penasaran seberapa banyak yang kini diketahui tentang pelican dibanding saat pertama mulai
- Bisa jadi sekarang contoh Pelican itu sudah masuk ke sebagian besar dataset pelatihan. Akan menarik membuat tantangan SVG baru yang juga membuat Gemini 3 Deep Think gagal
- Saya suka titik warna lantai pada gambar yang dihasilkan
- Saya penasaran dengan kriteria seperti apa yang dipakai untuk akhirnya mempublikasikan contoh akhir setelah beberapa kali percobaan generasi
- Saya ingin tahu metode quantization apa yang dipakai, atau apakah itu versi API resmi
Jika Qwen 3.5 dirilis pada ukuran 80~110B, sepertinya akan pas sekali untuk perangkat 128GB. Qwen3-Next memang 80B, tapi tidak punya vision encoder
- Karena model open-weight makin besar, mungkin layak mempertimbangkan membeli satu perangkat 128GB lagi
- Saya penasaran kenapa 128GB. Kalau model 80B, bukankah dua A6000 juga cukup? Ingin tahu perangkat apa yang dimaksud
Sayang yang dirilis hanya model flagship dan tidak ada versi distill kecil. Dulu Qwen enak karena hadir dalam banyak ukuran
- Melihat kode HF Transformers, ada kemungkinan versi dense kecil juga akan segera muncul
- Menurut GitHub resmi Qwen, lebih banyak ukuran akan segera dirilis, dan ada juga ucapan tahun baru di sana
- Mungkin dengan ditambahkannya kemampuan multimodal, pekerjaan distill juga menjadi lebih sulit
Tahun baru Imlek lalu, saya bahkan tidak membayangkan model setingkat Sonnet 4.5 bisa berjalan cepat secara lokal, tapi sekarang mungkin saja itu menjadi mungkin di MacBook Pro M5 Max tahun 2026
- Saya tidak terlalu berharap. Menurut rumor, sepertinya benchmark-nya dicocokkan dengan memanfaatkan model Frontier
- Saat dipakai sungguhan, perbedaan antara benchmark dan performa yang dirasakan itu besar. Setelah melalui quantization, performanya turun lebih jauh. Sulit dipercaya sebelum mencobanya sendiri
- Saya berharap Tiongkok terus merilis model besar open-weight. Saya lebih ingin memakai model yang di-host di GPU server daripada lokal. Setelah itu distill bisa dilakukan
- Saya penasaran apakah MacBook M5 tahun 2026 akan dibekali RAM lebih dari 390GB
- Rasanya ungkapan ‘cepat’ itu berlebihan. Mungkin bisa untuk hitungan sederhana, tetapi pekerjaan kompleks akan berat. Ada alasan mengapa NVIDIA ada di posisi nomor satu
Qwen adalah model terbuka yang sangat kuat, terutama seri visual-nya yang mengesankan
Dalam laporan AI disebutkan bahwa Fennec (Sonnet 5) akan dirilis pada 4 Februari, tetapi kenyataannya itu campuran rumor dan halusinasi dari tool berita AI. Kasus yang menarik
- Saya kaget karena begitu membuka halaman tersebut, PDF langsung terunduh otomatis. Karena ada cerita tentang Sonnet 5, saya sempat bingung dan mengira itu materi uji internal
Ada masalah blog Qwen tidak bisa dimuat. Bahkan setelah mematikan ad blocker, yang terlihat tetap hanya placeholder
- Di iOS Safari, halaman bisa dimuat kalau mengatur “kurangi fitur perlindungan privasi lainnya”
Saya penasaran apa tepatnya yang mereka maksud dengan 15.000 lingkungan RL. Kalau ratusan sih masih bisa dipahami, tapi lebih dari itu sulit dibayangkan
- Menurut rumor, mereka mengunduh semua repo di GitHub lalu mengelompokkannya sebagai environment, kemudian menilai secara otomatis apakah bisa dibangun, tingkat kompleksitasnya, dan apakah tujuan tercapai. Misalnya, dengan menyuruh LLM menyisipkan bug, memicu kegagalan tes, lalu memperbaikinya untuk membentuk lingkungan RL berbasis tujuan
- Pada dasarnya hampir semua sistem interaktif bisa menjadi lingkungan RL. Jika tindakan bisa diambil secara otomatis di CLI, GUI, API, dan kualitas hasilnya bisa diukur, maka loop pembelajaran bisa dibuat
Belakangan semua orang hanya fokus pada skor benchmark, padahal yang benar-benar penting adalah apakah model bisa mempertahankan konteks saat menggunakan tool multi-step
Sebagian besar model terbuka masih runtuh di bagian ini

Qwen3.5: Menuju Agen Multimodal Native

Ikhtisar Qwen3.5

Evaluasi performa

Pra-pelatihan (Pretraining)

Infrastruktur dan framework pelatihan

Pemanfaatan dan integrasi

Demo dan aplikasi

Ringkasan dan arah ke depan

Bacaan terkait

1 komentar

Komentar Hacker News