- Seri Qwen3.5 terdiri dari empat model bahasa besar berukuran 35B, 122B, 27B, dan lainnya, dengan tiga di antaranya dirilis di bawah lisensi open-source Apache 2.0
- Menunjukkan performa benchmark yang melampaui OpenAI GPT-5-mini dan Anthropic Claude Sonnet 4.5, serta dapat berjalan dengan performa tinggi bahkan di lingkungan GPU lokal
- Dengan kuantisasi 4-bit (quantization), model tetap mempertahankan hampir seluruh akurasi sambil mendukung context window lebih dari 1 juta token, sehingga pemrosesan data skala besar dimungkinkan bahkan pada GPU desktop
- Menggabungkan struktur Gated Delta Networks dan Mixture-of-Experts (MoE) untuk meningkatkan efisiensi, serta melalui 'Thinking Mode' menghasilkan jawaban setelah melewati proses penalaran internal
- Perusahaan dapat memanfaatkannya untuk membangun AI on-premises yang menjaga privasi dan mewujudkan pengembangan agen otonom tanpa bergantung pada cloud mahal
Gambaran umum model Qwen3.5-Medium
- Seri Qwen3.5-Medium yang dirilis tim Qwen AI dari Alibaba terdiri dari empat LLM yang mendukung agentic tool calling
- Model publik: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Model proprietary: Qwen3.5-Flash (khusus Alibaba Cloud Model Studio API)
- Tiga model open-source tersedia untuk diunduh di Hugging Face dan ModelScope
- Qwen3.5-Flash disediakan dalam bentuk API komersial, dengan biaya operasional lebih rendah dibanding model Barat
Performa dan struktur teknis
- Model Qwen3.5 melampaui OpenAI GPT-5-mini dan Claude Sonnet 4.5 dalam benchmark
- Bahkan setelah kuantisasi (quantization), model tetap mempertahankan akurasi tinggi dan mendukung context window lebih dari 1 juta token di lingkungan GPU lokal (VRAM 32GB)
- Kuantisasi bobot 4-bit dan KV cache memungkinkan akurasi tanpa kehilangan serta pemrosesan data skala besar
- Arsitektur hibrida: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- Dari total 35 miliar parameter, hanya 300 juta yang aktif
- Lapisan MoE terdiri dari 256 expert (8 routing + 1 shared)
- Akurasi tetap terjaga bahkan dengan kompresi 4-bit, sehingga menghemat memori saat deployment lokal
- Untuk mendukung riset, model Qwen3.5-35B-A3B-Base juga dirilis
Susunan produk dan fitur
- Thinking Mode: model menghasilkan proses penalaran internal dalam tag `` sebelum menjawab
- Karakteristik tiap model
- Qwen3.5-27B: berfokus pada efisiensi, mendukung konteks lebih dari 800 ribu token
- Qwen3.5-Flash: konteks dasar 1 juta token, dengan tool resmi bawaan
- Qwen3.5-122B-A10B: untuk GPU kelas server (VRAM 80GB), mendukung konteks 1 juta+
- Hasil benchmark: Qwen3.5-35B-A3B unggul atas Qwen3-235B, GPT-5-mini, dan Sonnet 4.5 pada kategori pengetahuan (MMMLU) dan penalaran visual (MMMU-Pro)
Harga dan integrasi API
- Tarif API Qwen3.5-Flash
- Input: $0.1 / 1 juta token
- Output: $0.4 / 1 juta token
- Pembuatan cache: $0.125 / 1 juta token
- Pembacaan cache: $0.01 / 1 juta token
- Paket harga tool calling: Web Search $10/1.000 kali, Code Interpreter gratis (sementara)
- Saat dibandingkan dengan LLM utama, ini termasuk salah satu API termurah
- Contoh: Claude Sonnet 4.5 total $18/1 juta token, GPT-5.2 $15.75, Qwen3.5-Flash $0.5
Pemanfaatan perusahaan dan maknanya
- Dengan dirilisnya Qwen3.5-Medium, fine-tuning dan deployment model setara laboratorium riset besar kini menjadi mungkin juga bagi perusahaan umum
- Dapat menjalankan analisis dokumen dan video berukuran besar di lingkungan on-premises, sambil memperkuat privasi data
- Menjalankan struktur Mixture-of-Experts di dalam firewall internal untuk menjaga kedaulatan data
- Dengan memanfaatkan Thinking Mode dan Tool Calling, perusahaan dapat membangun agen AI otonom
- Pengguna awal menilai bahwa model ini “mempersempit kesenjangan dengan model besar tertutup”
- Dengan desain yang berfokus pada efisiensi, integrasi AI dapat menghadirkan penghematan biaya, peningkatan keamanan, dan kelincahan operasional
4 komentar
Saya punya RTX Pro 6000 (96GB, secara efektif 94GB), tetapi model 122B tidak bisa dimuat di
ollama. Sepertinya karena ini model vision, jadi ada bagian yang berisi vision transformer. Sementara model GPT OSS 120b bisa dimuat dengan cukup leluasa.Betul.. kalau vision encoder dipakai, model 1B juga bisa makan 9G VRAM.
Harus dijalankan dengan server
llama.cppberbasis CUDA agar performanya keluar.Komentar Hacker News
Sebagian besar model open-source sedang memainkan permainan optimasi benchmark
Setiap model baru dipromosikan seolah sudah setara SOTA beberapa bulan lalu, tetapi saat dipakai langsung sering kali mengecewakan
Saya sudah mencoba Qwen3-Coder-Next dan Qwen3.5, dan keduanya belum mencapai level Sonnet 4.5
Namun, jika tujuan dijelaskan dengan jelas dan diberi batasan lewat pengujian, model ini akan terus mencoba dengan gigih dan akhirnya menyelesaikan masalah
Meski begitu, untuk model open-source ini tetap mengesankan, dan fakta bahwa tingkat kemampuan seperti ini bisa dicapai di lingkungan self-hosted benar-benar mengejutkan
Tapi jangan percaya pada klaim berlebihan bahwa ini setara Sonnet 4.5
Terutama StepFun-3.5-flash, yang bekerja sangat baik bahkan pada codebase Rust yang kompleks
Saya tidak punya hubungan apa pun dengan StepFun, tetapi saya sangat menghormati tim yang bisa menghasilkan performa seperti ini dengan arsitektur 196B/11B
Benchmark GertLabs, yang membuat model saling bersaing, cukup bisa dipercaya karena sulit dimanipulasi
Bahkan model cloud mungkin lebih parah karena mereka bisa menyesuaikan sampai ke runtime
Sebelumnya hampir tidak bisa dipakai, jadi kali ini benar-benar mengejutkan
Jika pengujiannya berbeda dari soal-soal standar, seharusnya lebih tahan terhadap overfitting
Saya sedang membandingkan performa model lokal di MBP M3 Max 128G
Opus 4.6 dan Gemini Pro cepat dan akurat, tetapi qwen3.5:35b-a3b berjalan selama 45 menit lalu memberikan jawaban yang tidak akurat
Suara kipasnya sangat keras sampai seperti pesawat hendak lepas landas
Saya jadi ragu apakah model selambat ini realistis untuk menangani codebase skala besar
Model cloud berjalan dengan lebih dari 1T parameter di GPU bernilai jutaan dolar
Untuk coding lokal, tingkat yang realistis lebih seperti “menghasilkan boilerplate aplikasi Android”
Model lokal masih berada di level dua generasi di belakang, dan jika dibandingkan dengan Sonnet 4.5, jaraknya masih sangat jauh dari Opus 4.6
Padahal model kecil yang dioptimalkan untuk masalah sempit bisa bekerja lebih baik
Tim kami menjalankan model kecil yang fokus hanya pada coding di M2 16GB, dan menurut kami hasilnya lebih baik daripada Sonnet 4.5
Kami akan segera merilis beta rig.ai
Bahkan di server, jika kecepatan kipas dikunci di 100%, performa GPU meningkat 30%
Model lokal cocok untuk tugas ringan, sementara pekerjaan berat lebih efisien diproses di cloud
Ada laporan bahwa model ini jauh lebih efisien bila diberi system prompt yang panjang atau isi file
Saya menulis panduan untuk menyiapkan llama.cpp, OpenCode, dan Qwen3-Coder-30B-A3B-Instruct (GGUF, kuantisasi Q4_K_M) di M1 MacBook Pro
Pemasangannya cukup rumit, tetapi masih bisa diterapkan ke model-model terbaru
Tautan panduan instalasi
Berkat arsitektur MoE, kecepatan inferensinya juga cepat
Saya memilih kuantisasi Q4_K_M, tetapi penasaran apakah itu memang pilihan terbaik
Saya baru mulai mempelajari bagian dalam LLM, dan sadar bahwa float32 adalah presisi yang terlalu murah hati
Saya belajar kuantisasi lewat blog, lalu meminta Claude menganalisis akurasi kuantisasi 1 hingga 8 bit
4-bit terlihat seperti sweet spot karena hampir tanpa kehilangan dengan kemiripan 99%, tetapi ukurannya hanya setengah dari 8-bit
Menarik juga melihat para ahli benar-benar memakai 4-bit
Model GPT-OSS dilatih dalam format MXFP4
Dokumen standardisasi OCP, Spesifikasi format MX
Operasinya sangat cepat dan efisiensi cache-nya tinggi, jadi layak dieksplorasi
Sistemnya terlalu seperti kotak hitam sehingga sulit dipahami secara intuitif
Saya mencoba menjalankan Qwen3.5 122B dengan LM Studio dan Opencode, dan hasilnya cukup mengesankan
Bahkan di lingkungan M4 Max/128GB pun tidak terasa lambat, dan menunjukkan kemampuan analisis kode setingkat Claude Code
Sungguh mengejutkan melihat alternatif lokal yang sepenuhnya offline berkembang sejauh ini
Model open makin membaik, tetapi masih belum setara Sonnet 4.5
Di domain sempit model ini sangat bagus, tetapi masih lemah dalam memecahkan masalah yang ambigu
Qwen 3.5 adalah OSS terbaik yang pernah saya pakai sejauh ini, dan mulai menunjukkan kecerdasan yang terasa nyata
Saya menjalankannya gratis di RTX 6000 Pro, tetapi lebih sering memakai Composer 1.5
Meski begitu, saya berharap sebelum akhir tahun akan muncul model lokal setara GPT 5.2
Ada banyak klaim yang dibesar-besarkan
Hanya sedikit orang yang benar-benar mencobanya, dan sering kali tidak ada standar realistis yang dipakai
Dulu selalu ada catatan kaki seperti “tidak bisa dipakai di atas beberapa K token”
Model lain biasanya salah mengimplementasikan stack atau UI-nya berantakan
Claude Sonnet 4.6 juga bisa menyelesaikan masalah ini dengan benar, tetapi selain itu hampir semuanya gagal
Dulu model-model selalu berhalusinasi menghasilkan kode pandas, jadi ini kemajuan besar
Menarik bahwa Claude tidak ada di chart SWE
Ini memberi kesan bahwa datanya sengaja dimanipulasi
Sikap seperti ini saja sudah cukup membuat saya kehilangan kepercayaan
Saya menantikan hari ketika bisa menjalankannya sendiri secara lokal
Saya ingin mengurangi ketergantungan pada layanan AS
Saya penasaran apakah ada layanan di Eropa untuk menguji model open