Model open-source Qwen3.5-Medium dari Alibaba hadirkan performa setara Sonnet 4.5 secara lokal

(venturebeat.com)

22 poin oleh GN⁺ 2026-03-02 | 4 komentar | Bagikan ke WhatsApp

Seri Qwen3.5 terdiri dari empat model bahasa besar berukuran 35B, 122B, 27B, dan lainnya, dengan tiga di antaranya dirilis di bawah lisensi open-source Apache 2.0
Menunjukkan performa benchmark yang melampaui OpenAI GPT-5-mini dan Anthropic Claude Sonnet 4.5, serta dapat berjalan dengan performa tinggi bahkan di lingkungan GPU lokal
Dengan kuantisasi 4-bit (quantization), model tetap mempertahankan hampir seluruh akurasi sambil mendukung context window lebih dari 1 juta token, sehingga pemrosesan data skala besar dimungkinkan bahkan pada GPU desktop
Menggabungkan struktur Gated Delta Networks dan Mixture-of-Experts (MoE) untuk meningkatkan efisiensi, serta melalui 'Thinking Mode' menghasilkan jawaban setelah melewati proses penalaran internal
Perusahaan dapat memanfaatkannya untuk membangun AI on-premises yang menjaga privasi dan mewujudkan pengembangan agen otonom tanpa bergantung pada cloud mahal

Gambaran umum model Qwen3.5-Medium

Seri Qwen3.5-Medium yang dirilis tim Qwen AI dari Alibaba terdiri dari empat LLM yang mendukung agentic tool calling
- Model publik: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Model proprietary: Qwen3.5-Flash (khusus Alibaba Cloud Model Studio API)
Tiga model open-source tersedia untuk diunduh di Hugging Face dan ModelScope
Qwen3.5-Flash disediakan dalam bentuk API komersial, dengan biaya operasional lebih rendah dibanding model Barat

Performa dan struktur teknis

Model Qwen3.5 melampaui OpenAI GPT-5-mini dan Claude Sonnet 4.5 dalam benchmark
Bahkan setelah kuantisasi (quantization), model tetap mempertahankan akurasi tinggi dan mendukung context window lebih dari 1 juta token di lingkungan GPU lokal (VRAM 32GB)
Kuantisasi bobot 4-bit dan KV cache memungkinkan akurasi tanpa kehilangan serta pemrosesan data skala besar
Arsitektur hibrida: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- Dari total 35 miliar parameter, hanya 300 juta yang aktif
- Lapisan MoE terdiri dari 256 expert (8 routing + 1 shared)
- Akurasi tetap terjaga bahkan dengan kompresi 4-bit, sehingga menghemat memori saat deployment lokal
Untuk mendukung riset, model Qwen3.5-35B-A3B-Base juga dirilis

Susunan produk dan fitur

Thinking Mode: model menghasilkan proses penalaran internal dalam tag `` sebelum menjawab
Karakteristik tiap model
- Qwen3.5-27B: berfokus pada efisiensi, mendukung konteks lebih dari 800 ribu token
- Qwen3.5-Flash: konteks dasar 1 juta token, dengan tool resmi bawaan
- Qwen3.5-122B-A10B: untuk GPU kelas server (VRAM 80GB), mendukung konteks 1 juta+
Hasil benchmark: Qwen3.5-35B-A3B unggul atas Qwen3-235B, GPT-5-mini, dan Sonnet 4.5 pada kategori pengetahuan (MMMLU) dan penalaran visual (MMMU-Pro)

Harga dan integrasi API

Tarif API Qwen3.5-Flash
- Input: $0.1 / 1 juta token
- Output: $0.4 / 1 juta token
- Pembuatan cache: $0.125 / 1 juta token
- Pembacaan cache: $0.01 / 1 juta token
Paket harga tool calling: Web Search $10/1.000 kali, Code Interpreter gratis (sementara)
Saat dibandingkan dengan LLM utama, ini termasuk salah satu API termurah
- Contoh: Claude Sonnet 4.5 total $18/1 juta token, GPT-5.2 $15.75, Qwen3.5-Flash $0.5

Pemanfaatan perusahaan dan maknanya

Dengan dirilisnya Qwen3.5-Medium, fine-tuning dan deployment model setara laboratorium riset besar kini menjadi mungkin juga bagi perusahaan umum
Dapat menjalankan analisis dokumen dan video berukuran besar di lingkungan on-premises, sambil memperkuat privasi data
Menjalankan struktur Mixture-of-Experts di dalam firewall internal untuk menjaga kedaulatan data
Dengan memanfaatkan Thinking Mode dan Tool Calling, perusahaan dapat membangun agen AI otonom
Pengguna awal menilai bahwa model ini “mempersempit kesenjangan dengan model besar tertutup”
Dengan desain yang berfokus pada efisiensi, integrasi AI dapat menghadirkan penghematan biaya, peningkatan keamanan, dan kelincahan operasional

4 komentar

chcv0313 2026-03-02

Saya punya RTX Pro 6000 (96GB, secara efektif 94GB), tetapi model 122B tidak bisa dimuat di ollama. Sepertinya karena ini model vision, jadi ada bagian yang berisi vision transformer. Sementara model GPT OSS 120b bisa dimuat dengan cukup leluasa.

ng0301 2026-03-02

Betul.. kalau vision encoder dipakai, model 1B juga bisa makan 9G VRAM.

kensin2 2026-03-02

Harus dijalankan dengan server llama.cpp berbasis CUDA agar performanya keluar.

GN⁺ 2026-03-02

Komentar Hacker News

Sebagian besar model open-source sedang memainkan permainan optimasi benchmark
Setiap model baru dipromosikan seolah sudah setara SOTA beberapa bulan lalu, tetapi saat dipakai langsung sering kali mengecewakan
Saya sudah mencoba Qwen3-Coder-Next dan Qwen3.5, dan keduanya belum mencapai level Sonnet 4.5
Namun, jika tujuan dijelaskan dengan jelas dan diberi batasan lewat pengujian, model ini akan terus mencoba dengan gigih dan akhirnya menyelesaikan masalah
Meski begitu, untuk model open-source ini tetap mengesankan, dan fakta bahwa tingkat kemampuan seperti ini bisa dicapai di lingkungan self-hosted benar-benar mengejutkan
Tapi jangan percaya pada klaim berlebihan bahwa ini setara Sonnet 4.5
- Dalam pengalaman saya, beberapa model open-source memang benar-benar kuat dan praktis
  Terutama StepFun-3.5-flash, yang bekerja sangat baik bahkan pada codebase Rust yang kompleks
  Saya tidak punya hubungan apa pun dengan StepFun, tetapi saya sangat menghormati tim yang bisa menghasilkan performa seperti ini dengan arsitektur 196B/11B
- Model-model “generasi sebelumnya” memang masih lebih baik daripada open-source, tetapi model seperti GLM-5 tampaknya cukup berhasil menangkap kemampuan pattern matching
  Benchmark GertLabs, yang membuat model saling bersaing, cukup bisa dipercaya karena sulit dimanipulasi
- Sebenarnya optimasi benchmark seperti ini dilakukan oleh semua model
  Bahkan model cloud mungkin lebih parah karena mereka bisa menyesuaikan sampai ke runtime
- Saya menjalankan Qwen 3.5 27B di 4090, dan ini pertama kalinya saya melihat performa coding model lokal sebagus ini
  Sebelumnya hampir tidak bisa dipakai, jadi kali ini benar-benar mengejutkan
- Saya penasaran apakah ada benchmark coding offline/privat terbaru, dan Apex Testing terlihat cukup bagus
  Jika pengujiannya berbeda dari soal-soal standar, seharusnya lebih tahan terhadap overfitting
Saya sedang membandingkan performa model lokal di MBP M3 Max 128G
Opus 4.6 dan Gemini Pro cepat dan akurat, tetapi qwen3.5:35b-a3b berjalan selama 45 menit lalu memberikan jawaban yang tidak akurat
Suara kipasnya sangat keras sampai seperti pesawat hendak lepas landas
Saya jadi ragu apakah model selambat ini realistis untuk menangani codebase skala besar
- Sebenarnya ada batasan saat menjalankan model open 100B parameter di laptop
  Model cloud berjalan dengan lebih dari 1T parameter di GPU bernilai jutaan dolar
  Untuk coding lokal, tingkat yang realistis lebih seperti “menghasilkan boilerplate aplikasi Android”
- Opus dan Gemini berjalan di GPU kelas H200 bernilai jutaan dolar
  Model lokal masih berada di level dua generasi di belakang, dan jika dibandingkan dengan Sonnet 4.5, jaraknya masih sangat jauh dari Opus 4.6
- Industri ini terjebak dalam kekeliruan logis bahwa “model besar selalu lebih baik”
  Padahal model kecil yang dioptimalkan untuk masalah sempit bisa bekerja lebih baik
  Tim kami menjalankan model kecil yang fokus hanya pada coding di M2 16GB, dan menurut kami hasilnya lebih baik daripada Sonnet 4.5
  Kami akan segera merilis beta rig.ai
- MacBook memiliki batas termal yang berat sehingga kurang cocok untuk pekerjaan jangka panjang
  Bahkan di server, jika kecepatan kipas dikunci di 100%, performa GPU meningkat 30%
  Model lokal cocok untuk tugas ringan, sementara pekerjaan berat lebih efisien diproses di cloud
- qwen3.5-35b-a3b cenderung menghabiskan banyak waktu untuk penalaran saat konteksnya pendek
  Ada laporan bahwa model ini jauh lebih efisien bila diberi system prompt yang panjang atau isi file
Saya menulis panduan untuk menyiapkan llama.cpp, OpenCode, dan Qwen3-Coder-30B-A3B-Instruct (GGUF, kuantisasi Q4_K_M) di M1 MacBook Pro
Pemasangannya cukup rumit, tetapi masih bisa diterapkan ke model-model terbaru
Tautan panduan instalasi
- Jika memakai LM Studio, instalasi bisa dilakukan dengan satu kali pencarian dan klik, lalu diekspos lewat API kompatibel OpenAI
- Saya juga mencoba konfigurasi yang sama di desktop Ryzen 32GB, dan Qwen paling mengesankan
  Berkat arsitektur MoE, kecepatan inferensinya juga cepat
  Saya memilih kuantisasi Q4_K_M, tetapi penasaran apakah itu memang pilihan terbaik
- Saya menunggu hadirnya model lokal yang tetap layak dipakai bahkan di RAM 16GB
- Saya penasaran seberapa cepat kecepatan eksekusinya di M1
Saya baru mulai mempelajari bagian dalam LLM, dan sadar bahwa float32 adalah presisi yang terlalu murah hati
Saya belajar kuantisasi lewat blog, lalu meminta Claude menganalisis akurasi kuantisasi 1 hingga 8 bit
4-bit terlihat seperti sweet spot karena hampir tanpa kehilangan dengan kemiripan 99%, tetapi ukurannya hanya setengah dari 8-bit
Menarik juga melihat para ahli benar-benar memakai 4-bit
- Pada hardware NVIDIA terbaru, pelatihan 4-bit juga didukung
  Model GPT-OSS dilatih dalam format MXFP4
  Dokumen standardisasi OCP, Spesifikasi format MX
- Riset tentang model ternary juga menarik
  Operasinya sangat cepat dan efisiensi cache-nya tinggi, jadi layak dieksplorasi
- Saya ingin belajar lebih banyak soal ini; adakah sumber referensi yang layak dilihat?
- Saya masih sulit membayangkan efek kognitif nyata dari perbedaan presisi 1%
  Sistemnya terlalu seperti kotak hitam sehingga sulit dipahami secara intuitif
Saya mencoba menjalankan Qwen3.5 122B dengan LM Studio dan Opencode, dan hasilnya cukup mengesankan
Bahkan di lingkungan M4 Max/128GB pun tidak terasa lambat, dan menunjukkan kemampuan analisis kode setingkat Claude Code
Sungguh mengejutkan melihat alternatif lokal yang sepenuhnya offline berkembang sejauh ini
Model open makin membaik, tetapi masih belum setara Sonnet 4.5
Di domain sempit model ini sangat bagus, tetapi masih lemah dalam memecahkan masalah yang ambigu
Qwen 3.5 adalah OSS terbaik yang pernah saya pakai sejauh ini, dan mulai menunjukkan kecerdasan yang terasa nyata
Saya menjalankannya gratis di RTX 6000 Pro, tetapi lebih sering memakai Composer 1.5
Meski begitu, saya berharap sebelum akhir tahun akan muncul model lokal setara GPT 5.2
Ada banyak klaim yang dibesar-besarkan
Hanya sedikit orang yang benar-benar mencobanya, dan sering kali tidak ada standar realistis yang dipakai
Dulu selalu ada catatan kaki seperti “tidak bisa dipakai di atas beberapa K token”
- Saya membuat webapp kalkulator RPN dengan Qwen 3.5 122B/a10B (q3, unsloth dynamic quant), dan ini model lokal pertama yang benar-benar berfungsi penuh
  Model lain biasanya salah mengimplementasikan stack atau UI-nya berantakan
  Claude Sonnet 4.6 juga bisa menyelesaikan masalah ini dengan benar, tetapi selain itu hampir semuanya gagal
- Qwen3-Coder-30B-A3B-Instruct bagus untuk integrasi IDE atau tugas pada unit fungsi kecil, tetapi ada batasnya untuk implementasi fitur skala besar
- Dengan model 35B, saya menyelesaikan implementasi PCA berbasis Polars dalam 10 menit
  Dulu model-model selalu berhalusinasi menghasilkan kode pandas, jadi ini kemajuan besar
Menarik bahwa Claude tidak ada di chart SWE
Ini memberi kesan bahwa datanya sengaja dimanipulasi
Sikap seperti ini saja sudah cukup membuat saya kehilangan kepercayaan
Saya menantikan hari ketika bisa menjalankannya sendiri secara lokal
Saya ingin mengurangi ketergantungan pada layanan AS
Saya penasaran apakah ada layanan di Eropa untuk menguji model open
- Koyeb memungkinkan penyewaan GPU per menit setelah diakuisisi Mistral, dan juga mendukung deployment model dengan sekali klik