22 poin oleh GN⁺ 2026-03-02 | 4 komentar | Bagikan ke WhatsApp
  • Seri Qwen3.5 terdiri dari empat model bahasa besar berukuran 35B, 122B, 27B, dan lainnya, dengan tiga di antaranya dirilis di bawah lisensi open-source Apache 2.0
  • Menunjukkan performa benchmark yang melampaui OpenAI GPT-5-mini dan Anthropic Claude Sonnet 4.5, serta dapat berjalan dengan performa tinggi bahkan di lingkungan GPU lokal
  • Dengan kuantisasi 4-bit (quantization), model tetap mempertahankan hampir seluruh akurasi sambil mendukung context window lebih dari 1 juta token, sehingga pemrosesan data skala besar dimungkinkan bahkan pada GPU desktop
  • Menggabungkan struktur Gated Delta Networks dan Mixture-of-Experts (MoE) untuk meningkatkan efisiensi, serta melalui 'Thinking Mode' menghasilkan jawaban setelah melewati proses penalaran internal
  • Perusahaan dapat memanfaatkannya untuk membangun AI on-premises yang menjaga privasi dan mewujudkan pengembangan agen otonom tanpa bergantung pada cloud mahal

Gambaran umum model Qwen3.5-Medium

  • Seri Qwen3.5-Medium yang dirilis tim Qwen AI dari Alibaba terdiri dari empat LLM yang mendukung agentic tool calling
    • Model publik: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
    • Model proprietary: Qwen3.5-Flash (khusus Alibaba Cloud Model Studio API)
  • Tiga model open-source tersedia untuk diunduh di Hugging Face dan ModelScope
  • Qwen3.5-Flash disediakan dalam bentuk API komersial, dengan biaya operasional lebih rendah dibanding model Barat

Performa dan struktur teknis

  • Model Qwen3.5 melampaui OpenAI GPT-5-mini dan Claude Sonnet 4.5 dalam benchmark
  • Bahkan setelah kuantisasi (quantization), model tetap mempertahankan akurasi tinggi dan mendukung context window lebih dari 1 juta token di lingkungan GPU lokal (VRAM 32GB)
  • Kuantisasi bobot 4-bit dan KV cache memungkinkan akurasi tanpa kehilangan serta pemrosesan data skala besar
  • Arsitektur hibrida: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
    • Dari total 35 miliar parameter, hanya 300 juta yang aktif
    • Lapisan MoE terdiri dari 256 expert (8 routing + 1 shared)
    • Akurasi tetap terjaga bahkan dengan kompresi 4-bit, sehingga menghemat memori saat deployment lokal
  • Untuk mendukung riset, model Qwen3.5-35B-A3B-Base juga dirilis

Susunan produk dan fitur

  • Thinking Mode: model menghasilkan proses penalaran internal dalam tag `` sebelum menjawab
  • Karakteristik tiap model
    • Qwen3.5-27B: berfokus pada efisiensi, mendukung konteks lebih dari 800 ribu token
    • Qwen3.5-Flash: konteks dasar 1 juta token, dengan tool resmi bawaan
    • Qwen3.5-122B-A10B: untuk GPU kelas server (VRAM 80GB), mendukung konteks 1 juta+
  • Hasil benchmark: Qwen3.5-35B-A3B unggul atas Qwen3-235B, GPT-5-mini, dan Sonnet 4.5 pada kategori pengetahuan (MMMLU) dan penalaran visual (MMMU-Pro)

Harga dan integrasi API

  • Tarif API Qwen3.5-Flash
    • Input: $0.1 / 1 juta token
    • Output: $0.4 / 1 juta token
    • Pembuatan cache: $0.125 / 1 juta token
    • Pembacaan cache: $0.01 / 1 juta token
  • Paket harga tool calling: Web Search $10/1.000 kali, Code Interpreter gratis (sementara)
  • Saat dibandingkan dengan LLM utama, ini termasuk salah satu API termurah
    • Contoh: Claude Sonnet 4.5 total $18/1 juta token, GPT-5.2 $15.75, Qwen3.5-Flash $0.5

Pemanfaatan perusahaan dan maknanya

  • Dengan dirilisnya Qwen3.5-Medium, fine-tuning dan deployment model setara laboratorium riset besar kini menjadi mungkin juga bagi perusahaan umum
  • Dapat menjalankan analisis dokumen dan video berukuran besar di lingkungan on-premises, sambil memperkuat privasi data
  • Menjalankan struktur Mixture-of-Experts di dalam firewall internal untuk menjaga kedaulatan data
  • Dengan memanfaatkan Thinking Mode dan Tool Calling, perusahaan dapat membangun agen AI otonom
  • Pengguna awal menilai bahwa model ini “mempersempit kesenjangan dengan model besar tertutup”
  • Dengan desain yang berfokus pada efisiensi, integrasi AI dapat menghadirkan penghematan biaya, peningkatan keamanan, dan kelincahan operasional

4 komentar

 
chcv0313 2026-03-02

Saya punya RTX Pro 6000 (96GB, secara efektif 94GB), tetapi model 122B tidak bisa dimuat di ollama. Sepertinya karena ini model vision, jadi ada bagian yang berisi vision transformer. Sementara model GPT OSS 120b bisa dimuat dengan cukup leluasa.

 
ng0301 2026-03-02

Betul.. kalau vision encoder dipakai, model 1B juga bisa makan 9G VRAM.

 
kensin2 2026-03-02

Harus dijalankan dengan server llama.cpp berbasis CUDA agar performanya keluar.

 
GN⁺ 2026-03-02
Komentar Hacker News
  • Sebagian besar model open-source sedang memainkan permainan optimasi benchmark
    Setiap model baru dipromosikan seolah sudah setara SOTA beberapa bulan lalu, tetapi saat dipakai langsung sering kali mengecewakan
    Saya sudah mencoba Qwen3-Coder-Next dan Qwen3.5, dan keduanya belum mencapai level Sonnet 4.5
    Namun, jika tujuan dijelaskan dengan jelas dan diberi batasan lewat pengujian, model ini akan terus mencoba dengan gigih dan akhirnya menyelesaikan masalah
    Meski begitu, untuk model open-source ini tetap mengesankan, dan fakta bahwa tingkat kemampuan seperti ini bisa dicapai di lingkungan self-hosted benar-benar mengejutkan
    Tapi jangan percaya pada klaim berlebihan bahwa ini setara Sonnet 4.5

    • Dalam pengalaman saya, beberapa model open-source memang benar-benar kuat dan praktis
      Terutama StepFun-3.5-flash, yang bekerja sangat baik bahkan pada codebase Rust yang kompleks
      Saya tidak punya hubungan apa pun dengan StepFun, tetapi saya sangat menghormati tim yang bisa menghasilkan performa seperti ini dengan arsitektur 196B/11B
    • Model-model “generasi sebelumnya” memang masih lebih baik daripada open-source, tetapi model seperti GLM-5 tampaknya cukup berhasil menangkap kemampuan pattern matching
      Benchmark GertLabs, yang membuat model saling bersaing, cukup bisa dipercaya karena sulit dimanipulasi
    • Sebenarnya optimasi benchmark seperti ini dilakukan oleh semua model
      Bahkan model cloud mungkin lebih parah karena mereka bisa menyesuaikan sampai ke runtime
    • Saya menjalankan Qwen 3.5 27B di 4090, dan ini pertama kalinya saya melihat performa coding model lokal sebagus ini
      Sebelumnya hampir tidak bisa dipakai, jadi kali ini benar-benar mengejutkan
    • Saya penasaran apakah ada benchmark coding offline/privat terbaru, dan Apex Testing terlihat cukup bagus
      Jika pengujiannya berbeda dari soal-soal standar, seharusnya lebih tahan terhadap overfitting
  • Saya sedang membandingkan performa model lokal di MBP M3 Max 128G
    Opus 4.6 dan Gemini Pro cepat dan akurat, tetapi qwen3.5:35b-a3b berjalan selama 45 menit lalu memberikan jawaban yang tidak akurat
    Suara kipasnya sangat keras sampai seperti pesawat hendak lepas landas
    Saya jadi ragu apakah model selambat ini realistis untuk menangani codebase skala besar

    • Sebenarnya ada batasan saat menjalankan model open 100B parameter di laptop
      Model cloud berjalan dengan lebih dari 1T parameter di GPU bernilai jutaan dolar
      Untuk coding lokal, tingkat yang realistis lebih seperti “menghasilkan boilerplate aplikasi Android”
    • Opus dan Gemini berjalan di GPU kelas H200 bernilai jutaan dolar
      Model lokal masih berada di level dua generasi di belakang, dan jika dibandingkan dengan Sonnet 4.5, jaraknya masih sangat jauh dari Opus 4.6
    • Industri ini terjebak dalam kekeliruan logis bahwa “model besar selalu lebih baik”
      Padahal model kecil yang dioptimalkan untuk masalah sempit bisa bekerja lebih baik
      Tim kami menjalankan model kecil yang fokus hanya pada coding di M2 16GB, dan menurut kami hasilnya lebih baik daripada Sonnet 4.5
      Kami akan segera merilis beta rig.ai
    • MacBook memiliki batas termal yang berat sehingga kurang cocok untuk pekerjaan jangka panjang
      Bahkan di server, jika kecepatan kipas dikunci di 100%, performa GPU meningkat 30%
      Model lokal cocok untuk tugas ringan, sementara pekerjaan berat lebih efisien diproses di cloud
    • qwen3.5-35b-a3b cenderung menghabiskan banyak waktu untuk penalaran saat konteksnya pendek
      Ada laporan bahwa model ini jauh lebih efisien bila diberi system prompt yang panjang atau isi file
  • Saya menulis panduan untuk menyiapkan llama.cpp, OpenCode, dan Qwen3-Coder-30B-A3B-Instruct (GGUF, kuantisasi Q4_K_M) di M1 MacBook Pro
    Pemasangannya cukup rumit, tetapi masih bisa diterapkan ke model-model terbaru
    Tautan panduan instalasi

    • Jika memakai LM Studio, instalasi bisa dilakukan dengan satu kali pencarian dan klik, lalu diekspos lewat API kompatibel OpenAI
    • Saya juga mencoba konfigurasi yang sama di desktop Ryzen 32GB, dan Qwen paling mengesankan
      Berkat arsitektur MoE, kecepatan inferensinya juga cepat
      Saya memilih kuantisasi Q4_K_M, tetapi penasaran apakah itu memang pilihan terbaik
    • Saya menunggu hadirnya model lokal yang tetap layak dipakai bahkan di RAM 16GB
    • Saya penasaran seberapa cepat kecepatan eksekusinya di M1
  • Saya baru mulai mempelajari bagian dalam LLM, dan sadar bahwa float32 adalah presisi yang terlalu murah hati
    Saya belajar kuantisasi lewat blog, lalu meminta Claude menganalisis akurasi kuantisasi 1 hingga 8 bit
    4-bit terlihat seperti sweet spot karena hampir tanpa kehilangan dengan kemiripan 99%, tetapi ukurannya hanya setengah dari 8-bit
    Menarik juga melihat para ahli benar-benar memakai 4-bit

    • Pada hardware NVIDIA terbaru, pelatihan 4-bit juga didukung
      Model GPT-OSS dilatih dalam format MXFP4
      Dokumen standardisasi OCP, Spesifikasi format MX
    • Riset tentang model ternary juga menarik
      Operasinya sangat cepat dan efisiensi cache-nya tinggi, jadi layak dieksplorasi
    • Saya ingin belajar lebih banyak soal ini; adakah sumber referensi yang layak dilihat?
    • Saya masih sulit membayangkan efek kognitif nyata dari perbedaan presisi 1%
      Sistemnya terlalu seperti kotak hitam sehingga sulit dipahami secara intuitif
  • Saya mencoba menjalankan Qwen3.5 122B dengan LM Studio dan Opencode, dan hasilnya cukup mengesankan
    Bahkan di lingkungan M4 Max/128GB pun tidak terasa lambat, dan menunjukkan kemampuan analisis kode setingkat Claude Code
    Sungguh mengejutkan melihat alternatif lokal yang sepenuhnya offline berkembang sejauh ini

  • Model open makin membaik, tetapi masih belum setara Sonnet 4.5
    Di domain sempit model ini sangat bagus, tetapi masih lemah dalam memecahkan masalah yang ambigu
    Qwen 3.5 adalah OSS terbaik yang pernah saya pakai sejauh ini, dan mulai menunjukkan kecerdasan yang terasa nyata
    Saya menjalankannya gratis di RTX 6000 Pro, tetapi lebih sering memakai Composer 1.5
    Meski begitu, saya berharap sebelum akhir tahun akan muncul model lokal setara GPT 5.2

  • Ada banyak klaim yang dibesar-besarkan
    Hanya sedikit orang yang benar-benar mencobanya, dan sering kali tidak ada standar realistis yang dipakai
    Dulu selalu ada catatan kaki seperti “tidak bisa dipakai di atas beberapa K token”

    • Saya membuat webapp kalkulator RPN dengan Qwen 3.5 122B/a10B (q3, unsloth dynamic quant), dan ini model lokal pertama yang benar-benar berfungsi penuh
      Model lain biasanya salah mengimplementasikan stack atau UI-nya berantakan
      Claude Sonnet 4.6 juga bisa menyelesaikan masalah ini dengan benar, tetapi selain itu hampir semuanya gagal
    • Qwen3-Coder-30B-A3B-Instruct bagus untuk integrasi IDE atau tugas pada unit fungsi kecil, tetapi ada batasnya untuk implementasi fitur skala besar
    • Dengan model 35B, saya menyelesaikan implementasi PCA berbasis Polars dalam 10 menit
      Dulu model-model selalu berhalusinasi menghasilkan kode pandas, jadi ini kemajuan besar
  • Menarik bahwa Claude tidak ada di chart SWE
    Ini memberi kesan bahwa datanya sengaja dimanipulasi
    Sikap seperti ini saja sudah cukup membuat saya kehilangan kepercayaan

  • Saya menantikan hari ketika bisa menjalankannya sendiri secara lokal
    Saya ingin mengurangi ketergantungan pada layanan AS

  • Saya penasaran apakah ada layanan di Eropa untuk menguji model open

    • Koyeb memungkinkan penyewaan GPU per menit setelah diakuisisi Mistral, dan juga mendukung deployment model dengan sekali klik