- Keluarga model Qwen3.5 dari Alibaba menawarkan berbagai ukuran dari 0.8B hingga 397B, serta mendukung penalaran hibrida multimodal dan konteks 256K
- Unsloth menyediakan semua model Qwen3.5 dalam kuantisasi Dynamic 2.0 GGUF, dan dapat dijalankan secara lokal melalui llama.cpp atau LM Studio
- Dapat beralih antara mode thinking dan mode non-thinking, dengan model kecil (0.8B~9B) secara default disetel ke mode non-thinking
- Untuk tiap model, dijelaskan kebutuhan RAM/VRAM dan nilai pengaturan yang direkomendasikan (temperature, top_p, dll.), dan model 27B·35B dapat dijalankan bahkan di lingkungan Mac 22GB
- GGUF Unsloth meningkatkan performa dengan algoritme kuantisasi yang ditingkatkan dan data imatrix, tetapi tidak kompatibel dengan Ollama
Ringkasan Qwen3.5
- Qwen3.5 adalah seri LLM baru yang dirilis Alibaba, mencakup 0.8B·2B·4B·9B (kecil) hingga 27B·35B·122B·397B (besar)
- Mendukung penalaran hibrida multimodal, serta memproses 201 bahasa dan panjang konteks 256K
- Menunjukkan performa tinggi dalam agent coding, vision, percakapan, dan pekerjaan konteks panjang
- Model 35B dan 27B dapat dijalankan bahkan pada Mac dengan 22GB RAM
- Semua file GGUF menggunakan algoritme kuantisasi yang disempurnakan dan data imatrix baru
- Peningkatan performa pada chat, coding, konteks panjang, dan tool-calling
- Lapisan MXFP4 dihapus pada sebagian GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)
Kebutuhan perangkat keras
- Tabel menunjukkan kebutuhan memori minimum untuk tiap ukuran model
- Contoh: model 0.8B~2B memerlukan 3GB, 9B memerlukan 5.5GB (basis 3-bit), dan 35B-A3B memerlukan 17GB
- 397B-A17B memerlukan 180GB pada basis 3-bit, dan 214GB pada basis 4-bit
- Total memori (RAM+VRAM) harus lebih besar daripada ukuran file model untuk memperoleh performa optimal
- Jika kurang, model tetap dapat dijalankan dengan offloading ke SSD/HDD, tetapi kecepatannya akan menurun
- 27B dipilih bila mengutamakan akurasi, sedangkan 35B-A3B dipilih bila mengutamakan kecepatan
Nilai pengaturan yang direkomendasikan
- Jendela konteks maksimum: 262,144 (dapat diperluas hingga 1M dengan YaRN)
- presence_penalty: 0.0~2.0 (untuk mengurangi pengulangan, tetapi nilai lebih tinggi bisa sedikit menurunkan performa)
- Panjang output: direkomendasikan 32,768 token
- Nilai pengaturan berbeda antara mode Thinking dan mode Non-thinking
- Mode Thinking: untuk tugas umum temperature=1.0, untuk coding 0.6
- Mode Non-thinking: untuk tugas umum temperature=0.7, untuk tugas penalaran 1.0
- Model kecil (0.8B~9B) secara default menonaktifkan reasoning
- Untuk mengaktifkannya, gunakan
--chat-template-kwargs '{"enable_thinking":true}'
Tutorial menjalankan dan inferensi
- Semua model tersedia dalam versi Dynamic 4-bit MXFP4_MOE GGUF
- Prosedur inferensi lokal menggunakan llama.cpp
- Instal versi terbaru dari GitHub, lalu pilih GPU/CPU dengan opsi
-DGGML_CUDA
- Unduh model dari Hugging Face (
hf download unsloth/Qwen3.5-XXB-GGUF)
- Jalankan dengan perintah
llama-cli atau llama-server
- Juga dapat dijalankan di LM Studio
- Setelah mencari model, unduh GGUF lalu aktifkan toggle Thinking dengan file YAML
- Setelah restart, fitur toggle dapat digunakan
Ringkasan eksekusi per model
- Qwen3.5-35B-A3B: inferensi cepat dengan Dynamic 4-bit pada RAM/Mac 24GB
- Qwen3.5-27B: dapat dijalankan pada RAM/Mac 18GB
- Qwen3.5-122B-A10B: berjalan di lingkungan RAM/Mac 70GB
- Qwen3.5-397B-A17B:
- 3-bit: memerlukan 192GB RAM, 4-bit: memerlukan 256GB RAM
- Dengan kombinasi GPU 24GB + RAM 256GB, dapat menghasilkan lebih dari 25 token per detik
- Kelas performanya setara dengan Gemini 3 Pro, Claude Opus 4.5, dan GPT-5.2
Server inferensi dan integrasi API
- Dapat dideploy dalam bentuk OpenAI-compatible API melalui
llama-server
- Mendukung fitur Tool Calling
- Dapat memanggil fungsi seperti eksekusi kode Python, perintah terminal, operasi matematika, dll.
- Menyediakan contoh kode
unsloth_inference()
Hasil benchmark
- Benchmark Unsloth GGUF
- Dynamic quant Qwen3.5-35B menunjukkan performa SOTA pada sebagian besar rentang bit
- Lebih dari 150 pengujian KL Divergence, menggunakan total 9TB data GGUF
- Pada 99.9% KLD, menunjukkan performa terbaik di Pareto Frontier
- Qwen3.5-397B-A17B
- Dalam pengujian pihak ketiga oleh Benjamin Marie
- Asli 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
- Penurunan akurasi kurang dari 1 poin, dengan penghematan memori sekitar 500GB
- Q3 direkomendasikan sebagai opsi hemat memori, Q4 sebagai opsi yang lebih stabil
Fitur lainnya
- Tersedia perintah untuk mengaktifkan/menonaktifkan reasoning (
--chat-template-kwargs)
- Dapat diintegrasikan dengan Claude Code / OpenAI Codex
- Melalui Tool Calling Guide, panggilan tool untuk LLM lokal dapat dikonfigurasi
- Tidak kompatibel dengan Ollama, hanya mendukung backend berbasis llama.cpp
2 komentar
Saya memakai 27b di hx370, dan hasilnya lumayan bagus.
Komentar Hacker News
Saya mencoba menjalankan Qwen3.5 9B di ASUS 5070ti 16G dengan lm studio, dan berjalan sangat stabil di sekitar 100 tok/s
Lebih cepat daripada kebanyakan layanan LLM online, dan kualitas output-nya juga sesuai dengan tingkat benchmark
Ini pertama kalinya saya menjalankan model yang benar-benar layak dipakai di hardware konsumen
Saya rasa ini bukan perbandingan kegunaan dengan model kelas atas seperti Sonnet atau Opus
Untuk pekerjaan coding, saya butuh minimal 100k context
Saya mematikannya karena masuk infinite loop, dan tidak terselesaikan meski sudah mengubah berbagai parameter
Kualitasnya setara Sonnet 4.0 pada musim panas 2025, dan kecepatannya juga sangat bagus di ik_llama.cpp
Orkestrasi tampaknya cukup penting
Tertulis “All uploads use Unsloth Dynamic 2.0”, tetapi pada opsi nyata ada berbagai pilihan seperti IQ4_XS, Q4_K_S, Q4_K_M, dan lain-lain
Membingungkan karena tidak ada penjelasan trade-off untuk masing-masing
Saya biasanya memakai Qwen3-4B-Instruct-2507-Q4_K_M di Mac mini M4 16GB, tetapi Qwen3.5-4B-UD-Q4_K_XL jauh lebih cerewet
Kebutuhan tiap pengguna tentu berbeda, tetapi akan sangat membantu jika ada tabel ringkasan konfigurasi dan penggunaan memori per model/hardware
Bahkan di Reddit hampir tidak ada contoh konfigurasi yang konkret
Saya sudah mengikuti topik ini terus selama 3 bulan terakhir, tetapi yang saya temukan justru lebih banyak kebingungan daripada informasi yang jelas
Saat ini saya memakai coder-model dari qwen CLI di cloud, sambil menunggu munculnya model lokal berdaya rendah
Ada perbandingan KL Divergence terhadap ruang disk untuk Q4_K_XL dan Q4_K_M
Q4_0 dan Q4_1 cepat, tetapi akurasinya turun sehingga sekarang tidak direkomendasikan
Q4_K_M dan UD-Q4_K_XL hampir identik, hanya _XL sedikit lebih besar
Namun, belum ada data terkait Qwen3.5 untuk saat ini
Mungkin karena saya menanganinya dengan kode Rust
Saat menjalankan qwen3.5-35b-a3b kuantisasi 6bit di 4090, hasilnya cukup bagus
Saat ini saya memakai qwen3.5-27b 8bit sebagai engine utama dan puas dengan hasilnya
Setiap ada model open baru, saya menguji kecepatan PP (prompt processing) dan TG (token generation) dengan llama-cpp/server
Eksperimen dilakukan di lingkungan Claude Code (context 15~30K) pada MacBook M1 Max 64GB
Qwen3.5-30B-A3B punya kecepatan TG sekitar setengah dari Qwen3-30B-A3B
Qwen3.5 memakai sliding window attention, jadi penggunaan RAM-nya rendah dan kualitas responsnya bagus, tetapi pada context 33k kecepatannya lambat
Detail konfigurasinya dirangkum di dokumen ini
Dalam benchmark pribadi, saya memakai Claude Opus untuk evaluasi dengan DeepSeek API sebagai acuan
Qwen3.5 35B A3B (q8_0, thinking) mencatat 92.5%, sedangkan Q4_K_M (thinking) sekitar 90%
Saya kira model dense 27B akan lebih tinggi, jadi hasil ini cukup mengejutkan
Namun, angka ini berasal dari evaluasi respons one-shot, jadi tidak mencerminkan situasi iterasi agen
Bisa jadi inkonsistensi logis dalam prompt mengganggu penalaran model 27B
Jika melihat thinking trace, mungkin penyebabnya bisa di-debug
Saya pernah menjalankan Qwen3.5 9B di CPU untuk OCR dan perapian teks, dan ternyata cukup berguna
Tetapi GPU offloading tidak berjalan semestinya, sehingga di 1650 Ti dengan VRAM 4GB terjadi kehabisan memori
Bisa dilakukan dengan perintah
sudo apt install nvidia-driver-570Model 35B berjalan dengan kecepatan mirip model 4B tetapi jauh lebih kuat
Hanya saja, qwen3.5 punya kecepatan setengah dari qwen3
Meski begitu, secara keseluruhan saya puas
Saya menjalankan Qwen3.5:0.8b dengan baik di Orangepi Zero 2w hanya dengan CPU
Saat ingin memakai GPU Vulkan, saya menjalankan qwen3.5:2b di Meta Quest 3 dengan zeroclaw
Berkat itu, saya menghemat ratusan dolar di lingkungan berdaya rendah
Saya merekomendasikan mencoba menjalankan model lokal dengan ponsel Android bekas
Saya penasaran apakah ada tempat yang menyediakan model 9B sebagai layanan hosting
Di lingkungan bisnis tempat menyewa GPU sulit dilakukan, OpenRouter tidak punya model kecil
Akan bagus jika ada template serverless runpod
Saya juga ingin tahu apakah model 9B bisa dijalankan di 4090 dengan latensi rendah pada 8bit atau 6bit
Saya mencoba menjalankan Qwen3.5 35B-A3B di RTX 3050 8GB, dan ternyata cukup responsif serta menangani pekerjaan coding dengan baik
Versi sebelumnya punya masalah loop saat memakai tool, tetapi sepertinya sudah diperbaiki di versi baru
Saya juga ingin tahu angka tok/s-nya
Sepertinya ini juga bisa berjalan baik sebagai server lokal di laptop RTX 3060
Saya tidak menyangka model lokal bisa sebaik itu
Saya penasaran bagaimana model 397B-A17B dibandingkan dengan Frontier
Mungkin butuh hardware yang terlalu berat untuk bisa dijalankan kebanyakan orang
Secara pribadi, model 122B sudah cukup memuaskan dari sisi privasi dan penghematan biaya
Saya penasaran apakah model ini bisa berjalan di server lama 4xV100 Tesla
Pengaturan terkait fp terasa rumit, jadi dari sudut pandang pemula cukup sulit dipahami