Panduan Menjalankan Qwen3.5 Secara Lokal

(unsloth.ai)

33 poin oleh GN⁺ 2026-03-09 | 2 komentar | Bagikan ke WhatsApp

Keluarga model Qwen3.5 dari Alibaba menawarkan berbagai ukuran dari 0.8B hingga 397B, serta mendukung penalaran hibrida multimodal dan konteks 256K
Unsloth menyediakan semua model Qwen3.5 dalam kuantisasi Dynamic 2.0 GGUF, dan dapat dijalankan secara lokal melalui llama.cpp atau LM Studio
Dapat beralih antara mode thinking dan mode non-thinking, dengan model kecil (0.8B~9B) secara default disetel ke mode non-thinking
Untuk tiap model, dijelaskan kebutuhan RAM/VRAM dan nilai pengaturan yang direkomendasikan (temperature, top_p, dll.), dan model 27B·35B dapat dijalankan bahkan di lingkungan Mac 22GB
GGUF Unsloth meningkatkan performa dengan algoritme kuantisasi yang ditingkatkan dan data imatrix, tetapi tidak kompatibel dengan Ollama

Ringkasan Qwen3.5

Qwen3.5 adalah seri LLM baru yang dirilis Alibaba, mencakup 0.8B·2B·4B·9B (kecil) hingga 27B·35B·122B·397B (besar)
- Mendukung penalaran hibrida multimodal, serta memproses 201 bahasa dan panjang konteks 256K
- Menunjukkan performa tinggi dalam agent coding, vision, percakapan, dan pekerjaan konteks panjang
Model 35B dan 27B dapat dijalankan bahkan pada Mac dengan 22GB RAM
Semua file GGUF menggunakan algoritme kuantisasi yang disempurnakan dan data imatrix baru
- Peningkatan performa pada chat, coding, konteks panjang, dan tool-calling
- Lapisan MXFP4 dihapus pada sebagian GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)

Kebutuhan perangkat keras

Tabel menunjukkan kebutuhan memori minimum untuk tiap ukuran model
- Contoh: model 0.8B~2B memerlukan 3GB, 9B memerlukan 5.5GB (basis 3-bit), dan 35B-A3B memerlukan 17GB
- 397B-A17B memerlukan 180GB pada basis 3-bit, dan 214GB pada basis 4-bit
Total memori (RAM+VRAM) harus lebih besar daripada ukuran file model untuk memperoleh performa optimal
- Jika kurang, model tetap dapat dijalankan dengan offloading ke SSD/HDD, tetapi kecepatannya akan menurun
27B dipilih bila mengutamakan akurasi, sedangkan 35B-A3B dipilih bila mengutamakan kecepatan

Nilai pengaturan yang direkomendasikan

Jendela konteks maksimum: 262,144 (dapat diperluas hingga 1M dengan YaRN)
presence_penalty: 0.0~2.0 (untuk mengurangi pengulangan, tetapi nilai lebih tinggi bisa sedikit menurunkan performa)
Panjang output: direkomendasikan 32,768 token
Nilai pengaturan berbeda antara mode Thinking dan mode Non-thinking
- Mode Thinking: untuk tugas umum temperature=1.0, untuk coding 0.6
- Mode Non-thinking: untuk tugas umum temperature=0.7, untuk tugas penalaran 1.0
Model kecil (0.8B~9B) secara default menonaktifkan reasoning
- Untuk mengaktifkannya, gunakan --chat-template-kwargs '{"enable_thinking":true}'

Tutorial menjalankan dan inferensi

Semua model tersedia dalam versi Dynamic 4-bit MXFP4_MOE GGUF
Prosedur inferensi lokal menggunakan llama.cpp
- Instal versi terbaru dari GitHub, lalu pilih GPU/CPU dengan opsi -DGGML_CUDA
- Unduh model dari Hugging Face (hf download unsloth/Qwen3.5-XXB-GGUF)
- Jalankan dengan perintah llama-cli atau llama-server
Juga dapat dijalankan di LM Studio
- Setelah mencari model, unduh GGUF lalu aktifkan toggle Thinking dengan file YAML
- Setelah restart, fitur toggle dapat digunakan

Ringkasan eksekusi per model

Qwen3.5-35B-A3B: inferensi cepat dengan Dynamic 4-bit pada RAM/Mac 24GB
Qwen3.5-27B: dapat dijalankan pada RAM/Mac 18GB
Qwen3.5-122B-A10B: berjalan di lingkungan RAM/Mac 70GB
Qwen3.5-397B-A17B:
- 3-bit: memerlukan 192GB RAM, 4-bit: memerlukan 256GB RAM
- Dengan kombinasi GPU 24GB + RAM 256GB, dapat menghasilkan lebih dari 25 token per detik
- Kelas performanya setara dengan Gemini 3 Pro, Claude Opus 4.5, dan GPT-5.2

Server inferensi dan integrasi API

Dapat dideploy dalam bentuk OpenAI-compatible API melalui llama-server
- Permintaan ke server lokal dapat dilakukan dengan library Python openai
- Contoh: menggunakan endpoint "http://127.0.0.1:8001/v1";
Mendukung fitur Tool Calling
- Dapat memanggil fungsi seperti eksekusi kode Python, perintah terminal, operasi matematika, dll.
- Menyediakan contoh kode unsloth_inference()

Hasil benchmark

Benchmark Unsloth GGUF
- Dynamic quant Qwen3.5-35B menunjukkan performa SOTA pada sebagian besar rentang bit
- Lebih dari 150 pengujian KL Divergence, menggunakan total 9TB data GGUF
- Pada 99.9% KLD, menunjukkan performa terbaik di Pareto Frontier
Qwen3.5-397B-A17B
- Dalam pengujian pihak ketiga oleh Benjamin Marie
  - Asli 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
  - Penurunan akurasi kurang dari 1 poin, dengan penghematan memori sekitar 500GB
- Q3 direkomendasikan sebagai opsi hemat memori, Q4 sebagai opsi yang lebih stabil

Fitur lainnya

Tersedia perintah untuk mengaktifkan/menonaktifkan reasoning (--chat-template-kwargs)
Dapat diintegrasikan dengan Claude Code / OpenAI Codex
Melalui Tool Calling Guide, panggilan tool untuk LLM lokal dapat dikonfigurasi
Tidak kompatibel dengan Ollama, hanya mendukung backend berbasis llama.cpp

2 komentar

tensun 2026-03-09

Saya memakai 27b di hx370, dan hasilnya lumayan bagus.

GN⁺ 2026-03-09

Komentar Hacker News

Saya mencoba menjalankan Qwen3.5 9B di ASUS 5070ti 16G dengan lm studio, dan berjalan sangat stabil di sekitar 100 tok/s
Lebih cepat daripada kebanyakan layanan LLM online, dan kualitas output-nya juga sesuai dengan tingkat benchmark
Ini pertama kalinya saya menjalankan model yang benar-benar layak dipakai di hardware konsumen
- Saya penasaran, “lebih baik daripada layanan online” ini maksudnya dari sisi kecepatan, atau perbandingan kualitas model itu sendiri?
  Saya rasa ini bukan perbandingan kegunaan dengan model kelas atas seperti Sonnet atau Opus
- Saya penasaran berapa panjang context dan performanya pada konfigurasi ini
  Untuk pekerjaan coding, saya butuh minimal 100k context
- Apakah masalah Thinking mode sudah teratasi?
  Saya mematikannya karena masuk infinite loop, dan tidak terselesaikan meski sudah mengubah berbagai parameter
- Jika Qwen3.5 27B dikuantisasi ke 4bit, modelnya muat di VRAM 16G
  Kualitasnya setara Sonnet 4.0 pada musim panas 2025, dan kecepatannya juga sangat bagus di ik_llama.cpp
- Apakah Anda memakainya terintegrasi dengan Claude Code?
  Orkestrasi tampaknya cukup penting
Tertulis “All uploads use Unsloth Dynamic 2.0”, tetapi pada opsi nyata ada berbagai pilihan seperti IQ4_XS, Q4_K_S, Q4_K_M, dan lain-lain
Membingungkan karena tidak ada penjelasan trade-off untuk masing-masing
Saya biasanya memakai Qwen3-4B-Instruct-2507-Q4_K_M di Mac mini M4 16GB, tetapi Qwen3.5-4B-UD-Q4_K_XL jauh lebih cerewet
Kebutuhan tiap pengguna tentu berbeda, tetapi akan sangat membantu jika ada tabel ringkasan konfigurasi dan penggunaan memori per model/hardware
Bahkan di Reddit hampir tidak ada contoh konfigurasi yang konkret
Saya sudah mengikuti topik ini terus selama 3 bulan terakhir, tetapi yang saya temukan justru lebih banyak kebingungan daripada informasi yang jelas
Saat ini saya memakai coder-model dari qwen CLI di cloud, sambil menunggu munculnya model lokal berdaya rendah
- Benchmark Unsloth Qwen3.5 GGUF mungkin bisa membantu
  Ada perbandingan KL Divergence terhadap ruang disk untuk Q4_K_XL dan Q4_K_M
  Q4_0 dan Q4_1 cepat, tetapi akurasinya turun sehingga sekarang tidak direkomendasikan
  Q4_K_M dan UD-Q4_K_XL hampir identik, hanya _XL sedikit lebih besar
- LocalScore.ai adalah situs buatan Mozilla Builders yang bertujuan memetakan model/hardware seperti ini
  Namun, belum ada data terkait Qwen3.5 untuk saat ini
- Saya pernah menjalankan qwen3.5:4b dengan ollama di Mac M1; tool calling lumayan baik, tetapi lambat dan mudah bingung pada tugas yang kompleks
  Mungkin karena saya menanganinya dengan kode Rust
  Saat menjalankan qwen3.5-35b-a3b kuantisasi 6bit di 4090, hasilnya cukup bagus
  Saat ini saya memakai qwen3.5-27b 8bit sebagai engine utama dan puas dengan hasilnya
- Panduan memilih kuantisasi model juga layak dijadikan referensi
Setiap ada model open baru, saya menguji kecepatan PP (prompt processing) dan TG (token generation) dengan llama-cpp/server
Eksperimen dilakukan di lingkungan Claude Code (context 15~30K) pada MacBook M1 Max 64GB
Qwen3.5-30B-A3B punya kecepatan TG sekitar setengah dari Qwen3-30B-A3B
Qwen3.5 memakai sliding window attention, jadi penggunaan RAM-nya rendah dan kualitas responsnya bagus, tetapi pada context 33k kecepatannya lambat
Detail konfigurasinya dirangkum di dokumen ini
Dalam benchmark pribadi, saya memakai Claude Opus untuk evaluasi dengan DeepSeek API sebagai acuan
Qwen3.5 35B A3B (q8_0, thinking) mencatat 92.5%, sedangkan Q4_K_M (thinking) sekitar 90%
Saya kira model dense 27B akan lebih tinggi, jadi hasil ini cukup mengejutkan
Namun, angka ini berasal dari evaluasi respons one-shot, jadi tidak mencerminkan situasi iterasi agen
- Menarik bahwa 35B A3B mencetak nilai lebih tinggi daripada 27B
  Bisa jadi inkonsistensi logis dalam prompt mengganggu penalaran model 27B
  Jika melihat thinking trace, mungkin penyebabnya bisa di-debug
- Saya juga penasaran apakah ada model thinking yang hampir tidak menambah latency
Saya pernah menjalankan Qwen3.5 9B di CPU untuk OCR dan perapian teks, dan ternyata cukup berguna
Tetapi GPU offloading tidak berjalan semestinya, sehingga di 1650 Ti dengan VRAM 4GB terjadi kehabisan memori
- Saya mengalami masalah yang sama, dan menyelesaikannya dengan update driver
  Bisa dilakukan dengan perintah sudo apt install nvidia-driver-570
- Di kombinasi 1660ti + cachyos + llama.cpp-cuda, semuanya berjalan baik
  Model 35B berjalan dengan kecepatan mirip model 4B tetapi jauh lebih kuat
  Hanya saja, qwen3.5 punya kecepatan setengah dari qwen3
  Meski begitu, secara keseluruhan saya puas
- Saat build dari source, backend Vulkan adalah cara paling sederhana untuk GPU offloading
Saya menjalankan Qwen3.5:0.8b dengan baik di Orangepi Zero 2w hanya dengan CPU
Saat ingin memakai GPU Vulkan, saya menjalankan qwen3.5:2b di Meta Quest 3 dengan zeroclaw
Berkat itu, saya menghemat ratusan dolar di lingkungan berdaya rendah
Saya merekomendasikan mencoba menjalankan model lokal dengan ponsel Android bekas
Saya penasaran apakah ada tempat yang menyediakan model 9B sebagai layanan hosting
Di lingkungan bisnis tempat menyewa GPU sulit dilakukan, OpenRouter tidak punya model kecil
Akan bagus jika ada template serverless runpod
Saya juga ingin tahu apakah model 9B bisa dijalankan di 4090 dengan latensi rendah pada 8bit atau 6bit
Saya mencoba menjalankan Qwen3.5 35B-A3B di RTX 3050 8GB, dan ternyata cukup responsif serta menangani pekerjaan coding dengan baik
Versi sebelumnya punya masalah loop saat memakai tool, tetapi sepertinya sudah diperbaiki di versi baru
- Saya penasaran apakah model ini melakukan offloading ke RAM sistem
  Saya juga ingin tahu angka tok/s-nya
  Sepertinya ini juga bisa berjalan baik sebagai server lokal di laptop RTX 3060
- Saya penasaran contoh pekerjaan coding seperti apa yang Anda jalankan
  Saya tidak menyangka model lokal bisa sebaik itu
- Bisakah Anda memberi tahu nama model yang dipakai secara spesifik?
Saya penasaran bagaimana model 397B-A17B dibandingkan dengan Frontier
Mungkin butuh hardware yang terlalu berat untuk bisa dijalankan kebanyakan orang
- Saya pernah memakainya lewat OpenRouter; sangat bagus, tetapi untuk sebagian tugas Frontier masih lebih unggul
  Secara pribadi, model 122B sudah cukup memuaskan dari sisi privasi dan penghematan biaya
Saya penasaran apakah model ini bisa berjalan di server lama 4xV100 Tesla
Pengaturan terkait fp terasa rumit, jadi dari sudut pandang pemula cukup sulit dipahami

Panduan Menjalankan Qwen3.5 Secara Lokal

Ringkasan Qwen3.5

Kebutuhan perangkat keras

Nilai pengaturan yang direkomendasikan

Tutorial menjalankan dan inferensi

Ringkasan eksekusi per model

Server inferensi dan integrasi API

Hasil benchmark

Fitur lainnya

Bacaan terkait

2 komentar

Komentar Hacker News