33 poin oleh GN⁺ 2026-03-09 | 2 komentar | Bagikan ke WhatsApp
  • Keluarga model Qwen3.5 dari Alibaba menawarkan berbagai ukuran dari 0.8B hingga 397B, serta mendukung penalaran hibrida multimodal dan konteks 256K
  • Unsloth menyediakan semua model Qwen3.5 dalam kuantisasi Dynamic 2.0 GGUF, dan dapat dijalankan secara lokal melalui llama.cpp atau LM Studio
  • Dapat beralih antara mode thinking dan mode non-thinking, dengan model kecil (0.8B~9B) secara default disetel ke mode non-thinking
  • Untuk tiap model, dijelaskan kebutuhan RAM/VRAM dan nilai pengaturan yang direkomendasikan (temperature, top_p, dll.), dan model 27B·35B dapat dijalankan bahkan di lingkungan Mac 22GB
  • GGUF Unsloth meningkatkan performa dengan algoritme kuantisasi yang ditingkatkan dan data imatrix, tetapi tidak kompatibel dengan Ollama

Ringkasan Qwen3.5

  • Qwen3.5 adalah seri LLM baru yang dirilis Alibaba, mencakup 0.8B·2B·4B·9B (kecil) hingga 27B·35B·122B·397B (besar)
    • Mendukung penalaran hibrida multimodal, serta memproses 201 bahasa dan panjang konteks 256K
    • Menunjukkan performa tinggi dalam agent coding, vision, percakapan, dan pekerjaan konteks panjang
  • Model 35B dan 27B dapat dijalankan bahkan pada Mac dengan 22GB RAM
  • Semua file GGUF menggunakan algoritme kuantisasi yang disempurnakan dan data imatrix baru
    • Peningkatan performa pada chat, coding, konteks panjang, dan tool-calling
    • Lapisan MXFP4 dihapus pada sebagian GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)

Kebutuhan perangkat keras

  • Tabel menunjukkan kebutuhan memori minimum untuk tiap ukuran model
    • Contoh: model 0.8B~2B memerlukan 3GB, 9B memerlukan 5.5GB (basis 3-bit), dan 35B-A3B memerlukan 17GB
    • 397B-A17B memerlukan 180GB pada basis 3-bit, dan 214GB pada basis 4-bit
  • Total memori (RAM+VRAM) harus lebih besar daripada ukuran file model untuk memperoleh performa optimal
    • Jika kurang, model tetap dapat dijalankan dengan offloading ke SSD/HDD, tetapi kecepatannya akan menurun
  • 27B dipilih bila mengutamakan akurasi, sedangkan 35B-A3B dipilih bila mengutamakan kecepatan

Nilai pengaturan yang direkomendasikan

  • Jendela konteks maksimum: 262,144 (dapat diperluas hingga 1M dengan YaRN)
  • presence_penalty: 0.0~2.0 (untuk mengurangi pengulangan, tetapi nilai lebih tinggi bisa sedikit menurunkan performa)
  • Panjang output: direkomendasikan 32,768 token
  • Nilai pengaturan berbeda antara mode Thinking dan mode Non-thinking
    • Mode Thinking: untuk tugas umum temperature=1.0, untuk coding 0.6
    • Mode Non-thinking: untuk tugas umum temperature=0.7, untuk tugas penalaran 1.0
  • Model kecil (0.8B~9B) secara default menonaktifkan reasoning
    • Untuk mengaktifkannya, gunakan --chat-template-kwargs '{"enable_thinking":true}'

Tutorial menjalankan dan inferensi

  • Semua model tersedia dalam versi Dynamic 4-bit MXFP4_MOE GGUF
  • Prosedur inferensi lokal menggunakan llama.cpp
    • Instal versi terbaru dari GitHub, lalu pilih GPU/CPU dengan opsi -DGGML_CUDA
    • Unduh model dari Hugging Face (hf download unsloth/Qwen3.5-XXB-GGUF)
    • Jalankan dengan perintah llama-cli atau llama-server
  • Juga dapat dijalankan di LM Studio
    • Setelah mencari model, unduh GGUF lalu aktifkan toggle Thinking dengan file YAML
    • Setelah restart, fitur toggle dapat digunakan

Ringkasan eksekusi per model

  • Qwen3.5-35B-A3B: inferensi cepat dengan Dynamic 4-bit pada RAM/Mac 24GB
  • Qwen3.5-27B: dapat dijalankan pada RAM/Mac 18GB
  • Qwen3.5-122B-A10B: berjalan di lingkungan RAM/Mac 70GB
  • Qwen3.5-397B-A17B:
    • 3-bit: memerlukan 192GB RAM, 4-bit: memerlukan 256GB RAM
    • Dengan kombinasi GPU 24GB + RAM 256GB, dapat menghasilkan lebih dari 25 token per detik
    • Kelas performanya setara dengan Gemini 3 Pro, Claude Opus 4.5, dan GPT-5.2

Server inferensi dan integrasi API

  • Dapat dideploy dalam bentuk OpenAI-compatible API melalui llama-server
    • Permintaan ke server lokal dapat dilakukan dengan library Python openai
    • Contoh: menggunakan endpoint "http://127.0.0.1:8001/v1";
  • Mendukung fitur Tool Calling
    • Dapat memanggil fungsi seperti eksekusi kode Python, perintah terminal, operasi matematika, dll.
    • Menyediakan contoh kode unsloth_inference()

Hasil benchmark

  • Benchmark Unsloth GGUF
    • Dynamic quant Qwen3.5-35B menunjukkan performa SOTA pada sebagian besar rentang bit
    • Lebih dari 150 pengujian KL Divergence, menggunakan total 9TB data GGUF
    • Pada 99.9% KLD, menunjukkan performa terbaik di Pareto Frontier
  • Qwen3.5-397B-A17B
    • Dalam pengujian pihak ketiga oleh Benjamin Marie
      • Asli 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
      • Penurunan akurasi kurang dari 1 poin, dengan penghematan memori sekitar 500GB
    • Q3 direkomendasikan sebagai opsi hemat memori, Q4 sebagai opsi yang lebih stabil

Fitur lainnya

  • Tersedia perintah untuk mengaktifkan/menonaktifkan reasoning (--chat-template-kwargs)
  • Dapat diintegrasikan dengan Claude Code / OpenAI Codex
  • Melalui Tool Calling Guide, panggilan tool untuk LLM lokal dapat dikonfigurasi
  • Tidak kompatibel dengan Ollama, hanya mendukung backend berbasis llama.cpp

2 komentar

 
tensun 2026-03-09

Saya memakai 27b di hx370, dan hasilnya lumayan bagus.

 
GN⁺ 2026-03-09
Komentar Hacker News
  • Saya mencoba menjalankan Qwen3.5 9B di ASUS 5070ti 16G dengan lm studio, dan berjalan sangat stabil di sekitar 100 tok/s
    Lebih cepat daripada kebanyakan layanan LLM online, dan kualitas output-nya juga sesuai dengan tingkat benchmark
    Ini pertama kalinya saya menjalankan model yang benar-benar layak dipakai di hardware konsumen

    • Saya penasaran, “lebih baik daripada layanan online” ini maksudnya dari sisi kecepatan, atau perbandingan kualitas model itu sendiri?
      Saya rasa ini bukan perbandingan kegunaan dengan model kelas atas seperti Sonnet atau Opus
    • Saya penasaran berapa panjang context dan performanya pada konfigurasi ini
      Untuk pekerjaan coding, saya butuh minimal 100k context
    • Apakah masalah Thinking mode sudah teratasi?
      Saya mematikannya karena masuk infinite loop, dan tidak terselesaikan meski sudah mengubah berbagai parameter
    • Jika Qwen3.5 27B dikuantisasi ke 4bit, modelnya muat di VRAM 16G
      Kualitasnya setara Sonnet 4.0 pada musim panas 2025, dan kecepatannya juga sangat bagus di ik_llama.cpp
    • Apakah Anda memakainya terintegrasi dengan Claude Code?
      Orkestrasi tampaknya cukup penting
  • Tertulis “All uploads use Unsloth Dynamic 2.0”, tetapi pada opsi nyata ada berbagai pilihan seperti IQ4_XS, Q4_K_S, Q4_K_M, dan lain-lain
    Membingungkan karena tidak ada penjelasan trade-off untuk masing-masing
    Saya biasanya memakai Qwen3-4B-Instruct-2507-Q4_K_M di Mac mini M4 16GB, tetapi Qwen3.5-4B-UD-Q4_K_XL jauh lebih cerewet
    Kebutuhan tiap pengguna tentu berbeda, tetapi akan sangat membantu jika ada tabel ringkasan konfigurasi dan penggunaan memori per model/hardware
    Bahkan di Reddit hampir tidak ada contoh konfigurasi yang konkret
    Saya sudah mengikuti topik ini terus selama 3 bulan terakhir, tetapi yang saya temukan justru lebih banyak kebingungan daripada informasi yang jelas
    Saat ini saya memakai coder-model dari qwen CLI di cloud, sambil menunggu munculnya model lokal berdaya rendah

    • Benchmark Unsloth Qwen3.5 GGUF mungkin bisa membantu
      Ada perbandingan KL Divergence terhadap ruang disk untuk Q4_K_XL dan Q4_K_M
      Q4_0 dan Q4_1 cepat, tetapi akurasinya turun sehingga sekarang tidak direkomendasikan
      Q4_K_M dan UD-Q4_K_XL hampir identik, hanya _XL sedikit lebih besar
    • LocalScore.ai adalah situs buatan Mozilla Builders yang bertujuan memetakan model/hardware seperti ini
      Namun, belum ada data terkait Qwen3.5 untuk saat ini
    • Saya pernah menjalankan qwen3.5:4b dengan ollama di Mac M1; tool calling lumayan baik, tetapi lambat dan mudah bingung pada tugas yang kompleks
      Mungkin karena saya menanganinya dengan kode Rust
      Saat menjalankan qwen3.5-35b-a3b kuantisasi 6bit di 4090, hasilnya cukup bagus
      Saat ini saya memakai qwen3.5-27b 8bit sebagai engine utama dan puas dengan hasilnya
    • Panduan memilih kuantisasi model juga layak dijadikan referensi
  • Setiap ada model open baru, saya menguji kecepatan PP (prompt processing) dan TG (token generation) dengan llama-cpp/server
    Eksperimen dilakukan di lingkungan Claude Code (context 15~30K) pada MacBook M1 Max 64GB
    Qwen3.5-30B-A3B punya kecepatan TG sekitar setengah dari Qwen3-30B-A3B
    Qwen3.5 memakai sliding window attention, jadi penggunaan RAM-nya rendah dan kualitas responsnya bagus, tetapi pada context 33k kecepatannya lambat
    Detail konfigurasinya dirangkum di dokumen ini

  • Dalam benchmark pribadi, saya memakai Claude Opus untuk evaluasi dengan DeepSeek API sebagai acuan
    Qwen3.5 35B A3B (q8_0, thinking) mencatat 92.5%, sedangkan Q4_K_M (thinking) sekitar 90%
    Saya kira model dense 27B akan lebih tinggi, jadi hasil ini cukup mengejutkan
    Namun, angka ini berasal dari evaluasi respons one-shot, jadi tidak mencerminkan situasi iterasi agen

    • Menarik bahwa 35B A3B mencetak nilai lebih tinggi daripada 27B
      Bisa jadi inkonsistensi logis dalam prompt mengganggu penalaran model 27B
      Jika melihat thinking trace, mungkin penyebabnya bisa di-debug
    • Saya juga penasaran apakah ada model thinking yang hampir tidak menambah latency
  • Saya pernah menjalankan Qwen3.5 9B di CPU untuk OCR dan perapian teks, dan ternyata cukup berguna
    Tetapi GPU offloading tidak berjalan semestinya, sehingga di 1650 Ti dengan VRAM 4GB terjadi kehabisan memori

    • Saya mengalami masalah yang sama, dan menyelesaikannya dengan update driver
      Bisa dilakukan dengan perintah sudo apt install nvidia-driver-570
    • Di kombinasi 1660ti + cachyos + llama.cpp-cuda, semuanya berjalan baik
      Model 35B berjalan dengan kecepatan mirip model 4B tetapi jauh lebih kuat
      Hanya saja, qwen3.5 punya kecepatan setengah dari qwen3
      Meski begitu, secara keseluruhan saya puas
    • Saat build dari source, backend Vulkan adalah cara paling sederhana untuk GPU offloading
  • Saya menjalankan Qwen3.5:0.8b dengan baik di Orangepi Zero 2w hanya dengan CPU
    Saat ingin memakai GPU Vulkan, saya menjalankan qwen3.5:2b di Meta Quest 3 dengan zeroclaw
    Berkat itu, saya menghemat ratusan dolar di lingkungan berdaya rendah
    Saya merekomendasikan mencoba menjalankan model lokal dengan ponsel Android bekas

  • Saya penasaran apakah ada tempat yang menyediakan model 9B sebagai layanan hosting
    Di lingkungan bisnis tempat menyewa GPU sulit dilakukan, OpenRouter tidak punya model kecil
    Akan bagus jika ada template serverless runpod
    Saya juga ingin tahu apakah model 9B bisa dijalankan di 4090 dengan latensi rendah pada 8bit atau 6bit

  • Saya mencoba menjalankan Qwen3.5 35B-A3B di RTX 3050 8GB, dan ternyata cukup responsif serta menangani pekerjaan coding dengan baik
    Versi sebelumnya punya masalah loop saat memakai tool, tetapi sepertinya sudah diperbaiki di versi baru

    • Saya penasaran apakah model ini melakukan offloading ke RAM sistem
      Saya juga ingin tahu angka tok/s-nya
      Sepertinya ini juga bisa berjalan baik sebagai server lokal di laptop RTX 3060
    • Saya penasaran contoh pekerjaan coding seperti apa yang Anda jalankan
      Saya tidak menyangka model lokal bisa sebaik itu
    • Bisakah Anda memberi tahu nama model yang dipakai secara spesifik?
  • Saya penasaran bagaimana model 397B-A17B dibandingkan dengan Frontier
    Mungkin butuh hardware yang terlalu berat untuk bisa dijalankan kebanyakan orang

    • Saya pernah memakainya lewat OpenRouter; sangat bagus, tetapi untuk sebagian tugas Frontier masih lebih unggul
      Secara pribadi, model 122B sudah cukup memuaskan dari sisi privasi dan penghematan biaya
  • Saya penasaran apakah model ini bisa berjalan di server lama 4xV100 Tesla
    Pengaturan terkait fp terasa rumit, jadi dari sudut pandang pemula cukup sulit dipahami