Panduan fine-tuning Qwen3.5

(unsloth.ai)

16 poin oleh GN⁺ 2026-03-06 | 2 komentar | Bagikan ke WhatsApp

Keluarga model Qwen3.5 (0.8B~122B) dapat di-fine-tune berbasis teks dan vision dengan Unsloth, framework open-source untuk fine-tuning LLM dan reinforcement learning
Unsloth menawarkan kecepatan pelatihan 1,5x lebih cepat dibanding FlashAttention-2 dan penghematan VRAM 50%, serta memungkinkan pelatihan efisien dengan konfigurasi bf16 LoRA
Melalui notebook Colab, model 0.8B, 2B, dan 4B bisa diuji secara gratis, dan tersedia juga notebook model 27B·35B untuk lingkungan A100
Model MoE (35B, 122B, dll.) mendukung pelatihan 12x lebih cepat, VRAM 35% lebih sedikit, dan panjang konteks 6x lebih panjang dengan kernel terbaru
Setelah pelatihan, model dapat diekspor ke berbagai format deployment seperti GGUF, vLLM, Ollama, LM Studio, SGLang

Ikhtisar fine-tuning Qwen3.5

Keluarga model Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) dapat di-fine-tune dengan Unsloth
- Mendukung teks dan vision
- Qwen3.5‑35B‑A3B bf16 LoRA berjalan pada VRAM 74GB
Unsloth menawarkan kecepatan pelatihan 1,5x lebih cepat dan penggunaan VRAM 50% lebih sedikit
- Penggunaan VRAM: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
Model 0.8B, 2B, dan 4B dapat diuji melalui notebook Google Colab gratis
Untuk mempertahankan kemampuan reasoning, disarankan komposisi data berisi lebih dari 75% contoh reasoning
Full Fine-Tuning (FFT) juga dimungkinkan, tetapi penggunaan VRAM meningkat 4x

Lingkungan dan konfigurasi pelatihan

Qwen3.5 adalah model multibahasa yang mendukung 201 bahasa
Reinforcement Learning (RL) dan Vision RL (VLM RL) juga didukung melalui Unsloth
Tersedia notebook Colab A100: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
Untuk pelatihan lokal, perlu diperbarui ke versi terbaru
- Perintah: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
transformers v5 wajib, versi lama tidak akan berfungsi
Pelatihan awal bisa lambat karena kompilasi kernel Mamba Triton (terutama pada GPU T4)
Pelatihan QLoRA (4-bit) tidak direkomendasikan

Fine-tuning model MoE (35B, 122B)

Mendukung model Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
- Pelatihan 12x lebih cepat, VRAM 35% lebih sedikit, panjang konteks 6x lebih panjang
Disarankan menggunakan bf16 LoRA atau Full Fine-Tuning
MoE QLoRA 4-bit tidak direkomendasikan karena keterbatasan BitsandBytes
Kernel Unsloth MoE aktif secara default, backend dapat diganti dengan UNSLOTH_MOE_BACKEND
Router-layer fine-tuning dinonaktifkan secara default demi stabilitas
Qwen3.5‑122B‑A10B bf16 LoRA memerlukan VRAM 256GB
- Saat memakai multi-GPU, atur device_map = "balanced" atau lihat panduan multiGPU

Quickstart

Disediakan contoh SFT khusus teks (supervised fine-tuning)
Qwen3.5 memiliki arsitektur Causal Language Model + Vision Encoder
- Perlu memasang dependensi vision (torchvision, pillow)
Disarankan memakai versi Transformers terbaru
Pelatihan GRPO dapat dijalankan dengan menonaktifkan fast vLLM lalu memakai inferensi Unsloth
Jika terjadi OOM (kehabisan memori)
- per_device_train_batch_size=1, kurangi max_seq_length
- Pertahankan gradient_checkpointing="unsloth" untuk menghemat VRAM dan memperluas konteks
Disediakan contoh loader MoE bf16 LoRA

Fine-tuning vision

Mendukung fine-tuning vision untuk model Qwen3.5 multimodal
- Bisa menggunakan notebook RL Qwen3-VL GRPO/GSPO (cukup ubah nama model)
Dapat memilih pelatihan khusus vision/teks
- Fine-tuning selektif pada layer Vision, Language, Attention, dan MLP
- Nilai default adalah semuanya aktif
Untuk pelatihan multi-image, lihat panduan vision multi-image terpisah

Penyimpanan dan deployment model

Mendukung berbagai metode deployment seperti llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang

Menyimpan ke GGUF

Unsloth mendukung penyimpanan langsung ke format GGUF dan unggah ke Hugging Face
Jika performa menurun saat inferensi, penyebab utamanya biasanya chat template atau token EOS yang salah

Menyimpan ke vLLM

vLLM 0.16.0 belum mendukung Qwen3.5
- Diperlukan 0.170 atau lebih baru atau versi Nightly
Mendukung penyimpanan 16-bit dan hanya menyimpan adapter LoRA
Untuk detail lebih lanjut, lihat panduan inferensi Unsloth

2 komentar

hmmhmmhm 2026-03-06

Waktu terakhir saya mencoba fine-tuning lewat agen, terlihat masalah overfitting cukup sering muncul tergantung datanya, jadi saya penasaran apakah di notebook kali ini hal itu bisa dilakukan dengan kombinasi LoRA/QLoRA.

GN⁺ 2026-03-06

Pendapat Hacker News

Saya pernah mencoba melakukan fine-tuning model Qwen di perangkat keras NVIDIA Jetson, dan performanya sangat mengejutkan
Saya telah menerapkan beberapa varian model 7B untuk AI edge, dan ini sangat berguna terutama di lingkungan seperti inspeksi industri atau analisis ritel, di mana latensi lebih penting daripada akurasi
Berkat fine-tuning LoRA, model menjadi cukup kecil untuk muat di memori terpadu, dan kecepatan inferensi real-time juga cukup cepat
Hal yang paling mengejutkan adalah efisiensi daya — Jetson Orin bisa menjalankan inferensi berkelanjutan di bawah 15W, dan ini jauh lebih hemat energi dibanding bolak-balik ke cloud
- Komentar ini terlihat seperti dibuat oleh AI
  Belakangan ini saya sering melihat komentar dengan format anekdot palsu seperti ini di Twitter atau Reddit. Terlihat seperti ditulis manusia, tapi rasanya semua ceritanya dibuat-buat
- Menarik. Saya penasaran apakah ada contoh tugas industri yang masih oke walau akurasinya sedikit lebih rendah
- Saya ingin tahu contoh konkret pekerjaan seperti apa yang benar-benar menggunakan model semacam ini
- Ini pertanyaan sederhana, tapi saya jadi berpikir apakah untuk penggunaan seperti ini jaringan saraf (neural network) tradisional sebenarnya sudah cukup
- Anda bilang model 7B dijalankan di 15W, jadi saya penasaran itu model seri Orin yang mana
  Apakah Nano (40 TOPS), NX (100), atau AGX (275), dan apakah Anda juga pernah menguji model yang lebih besar di Thor (2070)
Saya penasaran dengan contoh nyata orang-orang yang benar-benar melakukan fine-tuning model kecil/menengah lalu memakainya
- Ada tulisan di X yang merangkum topik ini
  Posting terkait
  Misalnya,
  1. Cursor meningkatkan approval rate 28% dengan online RL (tautan)
  2. Vercel menerapkan RFT pada model AutoFix (tautan)
  3. Perplexity Sonar adalah model hasil fine-tuning untuk Deep Research Reasoning (tautan)
  4. DoorDash membangun model ekstraksi atribut dengan LoRA/QLoRA (tautan)
  5. Model deteksi banjir milik NASA (tautan)
  6. Online RL untuk robotika
  7. Kumpulan contoh OpenAI RFT (tautan)
  8. Peningkatan performa model Mercor berbasis data pakar (tautan)
- Saya pernah membandingkan beberapa model untuk tugas klasifikasi dokumen sederhana
  Saya membandingkan akurasi dan biaya model seperti Llama-70B, Gemma-4B, dan Ministral-14B,
  dan model 4B pun menunjukkan performa yang lumayan bagus.
  Tapi rasanya intuisi tentang hubungan antara jumlah data dan peningkatan performa mulai hilang
  Saya sedang mempertimbangkan untuk mencoba fine-tuning sendiri
- Saya sedang mempertimbangkan fine-tuning untuk meningkatkan akurasi pengenalan tulisan tangan saya
  Model dasarnya sebenarnya sudah bekerja dengan baik, tapi karena tulisan tangan saya jelek, kadang masih terjadi kesalahan pengenalan
- Sebagai contoh yang bagus, saya merekomendasikan panduan pelatihan LLM dari blog Atredis
Belakangan ini rasanya kebutuhan akan fine-tuning LLM makin berkurang
Model-model terbaru bisa menangani tugas kompleks hanya dengan few-shot learning
Model seperti Qwen3.5 yang punya jendela konteks besar tampaknya sudah cukup digantikan oleh prompt engineering yang kuat
Untuk model gambar atau LLM generasi lama ini mungkin masih masuk akal, tapi untuk LLM teks rasanya makin tidak efisien
- Jika model kecil di-fine-tuning untuk menghasilkan output terstruktur tertentu, kita bisa menjalankan inferensi skala besar dengan biaya murah
  Perluasan konteks pada model besar terlalu mahal
- LLM memang terus berkembang, tapi di area seperti continuous learning untuk robot atau fine-tuning LoRA multimodal masih banyak potensinya
  Fine-tuning vision+text juga dimungkinkan seperti pada panduan Unsloth
  Ke depan, kemungkinan routing model akan menjadi hal umum, dengan model LoRA kecil dipakai secara lokal dan tugas kompleks dialihkan ke cloud
  Faktanya DoorDash, Vercel, NASA, Cursor, dan lainnya juga melakukan fine-tuning sendiri
- Saya pernah mencoba melakukan fine-tuning model agar sesuai dengan gaya menulis saya
  Saya sudah mencoba dengan Claude, Qwen, Llama, Gemma, dan lainnya, tapi transfer gaya tidak berhasil dengan baik
  Bahkan setelah memakai ratusan komentar saya sebagai data pelatihan, model Instruct sudah terlalu banyak dituning sehingga tambahan pelatihan hampir tidak mungkin dilakukan
- Singkatnya, alasannya adalah data pornografi
  Qwen menyaring data seperti ini saat pelatihan, jadi hanya bisa dipulihkan lewat fine-tuning
  Contoh pekerjaan terkait: model LoRA Qwen3 milik chenrm
- Dalam layanan nyata, fine-tuning masih tetap penting
  Kombinasi perilaku yang deterministik dan dapat diaudit, pengurangan halusinasi, serta LoRA/QLoRA untuk penghematan biaya sangat berguna
  Jika dipakai bersama RAG dan FAISS vector DB, ledakan konteks bisa dicegah
  Dalam jangka panjang, mengelola adapter kecil jauh lebih efisien daripada terus menyesuaikan prompt
Disayangkan beberapa lead dari tim Qwen diganti
Saya khawatir semangat open source akan melemah jika manajemen baru makin berorientasi bisnis
- Saya melihat kabar terkait di X
  Kabar rapat darurat CEO/CTO Alibaba
  Semoga semuanya terselesaikan dengan baik
Saya penasaran apakah pendekatan RAG yang berfokus pada dokumen saja sudah cukup, atau fine-tuning benar-benar memberi hasil yang lebih baik
- Model yang terspesialisasi jelas bisa melampaui SOTA
  Contoh: FlashCheck
- Dulu model tab-next-action milik Cursor sempat sangat ramai dibicarakan, dan ternyata itu sebenarnya versi hasil fine-tuning dari model 70B
Materi kali ini tampaknya hanya membahas model MoE besar
Kebanyakan pengguna kemungkinan justru menargetkan model kecil (misalnya 9B),
dan model ini memakai arsitektur Mamba hybrid, jadi sepertinya perlu pertimbangan tersendiri