- Keluarga model Qwen3.5 (0.8B~122B) dapat di-fine-tune berbasis teks dan vision dengan Unsloth, framework open-source untuk fine-tuning LLM dan reinforcement learning
- Unsloth menawarkan kecepatan pelatihan 1,5x lebih cepat dibanding FlashAttention-2 dan penghematan VRAM 50%, serta memungkinkan pelatihan efisien dengan konfigurasi bf16 LoRA
- Melalui notebook Colab, model 0.8B, 2B, dan 4B bisa diuji secara gratis, dan tersedia juga notebook model 27B·35B untuk lingkungan A100
- Model MoE (35B, 122B, dll.) mendukung pelatihan 12x lebih cepat, VRAM 35% lebih sedikit, dan panjang konteks 6x lebih panjang dengan kernel terbaru
- Setelah pelatihan, model dapat diekspor ke berbagai format deployment seperti GGUF, vLLM, Ollama, LM Studio, SGLang
Ikhtisar fine-tuning Qwen3.5
- Keluarga model Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) dapat di-fine-tune dengan Unsloth
- Mendukung teks dan vision
- Qwen3.5‑35B‑A3B bf16 LoRA berjalan pada VRAM 74GB
- Unsloth menawarkan kecepatan pelatihan 1,5x lebih cepat dan penggunaan VRAM 50% lebih sedikit
- Penggunaan VRAM: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
- Model 0.8B, 2B, dan 4B dapat diuji melalui notebook Google Colab gratis
- Untuk mempertahankan kemampuan reasoning, disarankan komposisi data berisi lebih dari 75% contoh reasoning
- Full Fine-Tuning (FFT) juga dimungkinkan, tetapi penggunaan VRAM meningkat 4x
Lingkungan dan konfigurasi pelatihan
- Qwen3.5 adalah model multibahasa yang mendukung 201 bahasa
- Reinforcement Learning (RL) dan Vision RL (VLM RL) juga didukung melalui Unsloth
- Tersedia notebook Colab A100: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
- Untuk pelatihan lokal, perlu diperbarui ke versi terbaru
- Perintah:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
- transformers v5 wajib, versi lama tidak akan berfungsi
- Pelatihan awal bisa lambat karena kompilasi kernel Mamba Triton (terutama pada GPU T4)
- Pelatihan QLoRA (4-bit) tidak direkomendasikan
Fine-tuning model MoE (35B, 122B)
- Mendukung model Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
- Pelatihan 12x lebih cepat, VRAM 35% lebih sedikit, panjang konteks 6x lebih panjang
- Disarankan menggunakan bf16 LoRA atau Full Fine-Tuning
- MoE QLoRA 4-bit tidak direkomendasikan karena keterbatasan BitsandBytes
- Kernel Unsloth MoE aktif secara default, backend dapat diganti dengan
UNSLOTH_MOE_BACKEND
- Router-layer fine-tuning dinonaktifkan secara default demi stabilitas
- Qwen3.5‑122B‑A10B bf16 LoRA memerlukan VRAM 256GB
- Saat memakai multi-GPU, atur
device_map = "balanced" atau lihat panduan multiGPU
Quickstart
- Disediakan contoh SFT khusus teks (supervised fine-tuning)
- Qwen3.5 memiliki arsitektur Causal Language Model + Vision Encoder
- Perlu memasang dependensi vision (
torchvision, pillow)
- Disarankan memakai versi Transformers terbaru
- Pelatihan GRPO dapat dijalankan dengan menonaktifkan fast vLLM lalu memakai inferensi Unsloth
- Jika terjadi OOM (kehabisan memori)
per_device_train_batch_size=1, kurangi max_seq_length
- Pertahankan
gradient_checkpointing="unsloth" untuk menghemat VRAM dan memperluas konteks
- Disediakan contoh loader MoE bf16 LoRA
Fine-tuning vision
- Mendukung fine-tuning vision untuk model Qwen3.5 multimodal
- Bisa menggunakan notebook RL Qwen3-VL GRPO/GSPO (cukup ubah nama model)
- Dapat memilih pelatihan khusus vision/teks
- Fine-tuning selektif pada layer Vision, Language, Attention, dan MLP
- Nilai default adalah semuanya aktif
- Untuk pelatihan multi-image, lihat panduan vision multi-image terpisah
Penyimpanan dan deployment model
- Mendukung berbagai metode deployment seperti llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang
Menyimpan ke GGUF
- Unsloth mendukung penyimpanan langsung ke format GGUF dan unggah ke Hugging Face
- Jika performa menurun saat inferensi, penyebab utamanya biasanya chat template atau token EOS yang salah
Menyimpan ke vLLM
- vLLM 0.16.0 belum mendukung Qwen3.5
- Diperlukan 0.170 atau lebih baru atau versi Nightly
- Mendukung penyimpanan 16-bit dan hanya menyimpan adapter LoRA
- Untuk detail lebih lanjut, lihat panduan inferensi Unsloth
2 komentar
Waktu terakhir saya mencoba fine-tuning lewat agen, terlihat masalah overfitting cukup sering muncul tergantung datanya, jadi saya penasaran apakah di notebook kali ini hal itu bisa dilakukan dengan kombinasi LoRA/QLoRA.
Pendapat Hacker News
Saya pernah mencoba melakukan fine-tuning model Qwen di perangkat keras NVIDIA Jetson, dan performanya sangat mengejutkan
Saya telah menerapkan beberapa varian model 7B untuk AI edge, dan ini sangat berguna terutama di lingkungan seperti inspeksi industri atau analisis ritel, di mana latensi lebih penting daripada akurasi
Berkat fine-tuning LoRA, model menjadi cukup kecil untuk muat di memori terpadu, dan kecepatan inferensi real-time juga cukup cepat
Hal yang paling mengejutkan adalah efisiensi daya — Jetson Orin bisa menjalankan inferensi berkelanjutan di bawah 15W, dan ini jauh lebih hemat energi dibanding bolak-balik ke cloud
Belakangan ini saya sering melihat komentar dengan format anekdot palsu seperti ini di Twitter atau Reddit. Terlihat seperti ditulis manusia, tapi rasanya semua ceritanya dibuat-buat
Apakah Nano (40 TOPS), NX (100), atau AGX (275), dan apakah Anda juga pernah menguji model yang lebih besar di Thor (2070)
Saya penasaran dengan contoh nyata orang-orang yang benar-benar melakukan fine-tuning model kecil/menengah lalu memakainya
Posting terkait
Misalnya,
Saya membandingkan akurasi dan biaya model seperti Llama-70B, Gemma-4B, dan Ministral-14B,
dan model 4B pun menunjukkan performa yang lumayan bagus.
Tapi rasanya intuisi tentang hubungan antara jumlah data dan peningkatan performa mulai hilang
Saya sedang mempertimbangkan untuk mencoba fine-tuning sendiri
Model dasarnya sebenarnya sudah bekerja dengan baik, tapi karena tulisan tangan saya jelek, kadang masih terjadi kesalahan pengenalan
Belakangan ini rasanya kebutuhan akan fine-tuning LLM makin berkurang
Model-model terbaru bisa menangani tugas kompleks hanya dengan few-shot learning
Model seperti Qwen3.5 yang punya jendela konteks besar tampaknya sudah cukup digantikan oleh prompt engineering yang kuat
Untuk model gambar atau LLM generasi lama ini mungkin masih masuk akal, tapi untuk LLM teks rasanya makin tidak efisien
Perluasan konteks pada model besar terlalu mahal
Fine-tuning vision+text juga dimungkinkan seperti pada panduan Unsloth
Ke depan, kemungkinan routing model akan menjadi hal umum, dengan model LoRA kecil dipakai secara lokal dan tugas kompleks dialihkan ke cloud
Faktanya DoorDash, Vercel, NASA, Cursor, dan lainnya juga melakukan fine-tuning sendiri
Saya sudah mencoba dengan Claude, Qwen, Llama, Gemma, dan lainnya, tapi transfer gaya tidak berhasil dengan baik
Bahkan setelah memakai ratusan komentar saya sebagai data pelatihan, model Instruct sudah terlalu banyak dituning sehingga tambahan pelatihan hampir tidak mungkin dilakukan
Qwen menyaring data seperti ini saat pelatihan, jadi hanya bisa dipulihkan lewat fine-tuning
Contoh pekerjaan terkait: model LoRA Qwen3 milik chenrm
Kombinasi perilaku yang deterministik dan dapat diaudit, pengurangan halusinasi, serta LoRA/QLoRA untuk penghematan biaya sangat berguna
Jika dipakai bersama RAG dan FAISS vector DB, ledakan konteks bisa dicegah
Dalam jangka panjang, mengelola adapter kecil jauh lebih efisien daripada terus menyesuaikan prompt
Disayangkan beberapa lead dari tim Qwen diganti
Saya khawatir semangat open source akan melemah jika manajemen baru makin berorientasi bisnis
Kabar rapat darurat CEO/CTO Alibaba
Semoga semuanya terselesaikan dengan baik
Saya penasaran apakah pendekatan RAG yang berfokus pada dokumen saja sudah cukup, atau fine-tuning benar-benar memberi hasil yang lebih baik
Contoh: FlashCheck
Materi kali ini tampaknya hanya membahas model MoE besar
Kebanyakan pengguna kemungkinan justru menargetkan model kecil (misalnya 9B),
dan model ini memakai arsitektur Mamba hybrid, jadi sepertinya perlu pertimbangan tersendiri