16 poin oleh GN⁺ 2026-03-06 | 2 komentar | Bagikan ke WhatsApp
  • Keluarga model Qwen3.5 (0.8B~122B) dapat di-fine-tune berbasis teks dan vision dengan Unsloth, framework open-source untuk fine-tuning LLM dan reinforcement learning
  • Unsloth menawarkan kecepatan pelatihan 1,5x lebih cepat dibanding FlashAttention-2 dan penghematan VRAM 50%, serta memungkinkan pelatihan efisien dengan konfigurasi bf16 LoRA
  • Melalui notebook Colab, model 0.8B, 2B, dan 4B bisa diuji secara gratis, dan tersedia juga notebook model 27B·35B untuk lingkungan A100
  • Model MoE (35B, 122B, dll.) mendukung pelatihan 12x lebih cepat, VRAM 35% lebih sedikit, dan panjang konteks 6x lebih panjang dengan kernel terbaru
  • Setelah pelatihan, model dapat diekspor ke berbagai format deployment seperti GGUF, vLLM, Ollama, LM Studio, SGLang

Ikhtisar fine-tuning Qwen3.5

  • Keluarga model Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) dapat di-fine-tune dengan Unsloth
    • Mendukung teks dan vision
    • Qwen3.5‑35B‑A3B bf16 LoRA berjalan pada VRAM 74GB
  • Unsloth menawarkan kecepatan pelatihan 1,5x lebih cepat dan penggunaan VRAM 50% lebih sedikit
    • Penggunaan VRAM: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
  • Model 0.8B, 2B, dan 4B dapat diuji melalui notebook Google Colab gratis
  • Untuk mempertahankan kemampuan reasoning, disarankan komposisi data berisi lebih dari 75% contoh reasoning
  • Full Fine-Tuning (FFT) juga dimungkinkan, tetapi penggunaan VRAM meningkat 4x

Lingkungan dan konfigurasi pelatihan

  • Qwen3.5 adalah model multibahasa yang mendukung 201 bahasa
  • Reinforcement Learning (RL) dan Vision RL (VLM RL) juga didukung melalui Unsloth
  • Tersedia notebook Colab A100: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
  • Untuk pelatihan lokal, perlu diperbarui ke versi terbaru
    • Perintah: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
  • transformers v5 wajib, versi lama tidak akan berfungsi
  • Pelatihan awal bisa lambat karena kompilasi kernel Mamba Triton (terutama pada GPU T4)
  • Pelatihan QLoRA (4-bit) tidak direkomendasikan

Fine-tuning model MoE (35B, 122B)

  • Mendukung model Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
    • Pelatihan 12x lebih cepat, VRAM 35% lebih sedikit, panjang konteks 6x lebih panjang
  • Disarankan menggunakan bf16 LoRA atau Full Fine-Tuning
  • MoE QLoRA 4-bit tidak direkomendasikan karena keterbatasan BitsandBytes
  • Kernel Unsloth MoE aktif secara default, backend dapat diganti dengan UNSLOTH_MOE_BACKEND
  • Router-layer fine-tuning dinonaktifkan secara default demi stabilitas
  • Qwen3.5‑122B‑A10B bf16 LoRA memerlukan VRAM 256GB
    • Saat memakai multi-GPU, atur device_map = "balanced" atau lihat panduan multiGPU

Quickstart

  • Disediakan contoh SFT khusus teks (supervised fine-tuning)
  • Qwen3.5 memiliki arsitektur Causal Language Model + Vision Encoder
    • Perlu memasang dependensi vision (torchvision, pillow)
  • Disarankan memakai versi Transformers terbaru
  • Pelatihan GRPO dapat dijalankan dengan menonaktifkan fast vLLM lalu memakai inferensi Unsloth
  • Jika terjadi OOM (kehabisan memori)
    • per_device_train_batch_size=1, kurangi max_seq_length
    • Pertahankan gradient_checkpointing="unsloth" untuk menghemat VRAM dan memperluas konteks
  • Disediakan contoh loader MoE bf16 LoRA

Fine-tuning vision

  • Mendukung fine-tuning vision untuk model Qwen3.5 multimodal
    • Bisa menggunakan notebook RL Qwen3-VL GRPO/GSPO (cukup ubah nama model)
  • Dapat memilih pelatihan khusus vision/teks
    • Fine-tuning selektif pada layer Vision, Language, Attention, dan MLP
    • Nilai default adalah semuanya aktif
  • Untuk pelatihan multi-image, lihat panduan vision multi-image terpisah

Penyimpanan dan deployment model

  • Mendukung berbagai metode deployment seperti llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang

Menyimpan ke GGUF

  • Unsloth mendukung penyimpanan langsung ke format GGUF dan unggah ke Hugging Face
  • Jika performa menurun saat inferensi, penyebab utamanya biasanya chat template atau token EOS yang salah

Menyimpan ke vLLM

  • vLLM 0.16.0 belum mendukung Qwen3.5
    • Diperlukan 0.170 atau lebih baru atau versi Nightly
  • Mendukung penyimpanan 16-bit dan hanya menyimpan adapter LoRA
  • Untuk detail lebih lanjut, lihat panduan inferensi Unsloth

2 komentar

 
hmmhmmhm 2026-03-06

Waktu terakhir saya mencoba fine-tuning lewat agen, terlihat masalah overfitting cukup sering muncul tergantung datanya, jadi saya penasaran apakah di notebook kali ini hal itu bisa dilakukan dengan kombinasi LoRA/QLoRA.

 
GN⁺ 2026-03-06
Pendapat Hacker News
  • Saya pernah mencoba melakukan fine-tuning model Qwen di perangkat keras NVIDIA Jetson, dan performanya sangat mengejutkan
    Saya telah menerapkan beberapa varian model 7B untuk AI edge, dan ini sangat berguna terutama di lingkungan seperti inspeksi industri atau analisis ritel, di mana latensi lebih penting daripada akurasi
    Berkat fine-tuning LoRA, model menjadi cukup kecil untuk muat di memori terpadu, dan kecepatan inferensi real-time juga cukup cepat
    Hal yang paling mengejutkan adalah efisiensi daya — Jetson Orin bisa menjalankan inferensi berkelanjutan di bawah 15W, dan ini jauh lebih hemat energi dibanding bolak-balik ke cloud

    • Komentar ini terlihat seperti dibuat oleh AI
      Belakangan ini saya sering melihat komentar dengan format anekdot palsu seperti ini di Twitter atau Reddit. Terlihat seperti ditulis manusia, tapi rasanya semua ceritanya dibuat-buat
    • Menarik. Saya penasaran apakah ada contoh tugas industri yang masih oke walau akurasinya sedikit lebih rendah
    • Saya ingin tahu contoh konkret pekerjaan seperti apa yang benar-benar menggunakan model semacam ini
    • Ini pertanyaan sederhana, tapi saya jadi berpikir apakah untuk penggunaan seperti ini jaringan saraf (neural network) tradisional sebenarnya sudah cukup
    • Anda bilang model 7B dijalankan di 15W, jadi saya penasaran itu model seri Orin yang mana
      Apakah Nano (40 TOPS), NX (100), atau AGX (275), dan apakah Anda juga pernah menguji model yang lebih besar di Thor (2070)
  • Saya penasaran dengan contoh nyata orang-orang yang benar-benar melakukan fine-tuning model kecil/menengah lalu memakainya

    • Ada tulisan di X yang merangkum topik ini
      Posting terkait
      Misalnya,
      1. Cursor meningkatkan approval rate 28% dengan online RL (tautan)
      2. Vercel menerapkan RFT pada model AutoFix (tautan)
      3. Perplexity Sonar adalah model hasil fine-tuning untuk Deep Research Reasoning (tautan)
      4. DoorDash membangun model ekstraksi atribut dengan LoRA/QLoRA (tautan)
      5. Model deteksi banjir milik NASA (tautan)
      6. Online RL untuk robotika
      7. Kumpulan contoh OpenAI RFT (tautan)
      8. Peningkatan performa model Mercor berbasis data pakar (tautan)
    • Saya pernah membandingkan beberapa model untuk tugas klasifikasi dokumen sederhana
      Saya membandingkan akurasi dan biaya model seperti Llama-70B, Gemma-4B, dan Ministral-14B,
      dan model 4B pun menunjukkan performa yang lumayan bagus.
      Tapi rasanya intuisi tentang hubungan antara jumlah data dan peningkatan performa mulai hilang
      Saya sedang mempertimbangkan untuk mencoba fine-tuning sendiri
    • Saya sedang mempertimbangkan fine-tuning untuk meningkatkan akurasi pengenalan tulisan tangan saya
      Model dasarnya sebenarnya sudah bekerja dengan baik, tapi karena tulisan tangan saya jelek, kadang masih terjadi kesalahan pengenalan
    • Sebagai contoh yang bagus, saya merekomendasikan panduan pelatihan LLM dari blog Atredis
  • Belakangan ini rasanya kebutuhan akan fine-tuning LLM makin berkurang
    Model-model terbaru bisa menangani tugas kompleks hanya dengan few-shot learning
    Model seperti Qwen3.5 yang punya jendela konteks besar tampaknya sudah cukup digantikan oleh prompt engineering yang kuat
    Untuk model gambar atau LLM generasi lama ini mungkin masih masuk akal, tapi untuk LLM teks rasanya makin tidak efisien

    • Jika model kecil di-fine-tuning untuk menghasilkan output terstruktur tertentu, kita bisa menjalankan inferensi skala besar dengan biaya murah
      Perluasan konteks pada model besar terlalu mahal
    • LLM memang terus berkembang, tapi di area seperti continuous learning untuk robot atau fine-tuning LoRA multimodal masih banyak potensinya
      Fine-tuning vision+text juga dimungkinkan seperti pada panduan Unsloth
      Ke depan, kemungkinan routing model akan menjadi hal umum, dengan model LoRA kecil dipakai secara lokal dan tugas kompleks dialihkan ke cloud
      Faktanya DoorDash, Vercel, NASA, Cursor, dan lainnya juga melakukan fine-tuning sendiri
    • Saya pernah mencoba melakukan fine-tuning model agar sesuai dengan gaya menulis saya
      Saya sudah mencoba dengan Claude, Qwen, Llama, Gemma, dan lainnya, tapi transfer gaya tidak berhasil dengan baik
      Bahkan setelah memakai ratusan komentar saya sebagai data pelatihan, model Instruct sudah terlalu banyak dituning sehingga tambahan pelatihan hampir tidak mungkin dilakukan
    • Singkatnya, alasannya adalah data pornografi
      Qwen menyaring data seperti ini saat pelatihan, jadi hanya bisa dipulihkan lewat fine-tuning
      Contoh pekerjaan terkait: model LoRA Qwen3 milik chenrm
    • Dalam layanan nyata, fine-tuning masih tetap penting
      Kombinasi perilaku yang deterministik dan dapat diaudit, pengurangan halusinasi, serta LoRA/QLoRA untuk penghematan biaya sangat berguna
      Jika dipakai bersama RAG dan FAISS vector DB, ledakan konteks bisa dicegah
      Dalam jangka panjang, mengelola adapter kecil jauh lebih efisien daripada terus menyesuaikan prompt
  • Disayangkan beberapa lead dari tim Qwen diganti
    Saya khawatir semangat open source akan melemah jika manajemen baru makin berorientasi bisnis

  • Saya penasaran apakah pendekatan RAG yang berfokus pada dokumen saja sudah cukup, atau fine-tuning benar-benar memberi hasil yang lebih baik

    • Model yang terspesialisasi jelas bisa melampaui SOTA
      Contoh: FlashCheck
    • Dulu model tab-next-action milik Cursor sempat sangat ramai dibicarakan, dan ternyata itu sebenarnya versi hasil fine-tuning dari model 70B
  • Materi kali ini tampaknya hanya membahas model MoE besar
    Kebanyakan pengguna kemungkinan justru menargetkan model kecil (misalnya 9B),
    dan model ini memakai arsitektur Mamba hybrid, jadi sepertinya perlu pertimbangan tersendiri