18 poin oleh ragingwind 2026-04-18 | 4 komentar | Bagikan ke WhatsApp

Penyebab teknis mengapa model Qwen3.5 berformat MLX yang didistribusikan komunitas menunjukkan error pemanggilan tool, output yang tidak bermakna, dan halusinasi (hallucination) dalam teknologi 'kuantisasi (quantization)'—yakni teknik untuk memampatkan model AI agar lebih kecil dan cepat—telah berhasil diungkap. Ini merupakan isi dari penjelasan solusi dan akar masalah yang diajukan oleh Unsloth, perusahaan penyedia alat fine-tuning AI, melalui lebih dari 150 eksperimen benchmark.

Ringkasan inti

  • Kuantisasi adalah teknik untuk mengompresi data numerik model ke presisi yang lebih rendah (jumlah bit lebih kecil) guna mengurangi ukuran file dan beban komputasi
  • Sebagian besar alat kuantisasi komunitas menggunakan 'kuantisasi seragam', yang menerapkan jumlah bit yang sama ke semua layer
  • Qwen3.5 memiliki struktur hibrida yang menyusun secara bergantian layer self-attention umum dan layer linear attention bernama GatedDeltaNet
  • Inti masalahnya ada pada layer linear_attn.out_proj; pada kompresi 4-bit, sensitivitasnya terhadap kehilangan informasi sekitar 120 kali lebih tinggi dibanding layer output (lm_head)
  • Kuantisasi seragam memiliki masalah struktural: memboroskan presisi pada bagian yang tidak penting, tetapi justru merusak layer yang sensitif

Solusi Unsloth

Iklan
  • Unsloth menerapkan pendekatan 'kuantisasi mixed-bit', yang mengalokasikan jumlah bit berbeda sesuai sensitivitas nyata tiap layer
  • Layer MLP yang sensitivitasnya rendah memakai 3-bit, layer attention Q/K/V memakai 5-bit dengan AWQ (teknik koreksi bobot), dan layer output yang paling sensitif tetap mempertahankan presisi penuh bf16
  • Untuk data calibration (koreksi), digunakan contoh percakapan, coding, dan pemanggilan tool alih-alih Wikipedia, sehingga perhitungan tingkat kepentingan lebih sesuai dengan lingkungan penggunaan nyata

Kelebihan dan kekurangan

  • Kelebihan: kualitas pemanggilan tool, output terstruktur, dan pembuatan kode meningkat signifikan dibanding versi komunitas yang ada. Performa setara versi GGUF yang sama berhasil diwujudkan di MLX
  • Kekurangan: karena beberapa layer sensitif harus dipertahankan dalam bf16, kebutuhan ruang disk lebih besar daripada model low-bit murni
Iklan

Pembeda

  • Sementara alat komunitas yang ada melakukan kompresi massal tanpa mempertimbangkan struktur, Unsloth secara ilmiah menurunkan jumlah bit optimal per layer melalui lebih dari 150 eksperimen KLD (metrik pengukuran kehilangan informasi) dan perbandingan 121 konfigurasi
  • Hal lain yang patut diperhatikan adalah temuan empiris bahwa kualitas data koreksi menentukan kualitas kompresi

Implikasi

  • Ini kembali menegaskan bahwa kompresi model AI bukan sekadar soal mengurangi jumlah bit, tetapi memerlukan pemahaman atas struktur internal model
  • Saat menggunakan model ringan yang didistribusikan komunitas dalam praktik kerja, ada pelajaran praktis penting: metode kuantisasi dan data koreksi yang digunakan distributor harus selalu diperiksa

4 komentar

 
iiiiiiiiiiiii 2026-04-21

Sebenarnya, layer yang tidak terlalu penting bisa dikompresi secara agresif tanpa menimbulkan banyak kehilangan. Pada beberapa layer, bahkan kuantisasi 2-bit pun tidak menimbulkan penurunan yang terlihat.
Namun, model komunitas mengkuantisasi semua layer secara seragam, sehingga timbul masalah.

 
jeeeyul 2026-04-19

Itu karena dimensi dan layer model tidak “dipanggang” secara merata. Seperti biasa.

 
ryj0902 2026-04-20

Wow......!

 
mammal 2026-04-18

Pendiri Unsloth, Daniel Han, sepertinya benar-benar jenius. Setiap kali model open-weight dirilis, ia membagikan analisis mulai dari struktur model, bug tokenisasi, kesalahan kuantisasi, hingga error template, dan itu benar-benar mengagumkan.