Kuantisasi model Qwen3.5, mengapa versi komunitas mengalami penurunan performa
(x.com/Brooooook_lyn)Penyebab teknis mengapa model Qwen3.5 format MLX yang didistribusikan komunitas dalam teknik 'quantization' untuk mengompresi model AI agar lebih kecil dan cepat menunjukkan error pemanggilan tool, output yang tidak bermakna, dan gejala halusinasi telah diungkap. Ini adalah isi paparan dari perusahaan alat fine-tuning AI Unsloth yang menyajikan penyebab dan solusinya melalui lebih dari 150 eksperimen benchmark.
Ringkasan inti
- Kuantisasi adalah teknik untuk mengompresi data numerik model ke presisi lebih rendah (jumlah bit lebih sedikit) guna mengurangi ukuran file dan jumlah komputasi
- Sebagian besar alat kuantisasi komunitas menggunakan 'kuantisasi seragam', yang menerapkan jumlah bit yang sama ke semua layer
- Qwen3.5 memiliki struktur hibrida yang tersusun bergantian antara layer self-attention umum dan layer linear attention bernama GatedDeltaNet
- Inti masalah ada pada layer
linear_attn.out_proj; sensitivitas layer ini terhadap kehilangan informasi saat kompresi 4-bit sekitar 120 kali lebih tinggi dibanding layer output (lm_head) - Kuantisasi seragam memiliki masalah struktural: membuang presisi pada bagian yang tidak penting, tetapi justru merusak layer yang sensitif
Solusi Unsloth
- Menerapkan pendekatan 'kuantisasi bit campuran' yang mengalokasikan jumlah bit berbeda sesuai sensitivitas nyata tiap layer
- Layer MLP dengan sensitivitas rendah dibuat 3-bit, layer attention Q/K/V dibuat 5-bit dengan AWQ (teknik koreksi bobot), dan layer output paling sensitif tetap mempertahankan presisi penuh bf16
- Untuk data calibration, digunakan contoh percakapan, coding, dan pemanggilan tool alih-alih Wikipedia sehingga perhitungan tingkat kepentingan bisa disesuaikan dengan lingkungan penggunaan nyata
Kelebihan dan kekurangan
- Kelebihan: kualitas pemanggilan tool, output terstruktur, dan pembuatan kode meningkat besar dibanding versi komunitas sebelumnya. Di MLX, performa setara versi GGUF yang sama berhasil diwujudkan
- Kekurangan: karena beberapa layer sensitif harus dipertahankan dalam bf16, kebutuhan ruang disk menjadi lebih besar daripada model low-bit murni
Pembeda
- Sementara alat komunitas sebelumnya melakukan kompresi massal tanpa mempertimbangkan struktur, Unsloth menurunkan jumlah bit optimal per layer secara ilmiah melalui lebih dari 150 eksperimen KLD (metrik pengukuran kehilangan informasi) dan perbandingan 121 konfigurasi
- Hal menarik lainnya adalah pembuktian empiris bahwa kualitas data calibration menentukan kualitas kompresi
Implikasi
- Ini kembali menegaskan bahwa kompresi model AI bukan sekadar soal mengurangi jumlah bit, tetapi memerlukan pemahaman terhadap struktur internal model
- Ada pelajaran praktis bahwa saat menggunakan model ringan yang didistribusikan komunitas untuk pekerjaan nyata, metode kuantisasi dan data calibration dari pihak yang mendistribusikannya wajib diperiksa
3 komentar
Sebenarnya, layer yang tidak terlalu penting bisa dikompresi secara agresif tanpa menimbulkan banyak kehilangan. Pada beberapa layer, bahkan kuantisasi 2-bit pun tidak menimbulkan penurunan yang terlihat.
Namun, model komunitas mengkuantisasi semua layer secara seragam, sehingga timbul masalah.
Wow......!
Pendiri Unsloth, Daniel Han, sepertinya benar-benar jenius. Setiap kali model open-weight dirilis, ia membagikan analisis mulai dari struktur model, bug tokenisasi, kesalahan kuantisasi, hingga error template, dan itu benar-benar mengagumkan.