Kuantisasi model Qwen3.5, mengapa versi komunitas mengalami penurunan performa

(x.com/Brooooook_lyn)

17 poin oleh ragingwind 3 hari lalu | 3 komentar | Bagikan ke WhatsApp

Penyebab teknis mengapa model Qwen3.5 format MLX yang didistribusikan komunitas dalam teknik 'quantization' untuk mengompresi model AI agar lebih kecil dan cepat menunjukkan error pemanggilan tool, output yang tidak bermakna, dan gejala halusinasi telah diungkap. Ini adalah isi paparan dari perusahaan alat fine-tuning AI Unsloth yang menyajikan penyebab dan solusinya melalui lebih dari 150 eksperimen benchmark.

Ringkasan inti

Kuantisasi adalah teknik untuk mengompresi data numerik model ke presisi lebih rendah (jumlah bit lebih sedikit) guna mengurangi ukuran file dan jumlah komputasi
Sebagian besar alat kuantisasi komunitas menggunakan 'kuantisasi seragam', yang menerapkan jumlah bit yang sama ke semua layer
Qwen3.5 memiliki struktur hibrida yang tersusun bergantian antara layer self-attention umum dan layer linear attention bernama GatedDeltaNet
Inti masalah ada pada layer linear_attn.out_proj; sensitivitas layer ini terhadap kehilangan informasi saat kompresi 4-bit sekitar 120 kali lebih tinggi dibanding layer output (lm_head)
Kuantisasi seragam memiliki masalah struktural: membuang presisi pada bagian yang tidak penting, tetapi justru merusak layer yang sensitif

Solusi Unsloth

Menerapkan pendekatan 'kuantisasi bit campuran' yang mengalokasikan jumlah bit berbeda sesuai sensitivitas nyata tiap layer
Layer MLP dengan sensitivitas rendah dibuat 3-bit, layer attention Q/K/V dibuat 5-bit dengan AWQ (teknik koreksi bobot), dan layer output paling sensitif tetap mempertahankan presisi penuh bf16
Untuk data calibration, digunakan contoh percakapan, coding, dan pemanggilan tool alih-alih Wikipedia sehingga perhitungan tingkat kepentingan bisa disesuaikan dengan lingkungan penggunaan nyata

Kelebihan dan kekurangan

Kelebihan: kualitas pemanggilan tool, output terstruktur, dan pembuatan kode meningkat besar dibanding versi komunitas sebelumnya. Di MLX, performa setara versi GGUF yang sama berhasil diwujudkan
Kekurangan: karena beberapa layer sensitif harus dipertahankan dalam bf16, kebutuhan ruang disk menjadi lebih besar daripada model low-bit murni

Pembeda

Sementara alat komunitas sebelumnya melakukan kompresi massal tanpa mempertimbangkan struktur, Unsloth menurunkan jumlah bit optimal per layer secara ilmiah melalui lebih dari 150 eksperimen KLD (metrik pengukuran kehilangan informasi) dan perbandingan 121 konfigurasi
Hal menarik lainnya adalah pembuktian empiris bahwa kualitas data calibration menentukan kualitas kompresi

Implikasi

Ini kembali menegaskan bahwa kompresi model AI bukan sekadar soal mengurangi jumlah bit, tetapi memerlukan pemahaman terhadap struktur internal model
Ada pelajaran praktis bahwa saat menggunakan model ringan yang didistribusikan komunitas untuk pekerjaan nyata, metode kuantisasi dan data calibration dari pihak yang mendistribusikannya wajib diperiksa

3 komentar

iiiiiiiiiiiii 1 hari lalu

Sebenarnya, layer yang tidak terlalu penting bisa dikompresi secara agresif tanpa menimbulkan banyak kehilangan. Pada beberapa layer, bahkan kuantisasi 2-bit pun tidak menimbulkan penurunan yang terlihat.
Namun, model komunitas mengkuantisasi semua layer secara seragam, sehingga timbul masalah.

ryj0902 2 hari lalu

Wow......!

mammal 3 hari lalu

Pendiri Unsloth, Daniel Han, sepertinya benar-benar jenius. Setiap kali model open-weight dirilis, ia membagikan analisis mulai dari struktur model, bug tokenisasi, kesalahan kuantisasi, hingga error template, dan itu benar-benar mengagumkan.

Kuantisasi model Qwen3.5, mengapa versi komunitas mengalami penurunan performa

Bacaan terkait

3 komentar