- DFloat11 adalah kerangka kompresi tanpa kehilangan yang mengurangi ukuran model bahasa besar (LLM) sebesar 30% sambil mempertahankan keluaran yang identik hingga tingkat bit dengan model asli
- Memanfaatkan entropi rendah pada representasi bobot BFloat16 untuk memperbaiki inefisiensi format penyimpanan yang ada
- Mengembangkan kernel GPU khusus untuk inferensi yang efisien di GPU dan mendukung dekompresi online yang cepat
- Melalui eksperimen pada model terbaru seperti Llama-3.1, Qwen-2.5, Gemma-3, terverifikasi pengurangan ukuran model 30% dan keluaran yang tetap akurat
- Dengan anggaran memori GPU yang tetap, memungkinkan panjang konteks 5,3-13,17 kali lebih panjang dibanding model yang tidak dikompresi
Ukuran 70%, akurasi 100%: kompresi LLM tanpa kehilangan untuk inferensi GPU yang efisien
- Ukuran model bahasa besar (LLM) meningkat sangat cepat, sehingga menjadi tantangan besar untuk deployment yang efisien pada perangkat keras dengan sumber daya terbatas
- Dynamic-Length Float (DFloat11) adalah kerangka kompresi tanpa kehilangan yang mengurangi ukuran LLM sebesar 30% sambil mempertahankan keluaran yang identik hingga tingkat bit
- Memanfaatkan entropi rendah dari representasi bobot BFloat16 untuk memperbaiki inefisiensi format penyimpanan yang ada
- Dengan menerapkan entropy coding, bobot diberi pengodean panjang dinamis berdasarkan frekuensinya untuk mencapai kompresi yang optimal secara informasi
- Untuk inferensi yang efisien, dikembangkan kernel GPU khusus yang mendukung dekompresi online yang cepat
Desain DFloat11
- Tabel lookup (LUT) yang intensif memori dipecah menjadi LUT terkompresi yang sesuai dengan GPU SRAM
- Dikembangkan kernel dua tahap yang menggunakan variabel bantu ringan untuk menyesuaikan posisi baca/tulis thread
- Dekompresi pada tingkat blok transformer digunakan untuk meminimalkan latensi
Hasil eksperimen
- Pada model terbaru seperti Llama-3.1, Qwen-2.5, dan Gemma-3, DFloat11 memverifikasi pengurangan ukuran model 30% dan keluaran yang tetap akurat
- Dibandingkan alternatif yang meng-offload sebagian model tak terkompresi ke CPU, dicapai throughput 1,9-38,8 kali lebih tinggi
- Dengan anggaran memori GPU yang tetap, memungkinkan panjang konteks 5,3-13,17 kali lebih panjang dibanding model yang tidak dikompresi
Keunggulan DFloat11
- Memungkinkan inferensi tanpa kehilangan untuk model Llama-3.1-405B berukuran 810GB pada satu node yang dilengkapi 8x80GB GPU
- Kode dan model tersedia di URL publik
1 komentar
Komentar Hacker News
Rentang dinamis tinggi bfloat16 sebagian besar tidak digunakan
Kemungkinan menjalankan model 405B-parameter pada satu node
Bersyukur atas perkembangan pesat model ML/transformer
Setelah perang format bobot berakhir, perangkat keras kemungkinan akan dapat mendukungnya
Sulit menyeimbangkan kualitas, biaya, dan kinerja dalam kasus penggunaan agen nyata
Bekerja di xmad.ai
Kecepatan perkembangan teknologi sangat tinggi
DFloat11 memberikan throughput 1.9-38.8x lebih tinggi dibandingkan meng-offload model tak terkompresi ke CPU
Penasaran apakah LLM dibatasi oleh bandwidth memori
Menemukan cara untuk mengompresi gambar lebih jauh menggunakan LLM
Penasaran apakah ini berbeda dari ZipNN
Berpikir bahwa menggunakan ternary alih-alih biner bisa menghasilkan rasio kompresi yang lebih tinggi