2 poin oleh GN⁺ 2025-04-26 | 1 komentar | Bagikan ke WhatsApp
  • DFloat11 adalah kerangka kompresi tanpa kehilangan yang mengurangi ukuran model bahasa besar (LLM) sebesar 30% sambil mempertahankan keluaran yang identik hingga tingkat bit dengan model asli
  • Memanfaatkan entropi rendah pada representasi bobot BFloat16 untuk memperbaiki inefisiensi format penyimpanan yang ada
  • Mengembangkan kernel GPU khusus untuk inferensi yang efisien di GPU dan mendukung dekompresi online yang cepat
  • Melalui eksperimen pada model terbaru seperti Llama-3.1, Qwen-2.5, Gemma-3, terverifikasi pengurangan ukuran model 30% dan keluaran yang tetap akurat
  • Dengan anggaran memori GPU yang tetap, memungkinkan panjang konteks 5,3-13,17 kali lebih panjang dibanding model yang tidak dikompresi

Ukuran 70%, akurasi 100%: kompresi LLM tanpa kehilangan untuk inferensi GPU yang efisien

  • Ukuran model bahasa besar (LLM) meningkat sangat cepat, sehingga menjadi tantangan besar untuk deployment yang efisien pada perangkat keras dengan sumber daya terbatas
  • Dynamic-Length Float (DFloat11) adalah kerangka kompresi tanpa kehilangan yang mengurangi ukuran LLM sebesar 30% sambil mempertahankan keluaran yang identik hingga tingkat bit
  • Memanfaatkan entropi rendah dari representasi bobot BFloat16 untuk memperbaiki inefisiensi format penyimpanan yang ada
  • Dengan menerapkan entropy coding, bobot diberi pengodean panjang dinamis berdasarkan frekuensinya untuk mencapai kompresi yang optimal secara informasi
  • Untuk inferensi yang efisien, dikembangkan kernel GPU khusus yang mendukung dekompresi online yang cepat

Desain DFloat11

  • Tabel lookup (LUT) yang intensif memori dipecah menjadi LUT terkompresi yang sesuai dengan GPU SRAM
  • Dikembangkan kernel dua tahap yang menggunakan variabel bantu ringan untuk menyesuaikan posisi baca/tulis thread
  • Dekompresi pada tingkat blok transformer digunakan untuk meminimalkan latensi

Hasil eksperimen

  • Pada model terbaru seperti Llama-3.1, Qwen-2.5, dan Gemma-3, DFloat11 memverifikasi pengurangan ukuran model 30% dan keluaran yang tetap akurat
  • Dibandingkan alternatif yang meng-offload sebagian model tak terkompresi ke CPU, dicapai throughput 1,9-38,8 kali lebih tinggi
  • Dengan anggaran memori GPU yang tetap, memungkinkan panjang konteks 5,3-13,17 kali lebih panjang dibanding model yang tidak dikompresi

Keunggulan DFloat11

  • Memungkinkan inferensi tanpa kehilangan untuk model Llama-3.1-405B berukuran 810GB pada satu node yang dilengkapi 8x80GB GPU
  • Kode dan model tersedia di URL publik

1 komentar

 
GN⁺ 2025-04-26
Komentar Hacker News
  • Rentang dinamis tinggi bfloat16 sebagian besar tidak digunakan

    • Orang cenderung memilih hiperparameter seperti 0.01
    • Tidak banyak perbedaan bahkan jika semua elemen jaringan dikalikan 10^6
    • Entropi tipikal nilai bfloat16 adalah 10-12 bit
    • Bit tanda dan mantisa adalah noise yang tidak dapat dikompresi
    • Teknik kompresi lossless digunakan di lab Martin Burtscher, fpzip milik LLNL, dan dietgpu milik Facebook
    • rANS lebih efisien daripada pengodean Huffman pada set instruksi SIMD
  • Kemungkinan menjalankan model 405B-parameter pada satu node

    • Memberikan peluang besar bagi lembaga riset dan startup
  • Bersyukur atas perkembangan pesat model ML/transformer

    • Penasaran apakah llama.cpp memanfaatkan cublas dengan baik
  • Setelah perang format bobot berakhir, perangkat keras kemungkinan akan dapat mendukungnya

    • Diperlukan perangkat keras perkalian matriks yang disesuaikan dengan format bobot optimal
  • Sulit menyeimbangkan kualitas, biaya, dan kinerja dalam kasus penggunaan agen nyata

    • dfloat11 dapat membantu mengurangi biaya
  • Bekerja di xmad.ai

  • Kecepatan perkembangan teknologi sangat tinggi

    • Tertarik pada peningkatan efisiensi
  • DFloat11 memberikan throughput 1.9-38.8x lebih tinggi dibandingkan meng-offload model tak terkompresi ke CPU

    • Memberikan panjang konteks yang lebih panjang dengan anggaran memori GPU yang tetap
  • Penasaran apakah LLM dibatasi oleh bandwidth memori

  • Menemukan cara untuk mengompresi gambar lebih jauh menggunakan LLM

    • Berencana menerbitkan whitepaper terkait
  • Penasaran apakah ini berbeda dari ZipNN

    • Sulit memahami apakah ini menjadi dasar, berbeda, atau lebih baik
  • Berpikir bahwa menggunakan ternary alih-alih biner bisa menghasilkan rasio kompresi yang lebih tinggi