Addition untuk model bahasa yang hemat energi
-
Latar belakang penelitian
- Sebagian besar komputasi pada jaringan saraf besar digunakan untuk perkalian tensor floating-point.
- Penelitian ini menemukan bahwa sebuah pengali floating-point dapat didekati dengan presisi tinggi menggunakan satu penjumlah bilangan bulat.
-
Algoritme L-Mul
- Mengusulkan L-Mul, algoritme perkalian berkompleksitas linear yang mendekati perkalian bilangan floating-point dengan operasi penjumlahan bilangan bulat.
- Algoritme baru ini mencapai presisi lebih tinggi sambil menggunakan sumber daya komputasi lebih sedikit dibanding perkalian floating-point 8-bit.
- Karena perkalian bilangan floating-point mengonsumsi energi jauh lebih besar dibanding operasi penjumlahan bilangan bulat, penerapan operasi L-Mul pada perangkat keras pemrosesan tensor dapat mengurangi biaya energi perkalian tensor floating-point elemen-per-elemen hingga 95%, dan biaya energi inner product hingga 80%.
-
Evaluasi teoretis dan eksperimental
- Menghitung nilai harapan galat teoretis L-Mul dan mengevaluasi algoritme ini pada beragam tugas teks, visual, dan simbolik, termasuk pemahaman bahasa alami, penalaran terstruktur, matematika, dan tanya-jawab pengetahuan umum.
- Hasil eksperimen analisis numerik konsisten dengan estimasi galat teoretis, serta menunjukkan bahwa L-Mul dengan mantissa 4-bit mencapai presisi yang mirip dengan perkalian
float8_e4m3, dan L-Mul dengan mantissa 3-bit melampauifloat8_e5m2. - Hasil evaluasi benchmark yang menonjol menunjukkan bahwa menerapkan L-Mul secara langsung pada mekanisme attention hampir tidak menimbulkan kehilangan performa.
- Pada model transformer, mengganti semua perkalian floating-point dengan L-Mul bermantissa 3-bit mencapai presisi yang setara dengan penggunaan
float8_e4m3sebagai presisi akumulasi dalam fine-tuning dan inferensi.
Ringkasan GN⁺
- Algoritme L-Mul menawarkan cara untuk secara signifikan meningkatkan efisiensi energi sambil tetap mempertahankan presisi tinggi.
- Ini menunjukkan potensi untuk mengatasi masalah konsumsi energi pada komputasi floating-point, khususnya dengan prospek pemanfaatan pada model jaringan saraf besar.
- Penelitian ini berpotensi menarik perhatian besar di bidang yang menuntut penghematan energi, dan proyek lain dengan fungsi serupa termasuk TensorFlow Lite dari Google.
Belum ada komentar.