2 poin oleh GN⁺ 2024-10-10 | Belum ada komentar. | Bagikan ke WhatsApp

Addition untuk model bahasa yang hemat energi

  • Latar belakang penelitian

    • Sebagian besar komputasi pada jaringan saraf besar digunakan untuk perkalian tensor floating-point.
    • Penelitian ini menemukan bahwa sebuah pengali floating-point dapat didekati dengan presisi tinggi menggunakan satu penjumlah bilangan bulat.
  • Algoritme L-Mul

    • Mengusulkan L-Mul, algoritme perkalian berkompleksitas linear yang mendekati perkalian bilangan floating-point dengan operasi penjumlahan bilangan bulat.
    • Algoritme baru ini mencapai presisi lebih tinggi sambil menggunakan sumber daya komputasi lebih sedikit dibanding perkalian floating-point 8-bit.
    • Karena perkalian bilangan floating-point mengonsumsi energi jauh lebih besar dibanding operasi penjumlahan bilangan bulat, penerapan operasi L-Mul pada perangkat keras pemrosesan tensor dapat mengurangi biaya energi perkalian tensor floating-point elemen-per-elemen hingga 95%, dan biaya energi inner product hingga 80%.
  • Evaluasi teoretis dan eksperimental

    • Menghitung nilai harapan galat teoretis L-Mul dan mengevaluasi algoritme ini pada beragam tugas teks, visual, dan simbolik, termasuk pemahaman bahasa alami, penalaran terstruktur, matematika, dan tanya-jawab pengetahuan umum.
    • Hasil eksperimen analisis numerik konsisten dengan estimasi galat teoretis, serta menunjukkan bahwa L-Mul dengan mantissa 4-bit mencapai presisi yang mirip dengan perkalian float8_e4m3, dan L-Mul dengan mantissa 3-bit melampaui float8_e5m2.
    • Hasil evaluasi benchmark yang menonjol menunjukkan bahwa menerapkan L-Mul secara langsung pada mekanisme attention hampir tidak menimbulkan kehilangan performa.
    • Pada model transformer, mengganti semua perkalian floating-point dengan L-Mul bermantissa 3-bit mencapai presisi yang setara dengan penggunaan float8_e4m3 sebagai presisi akumulasi dalam fine-tuning dan inferensi.

Ringkasan GN⁺

  • Algoritme L-Mul menawarkan cara untuk secara signifikan meningkatkan efisiensi energi sambil tetap mempertahankan presisi tinggi.
  • Ini menunjukkan potensi untuk mengatasi masalah konsumsi energi pada komputasi floating-point, khususnya dengan prospek pemanfaatan pada model jaringan saraf besar.
  • Penelitian ini berpotensi menarik perhatian besar di bidang yang menuntut penghematan energi, dan proyek lain dengan fungsi serupa termasuk TensorFlow Lite dari Google.

Belum ada komentar.

Belum ada komentar.