- MVDRAM adalah sistem yang mempercepat operasi GeMV untuk inferensi LLM bit rendah dengan menggunakan DRAM yang tidak dimodifikasi
- Sistem ini memanfaatkan DRAM sebagai mesin GeMV untuk memberikan throughput tinggi
- Sistem ini menghilangkan biaya pra-penyusunan input dan pergantian bit output pada pendekatan PUD yang ada
- Hasil eksperimen menunjukkan kinerja yang lebih unggul dibanding implementasi berbasis prosesor pada LLM bit rendah
- Sistem ini menunjukkan kemungkinan baru bagi perangkat keras AI
MVDRAM: Akselerasi LLM Bit Rendah dengan Memanfaatkan DRAM yang Tidak Dimodifikasi
- Operasi GeMV tetap menjadi bottleneck latensi yang penting dalam inferensi large language model (LLM)
- Processing-Using-DRAM (PUD) memiliki potensi untuk memanfaatkan kembali DRAM sebagai mesin GeMV
- Namun, penerapan PUD pada pipeline inferensi LLM menimbulkan overhead yang signifikan
Pendekatan Inovatif MVDRAM
- MVDRAM mengoordinasikan prosesor dan DRAM dengan memanfaatkan pola berbagi data dan linearitas matematis
- Sistem ini mempercepat operasi GeMV dengan menghilangkan biaya dari pendekatan PUD yang ada
Hasil Eksperimen
- Dalam eksperimen menggunakan empat modul DRAM DDR4, MVDRAM menunjukkan kinerja yang lebih unggul dibanding implementasi berbasis prosesor pada LLM bit rendah (4-bit atau kurang)
- Sistem ini mencapai percepatan hingga 7,29x dan efisiensi energi hingga 30,5x
Peningkatan Menyeluruh pada Inferensi LLM
- Pada model bit rendah terkuantisasi 2-bit dan 4-bit, throughput meningkat masing-masing sebesar 2,18x dan 1,31x
- Efisiensi energi juga meningkat masing-masing sebesar 3,04x dan 2,35x
Kemungkinan Baru untuk Perangkat Keras AI
- MVDRAM membuktikan kemungkinan memanfaatkan DRAM standar sebagai akselerator LLM
- Sistem ini memiliki potensi untuk membuka cakrawala baru bagi perangkat keras AI
1 komentar
Komentar Hacker News
Ada informasi tentang salah satu usulan awal untuk komputasi di dalam DRAM
Ada yang mencatat bahwa daftar penulis pada referensi 1 dan 3 sangat panjang
Pemrosesan paralel skala besar dapat dicapai dengan sengaja mengeluarkan perintah DRAM yang melanggar parameter timing yang ditentukan pabrikan
Ide ini sangat orisinal dan kreatif
Mengeksploitasi bug di dunia perangkat keras bisa berbahaya
Operasi matriks dilakukan langsung di dalam DRAM itu sendiri
Ada penyebutan tentang general matrix-vector multiplication (GeMV)
Ada pendapat yang menunjukkan bahwa tidak mengutip sumber asli Intelligent RAM (IRAM) dari tahun 1997 adalah tindakan yang tidak ilmiah
Ada yang bertanya-tanya apakah perkalian matriks dan operasi lain berpotensi berpindah dari CPU tradisional ke DRAM
Ini bisa menjadi cara yang keren untuk membuat perangkat inferensi murah bagi LLM berskala besar