1 poin oleh GN⁺ 2025-05-06 | 1 komentar | Bagikan ke WhatsApp
  • MVDRAM adalah sistem yang mempercepat operasi GeMV untuk inferensi LLM bit rendah dengan menggunakan DRAM yang tidak dimodifikasi
  • Sistem ini memanfaatkan DRAM sebagai mesin GeMV untuk memberikan throughput tinggi
  • Sistem ini menghilangkan biaya pra-penyusunan input dan pergantian bit output pada pendekatan PUD yang ada
  • Hasil eksperimen menunjukkan kinerja yang lebih unggul dibanding implementasi berbasis prosesor pada LLM bit rendah
  • Sistem ini menunjukkan kemungkinan baru bagi perangkat keras AI

MVDRAM: Akselerasi LLM Bit Rendah dengan Memanfaatkan DRAM yang Tidak Dimodifikasi

  • Operasi GeMV tetap menjadi bottleneck latensi yang penting dalam inferensi large language model (LLM)
  • Processing-Using-DRAM (PUD) memiliki potensi untuk memanfaatkan kembali DRAM sebagai mesin GeMV
  • Namun, penerapan PUD pada pipeline inferensi LLM menimbulkan overhead yang signifikan

Pendekatan Inovatif MVDRAM

  • MVDRAM mengoordinasikan prosesor dan DRAM dengan memanfaatkan pola berbagi data dan linearitas matematis
  • Sistem ini mempercepat operasi GeMV dengan menghilangkan biaya dari pendekatan PUD yang ada

Hasil Eksperimen

  • Dalam eksperimen menggunakan empat modul DRAM DDR4, MVDRAM menunjukkan kinerja yang lebih unggul dibanding implementasi berbasis prosesor pada LLM bit rendah (4-bit atau kurang)
  • Sistem ini mencapai percepatan hingga 7,29x dan efisiensi energi hingga 30,5x

Peningkatan Menyeluruh pada Inferensi LLM

  • Pada model bit rendah terkuantisasi 2-bit dan 4-bit, throughput meningkat masing-masing sebesar 2,18x dan 1,31x
  • Efisiensi energi juga meningkat masing-masing sebesar 3,04x dan 2,35x

Kemungkinan Baru untuk Perangkat Keras AI

  • MVDRAM membuktikan kemungkinan memanfaatkan DRAM standar sebagai akselerator LLM
  • Sistem ini memiliki potensi untuk membuka cakrawala baru bagi perangkat keras AI

1 komentar

 
GN⁺ 2025-05-06
Komentar Hacker News
  • Ada informasi tentang salah satu usulan awal untuk komputasi di dalam DRAM

    • Ada demonstrasi pertama yang menggunakan komponen komersial
    • Implementasi dilakukan menggunakan alat bernama DRAM Bender
    • Ada makalah tentang perkembangan terbaru dalam pemrosesan di dalam DRAM
  • Ada yang mencatat bahwa daftar penulis pada referensi 1 dan 3 sangat panjang

    • Ada harapan terhadap artikel tahun 2016, tetapi tidak disertakan
    • Artikel tahun 2019 disertakan
    • Perilaku DRAM di luar spesifikasi, khususnya fungsi penyalinan, terkait dengan bug yang terkenal buruk reputasinya
  • Pemrosesan paralel skala besar dapat dicapai dengan sengaja mengeluarkan perintah DRAM yang melanggar parameter timing yang ditentukan pabrikan

    • Ini merupakan tantangan terhadap binary blob untuk pelatihan DRAM
  • Ide ini sangat orisinal dan kreatif

    • Bekerja pada detail-detail semacam ini bisa terasa memuaskan
  • Mengeksploitasi bug di dunia perangkat keras bisa berbahaya

    • Di dunia perangkat lunak, memanfaatkan bug platform untuk mengaktifkan fitur bukanlah hal yang baik
    • Jika bug diperbaiki, sistem bisa berperilaku tidak terduga
  • Operasi matriks dilakukan langsung di dalam DRAM itu sendiri

    • Ini adalah ide yang sangat menarik dan mengejutkan
  • Ada penyebutan tentang general matrix-vector multiplication (GeMV)

    • Ada juga yang kurang memahami matematikanya
    • Quaternion menjadi populer karena secara komputasional lebih sederhana daripada matriks
    • Ada juga yang penasaran apakah pernah ada kasus membangun LLM dengan menggunakan quaternion
  • Ada pendapat yang menunjukkan bahwa tidak mengutip sumber asli Intelligent RAM (IRAM) dari tahun 1997 adalah tindakan yang tidak ilmiah

  • Ada yang bertanya-tanya apakah perkalian matriks dan operasi lain berpotensi berpindah dari CPU tradisional ke DRAM

    • Ada pertanyaan apakah pergeseran pemrosesan seperti ini akan memberi keuntungan bagi Samsung dan pihak lain
    • Ada rasa penasaran tentang bagaimana nasib NVIDIA dan pihak lainnya
  • Ini bisa menjadi cara yang keren untuk membuat perangkat inferensi murah bagi LLM berskala besar