LLM yang Dipercepat Perangkat Keras: Survei dan Perbandingan Komprehensif
- LLM telah muncul sebagai alat yang kuat dalam tugas pemrosesan bahasa alami, merevolusi bidang ini dengan kemampuannya memahami dan menghasilkan teks yang menyerupai manusia
- Makalah ini secara komprehensif meninjau berbagai upaya penelitian untuk mempercepat jaringan transformer bagi model bahasa besar dengan menggunakan akselerator perangkat keras
Kerangka kerja dan perbandingan
- Memperkenalkan kerangka kerja yang diusulkan dan melakukan perbandingan kualitatif serta kuantitatif terkait teknologi, platform pemrosesan (FPGA, ASIC, in-memory, GPU), peningkatan kecepatan, efisiensi energi, kinerja (GOPs), dan efisiensi energi (GOPs/W)
- Tantangan utamanya adalah setiap skema yang diusulkan diimplementasikan dengan teknologi proses yang berbeda, sehingga perbandingan yang adil menjadi sulit
- Kontribusi utama makalah ini adalah memperkirakan hasil kinerja dan efisiensi energi pada teknologi yang sama agar memungkinkan perbandingan yang adil
Eksperimen dan hasil
- Mengimplementasikan sebagian dari LLM pada beberapa chip FPGA untuk memperkirakan hasil pada teknologi proses yang sama dan membandingkan kinerjanya secara adil
Ringkasan GN⁺
- Makalah ini memberikan survei komprehensif tentang akselerasi perangkat keras untuk model bahasa besar (LLM)
- Membandingkan kinerja dan efisiensi energi di berbagai platform pemrosesan sehingga memungkinkan perbandingan yang adil
- Melalui eksperimen menggunakan chip FPGA, makalah ini memperkirakan hasil pada teknologi yang sama
- Dapat berguna bagi orang-orang yang tertarik pada peningkatan kinerja LLM di bidang pemrosesan bahasa alami
- Proyek lain dengan fungsi serupa antara lain akselerator GPU dari NVIDIA dan TPU dari Google
1 komentar
Komentar Hacker News
Sejak 1990-an, kecepatan CPU meningkat lebih cepat daripada bandwidth memori
Ada preferensi pribadi terhadap systolic arrays
Ingin melihat LLM di WebGL yang semuanya dibangun dari tekstur
Menjelaskan keberhasilan LPU berbasis ASIC milik Groq
Perpindahan memori adalah bottleneck saat ini
Bertanya-tanya apakah arsitektur hibrida FPGA + ASIC + in-mem dapat berperan dalam skalabilitas/fleksibilitas
Ada makalah tentang LLM yang berjalan dengan daya setara bohlam lampu
Bertanya-tanya apakah ada cara untuk membaca konten di Arxiv dengan "baik"
Bertanya-tanya apakah "in-memory" adalah perangkat keras khusus yang menggabungkan CPU dan RAM