1 poin oleh GN⁺ 2024-09-08 | 1 komentar | Bagikan ke WhatsApp

LLM yang Dipercepat Perangkat Keras: Survei dan Perbandingan Komprehensif

  • LLM telah muncul sebagai alat yang kuat dalam tugas pemrosesan bahasa alami, merevolusi bidang ini dengan kemampuannya memahami dan menghasilkan teks yang menyerupai manusia
  • Makalah ini secara komprehensif meninjau berbagai upaya penelitian untuk mempercepat jaringan transformer bagi model bahasa besar dengan menggunakan akselerator perangkat keras

Kerangka kerja dan perbandingan

  • Memperkenalkan kerangka kerja yang diusulkan dan melakukan perbandingan kualitatif serta kuantitatif terkait teknologi, platform pemrosesan (FPGA, ASIC, in-memory, GPU), peningkatan kecepatan, efisiensi energi, kinerja (GOPs), dan efisiensi energi (GOPs/W)
  • Tantangan utamanya adalah setiap skema yang diusulkan diimplementasikan dengan teknologi proses yang berbeda, sehingga perbandingan yang adil menjadi sulit
  • Kontribusi utama makalah ini adalah memperkirakan hasil kinerja dan efisiensi energi pada teknologi yang sama agar memungkinkan perbandingan yang adil

Eksperimen dan hasil

  • Mengimplementasikan sebagian dari LLM pada beberapa chip FPGA untuk memperkirakan hasil pada teknologi proses yang sama dan membandingkan kinerjanya secara adil

Ringkasan GN⁺

  • Makalah ini memberikan survei komprehensif tentang akselerasi perangkat keras untuk model bahasa besar (LLM)
  • Membandingkan kinerja dan efisiensi energi di berbagai platform pemrosesan sehingga memungkinkan perbandingan yang adil
  • Melalui eksperimen menggunakan chip FPGA, makalah ini memperkirakan hasil pada teknologi yang sama
  • Dapat berguna bagi orang-orang yang tertarik pada peningkatan kinerja LLM di bidang pemrosesan bahasa alami
  • Proyek lain dengan fungsi serupa antara lain akselerator GPU dari NVIDIA dan TPU dari Google

1 komentar

 
GN⁺ 2024-09-08
Komentar Hacker News
  • Sejak 1990-an, kecepatan CPU meningkat lebih cepat daripada bandwidth memori

    • William Wulf dan Sally Mckee memprediksi "tembok memori" pada 1995
    • Selama 20 tahun terakhir, FLOPS perangkat keras server meningkat 3x setiap 2 tahun, tetapi bandwidth DRAM dan interkoneksi masing-masing hanya meningkat 1,6x dan 1,4x
    • Dalam pelatihan dan inferensi LLM, bottleneck performa makin bergeser ke bandwidth memori
    • Khususnya pada model decoder Transformer autoregresif, bandwidth memori dapat menjadi bottleneck utama
    • Teknologi baru seperti compute-in-memory (CIM) atau processing-in-memory (PIM) makin dibutuhkan
    • CIM/PIM meningkatkan latensi dan konsumsi daya dengan menjalankan komputasi langsung di memori tanpa memindahkan data ke register CPU
    • Makalah tersebut memperkirakan performa pada proses 16nm untuk membandingkan perangkat keras ASIC dan FPGA di berbagai ukuran proses semikonduktor
    • Tidak ada estimasi untuk CIM/PIM, karena performanya tidak hanya bergantung pada teknologi proses
    • Informasi tambahan tersedia di tautan berikut
  • Ada preferensi pribadi terhadap systolic arrays

    • Setelah meninjau berbagai opsi selama beberapa dekade, dipilih Cartesian grid of cells sebagai solusi terbaik
    • Setiap sel memiliki 4 bit input dan 4 bit output, dengan register geser 64-bit di tengah
    • Dengan semacam sihir graph coloring, semua sel dapat di-clock agar data bisa mengalir ke arah mana pun
    • Memiliki fleksibilitas FPGA tanpa perlu mengkhawatirkan masalah timing atau race condition
    • Semua operasi berlangsung secara paralel
    • Ide ini sudah dimiliki sejak 1982, dan berharap ada seseorang yang mewujudkannya
    • Ide ini disebut BitGrid
    • Makalah terkait dapat dilihat di sini
  • Ingin melihat LLM di WebGL yang semuanya dibangun dari tekstur

    • Akan menarik untuk melihat perbedaan arsitektur secara visual
  • Menjelaskan keberhasilan LPU berbasis ASIC milik Groq

    • Inferensi LLM di Groq Cloud sangat cepat
    • Pengurangan konsumsi energi juga menjadi keunggulan
  • Perpindahan memori adalah bottleneck saat ini

    • Karena itu HBM yang mahal dibutuhkan
    • Desain Nvidia juga dioptimalkan untuk memori
  • Bertanya-tanya apakah arsitektur hibrida FPGA + ASIC + in-mem dapat berperan dalam skalabilitas/fleksibilitas

    • Ingin tahu apakah keunggulan masing-masing (misalnya fleksibilitas FPGA, performa ASIC, efisiensi energi in-memory) bisa digabungkan untuk lebih meningkatkan performa LLM
  • Ada makalah tentang LLM yang berjalan dengan daya setara bohlam lampu

  • Bertanya-tanya apakah ada cara untuk membaca konten di Arxiv dengan "baik"

    • Antarmuka situsnya terasa membingungkan, jadi sering pergi tanpa benar-benar melihat isinya
  • Bertanya-tanya apakah "in-memory" adalah perangkat keras khusus yang menggabungkan CPU dan RAM