Meraih Kecepatan dan Python Sekaligus: Cara Menggunakan CUDA Graph untuk Menjalankan Kode Python Cepat saat Deep Learning

(discuss.pytorch.kr)

15 poin oleh ninebow 2023-09-10 | Belum ada komentar. | Bagikan ke WhatsApp

Dalam beberapa tahun terakhir, kecepatan GPU meningkat secara eksplosif, dan cara mengoptimalkan workload deep learning juga ikut berubah. Di PyTorch, fitur optimasi seperti torch.compile() juga terus ditambahkan, tetapi untuk sebagian workload termasuk LLM, peningkatannya masih berlangsung.

(Sambil menunggu peningkatan pada torch.compile()), saya menemukan tulisan yang memperkenalkan CUDA Graph sebagai metode optimasi yang bisa langsung diterapkan, lalu menerjemahkannya. (⚠️Perhatian: di bagian akhir tulisan terdapat sebagian promosi dari Fireworks.ai, perusahaan pengembang/penyedia platform inferensi LLM yang menulis artikel asli.)

Tulisan ini memperkenalkan CUDA Graph dengan urutan sebagai berikut:

Pengenalan terhadap metode optimasi yang sudah ada, yaitu overlap CPU/GPU
Bagian-bagian tempat CPU overhead terjadi
Berbagai teknik untuk mengoptimalkan CPU overhead serta CUDA Graph
Pengenalan kasus penerapan CUDA Graph pada model LLaMA2-7B
Pengenalan keuntungan performa dari CUDA Graph
Lampiran: masalah saat menggunakan torch.compile() pada saat ini (PyTorch 2.0.1) dan cara mengatasinya

Meraih Kecepatan dan Python Sekaligus: Cara Menggunakan CUDA Graph untuk Menjalankan Kode Python Cepat saat Deep Learning

Bacaan terkait

Belum ada komentar.