15 poin oleh ninebow 2023-09-10 | Belum ada komentar. | Bagikan ke WhatsApp

Dalam beberapa tahun terakhir, kecepatan GPU meningkat secara eksplosif, dan cara mengoptimalkan workload deep learning juga ikut berubah. Di PyTorch, fitur optimasi seperti torch.compile() juga terus ditambahkan, tetapi untuk sebagian workload termasuk LLM, peningkatannya masih berlangsung.

(Sambil menunggu peningkatan pada torch.compile()), saya menemukan tulisan yang memperkenalkan CUDA Graph sebagai metode optimasi yang bisa langsung diterapkan, lalu menerjemahkannya. (⚠️Perhatian: di bagian akhir tulisan terdapat sebagian promosi dari Fireworks.ai, perusahaan pengembang/penyedia platform inferensi LLM yang menulis artikel asli.)

Tulisan ini memperkenalkan CUDA Graph dengan urutan sebagai berikut:

  • Pengenalan terhadap metode optimasi yang sudah ada, yaitu overlap CPU/GPU

  • Bagian-bagian tempat CPU overhead terjadi

  • Berbagai teknik untuk mengoptimalkan CPU overhead serta CUDA Graph

  • Pengenalan kasus penerapan CUDA Graph pada model LLaMA2-7B

  • Pengenalan keuntungan performa dari CUDA Graph

  • Lampiran: masalah saat menggunakan torch.compile() pada saat ini (PyTorch 2.0.1) dan cara mengatasinya

Belum ada komentar.

Belum ada komentar.