DeepSeek merilis open source FlashMLA (1 dari 5)
(github.com/deepseek-ai)- Kernel decoding MLA yang efisien untuk GPU Hopper
- Dioptimalkan untuk serving sequence dengan panjang bervariasi
- Yang saat ini telah dirilis
- BF16
- Paged kvcache dengan ukuran blok 64
- Benchmark: menggunakan CUDA 12.6 pada H800 SXM5, mencapai hingga 3000GB/s pada konfigurasi memory-bound dan 580 TFLOPS pada konfigurasi compute-bound
- Terinspirasi dari FlashAttention 2&3 dan cutlass
- Ini adalah yang pertama dari 5 open source yang dirilis sebagai DeepSeek Open Infra
2 komentar
Opini Hacker News
FlashAttention-2: Attention yang lebih cepat dengan pemrosesan paralel dan pembagian kerja yang lebih baik
FlashAttention-3: Attention yang cepat dan akurat dengan asinkron serta presisi rendah