DeepSeek merilis open source FlashMLA (1 dari 5)

xguru · 2025-02-24T15:14:21+09:00

Kernel decoding MLA yang efisien untuk GPU Hopper Dioptimalkan untuk serving sequence dengan panjang bervariasi Yang saat ini telah dirilis BF16 Paged kvcache dengan ukuran blok 64 Benchmark: menggunakan CUDA 12.6 pada H800 SXM5, mencapai hingga 3000GB/s pada konfigurasi memory-bound dan 580 TFLOPS pada konfigurasi compute-bound Terinspirasi dari FlashAttention 2&3 dan cutlass Ini adalah yang pertama dari 5 open source yang dirilis sebagai DeepSeek Open Infra

(github.com/deepseek-ai)

5 poin oleh xguru 2025-02-24 | 2 komentar | Bagikan ke WhatsApp

Kernel decoding MLA yang efisien untuk GPU Hopper
Dioptimalkan untuk serving sequence dengan panjang bervariasi
Yang saat ini telah dirilis
- BF16
- Paged kvcache dengan ukuran blok 64
Benchmark: menggunakan CUDA 12.6 pada H800 SXM5, mencapai hingga 3000GB/s pada konfigurasi memory-bound dan 580 TFLOPS pada konfigurasi compute-bound
Terinspirasi dari FlashAttention 2&3 dan cutlass
Ini adalah yang pertama dari 5 open source yang dirilis sebagai DeepSeek Open Infra

2 komentar

GN⁺ 2025-02-25

Opini Hacker News

vLLM mulai mendukung MLA untuk model Deepseek sejak 3 minggu lalu. Ini memberikan throughput generasi 3x lebih tinggi dan kapasitas memori token 10x lebih besar
- MHA masih lebih cepat di lingkungan QPS rendah
- Menurut bukti teoretis, dengan overhead cache KV yang sama, MLA secara konsisten memberikan daya representasi yang lebih besar dibanding GQA
- Model pra-pelatihan berbasis GQA yang banyak digunakan (LLaMA, Qwen, Mixtral, dll.) dapat dikonversi menjadi model berbasis MLA
- Kemungkinan besar MLA akan menjadi standar
Jika Deepseek R1 menggunakan MHA standar, maka akan membutuhkan 1749KB per token untuk penyimpanan cache KV
- Saat percakapan mencapai sekitar 46.000 token, cache KV akan melampaui seluruh kapasitas penyimpanan satu H100
- Dengan MLA, setiap token mengonsumsi 125KB. Ini memungkinkan hingga sebelum melebihi sekitar 640.000 token (2x Ulysses)
Dukungan BF16, cache KV berpaginasi (ukuran blok 64), serta memory-bound 3000 GB/s dan compute-bound 580 TFLOPS pada H800
- Banyak pengembang FANG mungkin akan menghemat banyak waktu berkat ini
- Yang disayangkan, hanya mendukung forward pass. Rahasia sebenarnya ada pada backward pass
- Saya penasaran bagaimana mereka mengimplementasikan scheduler dualpipe
MLA kemungkinan berarti Multi-head latent attention
Saya bingung, bukankah ada sanksi GPU Hopper untuk perusahaan China? Apakah mereka mengakui punya akses ke H100 meski ada sanksi AS?
Saya benar-benar berharap AI bisa menghadirkan kembali game Flash
Apa yang bisa dilakukan dengan ini?
Open AI kembali

xguru 2025-02-24

FlashAttention-2: Attention yang lebih cepat dengan pemrosesan paralel dan pembagian kerja yang lebih baik
FlashAttention-3: Attention yang cepat dan akurat dengan asinkron serta presisi rendah

DeepSeek merilis open source FlashMLA (1 dari 5)

Bacaan terkait

2 komentar

Opini Hacker News