5 poin oleh xguru 2025-02-24 | 2 komentar | Bagikan ke WhatsApp
  • Kernel decoding MLA yang efisien untuk GPU Hopper
  • Dioptimalkan untuk serving sequence dengan panjang bervariasi
  • Yang saat ini telah dirilis
    • BF16
    • Paged kvcache dengan ukuran blok 64
  • Benchmark: menggunakan CUDA 12.6 pada H800 SXM5, mencapai hingga 3000GB/s pada konfigurasi memory-bound dan 580 TFLOPS pada konfigurasi compute-bound
  • Terinspirasi dari FlashAttention 2&3 dan cutlass
  • Ini adalah yang pertama dari 5 open source yang dirilis sebagai DeepSeek Open Infra

2 komentar

 
GN⁺ 2025-02-25

Opini Hacker News

  • vLLM mulai mendukung MLA untuk model Deepseek sejak 3 minggu lalu. Ini memberikan throughput generasi 3x lebih tinggi dan kapasitas memori token 10x lebih besar
    • MHA masih lebih cepat di lingkungan QPS rendah
    • Menurut bukti teoretis, dengan overhead cache KV yang sama, MLA secara konsisten memberikan daya representasi yang lebih besar dibanding GQA
    • Model pra-pelatihan berbasis GQA yang banyak digunakan (LLaMA, Qwen, Mixtral, dll.) dapat dikonversi menjadi model berbasis MLA
    • Kemungkinan besar MLA akan menjadi standar
  • Jika Deepseek R1 menggunakan MHA standar, maka akan membutuhkan 1749KB per token untuk penyimpanan cache KV
    • Saat percakapan mencapai sekitar 46.000 token, cache KV akan melampaui seluruh kapasitas penyimpanan satu H100
    • Dengan MLA, setiap token mengonsumsi 125KB. Ini memungkinkan hingga sebelum melebihi sekitar 640.000 token (2x Ulysses)
  • Dukungan BF16, cache KV berpaginasi (ukuran blok 64), serta memory-bound 3000 GB/s dan compute-bound 580 TFLOPS pada H800
    • Banyak pengembang FANG mungkin akan menghemat banyak waktu berkat ini
    • Yang disayangkan, hanya mendukung forward pass. Rahasia sebenarnya ada pada backward pass
    • Saya penasaran bagaimana mereka mengimplementasikan scheduler dualpipe
  • MLA kemungkinan berarti Multi-head latent attention
  • Saya bingung, bukankah ada sanksi GPU Hopper untuk perusahaan China? Apakah mereka mengakui punya akses ke H100 meski ada sanksi AS?
  • Saya benar-benar berharap AI bisa menghadirkan kembali game Flash
  • Apa yang bisa dilakukan dengan ini?
  • Open AI kembali