DeepSeek merilis open source DeepEP (2 dari 5)

(github.com/deepseek-ai)

3 poin oleh xguru 2025-02-25 | Belum ada komentar. | Bagikan ke WhatsApp

Library komunikasi berperforma tinggi untuk Mixture-of-Experts (MoE) dan Expert Parallelism (EP)
Menyediakan kernel All-to-All berbasis GPU untuk memproses operasi dispatch dan combine MoE dengan kecepatan tinggi
Mendukung komputasi presisi rendah seperti FP8
Menerapkan algoritme group-limited gating yang diusulkan dalam paper DeepSeek-V3 untuk mengoptimalkan forwarding bandwidth domain asimetris
- Contoh: optimasi transfer data NVLink → RDMA
- Menyediakan throughput tinggi yang cocok untuk pelatihan dan pekerjaan prefilling inferensi
Termasuk kernel latensi rendah khusus RDMA untuk decoding inferensi yang sensitif terhadap latensi
Menyediakan teknik overlap komunikasi-komputasi (tidak memakai resource SM)

Kinerja

DeepEP menguji kinerja di lingkungan GPU H800 dan jaringan RDMA CX7 InfiniBand 400Gb/s
Berdasarkan konfigurasi DeepSeek-V3/R1, digunakan struktur 4096 token per batch, 7168 hidden node, top-4 group, top-8 expert, serta dispatch FP8 dan combine BF16
Hasil uji menunjukkan komunikasi intra-node (berbasis NVLink) memiliki bandwidth sekitar 150GB/s atau lebih, sedangkan komunikasi antar-node (berbasis RDMA) mencatat bandwidth 40~47GB/s tergantung jumlah expert
Semakin banyak jumlah expert, bandwidth RDMA cenderung sedikit meningkat (misalnya 43GB/s saat 16 expert, 46GB/s saat 64 expert)

Hasil pengukuran menunjukkan latensi kernel latensi rendah berkurang signifikan dibanding kernel umum
Pada lingkungan yang memproses 128 token per batch, latensi meningkat sesuai jumlah expert, tetapi bandwidth RDMA relatif tetap stabil
Misalnya, naik dari 163 mikrodetik (us) saat 8 expert menjadi 194 mikrodetik (us) saat 256 expert
Pada operasi combine, latensi lebih tinggi dibanding dispatch, dan seiring bertambahnya jumlah expert bandwidth RDMA menunjukkan kecenderungan turun bertahap hingga di bawah 40GB/s
Artinya, kernel latensi rendah bekerja sangat cepat pada kelompok expert skala kecil, tetapi saat jumlah expert bertambah latensi ikut naik sehingga diperlukan keseimbangan yang tepat

Isolasi trafik dapat dilakukan dengan memanfaatkan Virtual Lanes (VL) pada InfiniBand
Metode pemisahan yang direkomendasikan:
- Pekerjaan yang menggunakan kernel umum
- Pekerjaan yang menggunakan kernel latensi rendah
- Pekerjaan lainnya
Pengaturan VL dapat dilakukan melalui variabel lingkungan NVSHMEM_IB_SL

Mendukung routing adaptif pada switch InfiniBand
Dapat diaktifkan pada kernel latensi rendah, tetapi harus dinonaktifkan pada kernel umum (jika diaktifkan ada risiko korupsi data)
Rekomendasi pengaturan:
- Saat beban jaringan tinggi: aktifkan routing adaptif
- Saat beban jaringan rendah: pertahankan routing statis

Menggunakan instruksi PTX tidak resmi: ld.global.nc.L1::no_allocate.L2::256B dimanfaatkan untuk optimasi kinerja
- Pada arsitektur Hopper ini bekerja normal, tetapi pada platform lain bisa dinonaktifkan dengan mengatur DISABLE_AGGRESSIVE_PTX_INSTRS=1
Auto-tuning direkomendasikan: untuk performa optimal, perlu dilakukan uji kinerja per klaster sebelum menerapkan pengaturan