- Library komunikasi berperforma tinggi untuk Mixture-of-Experts (MoE) dan Expert Parallelism (EP)
- Menyediakan kernel All-to-All berbasis GPU untuk memproses operasi dispatch dan combine MoE dengan kecepatan tinggi
- Mendukung komputasi presisi rendah seperti FP8
- Menerapkan algoritme group-limited gating yang diusulkan dalam paper DeepSeek-V3 untuk mengoptimalkan forwarding bandwidth domain asimetris
- Contoh: optimasi transfer data NVLink → RDMA
- Menyediakan throughput tinggi yang cocok untuk pelatihan dan pekerjaan prefilling inferensi
- Termasuk kernel latensi rendah khusus RDMA untuk decoding inferensi yang sensitif terhadap latensi
- Menyediakan teknik overlap komunikasi-komputasi (tidak memakai resource SM)
Kinerja
Kernel umum (transfer NVLink dan RDMA)
- DeepEP menguji kinerja di lingkungan GPU H800 dan jaringan RDMA CX7 InfiniBand 400Gb/s
- Berdasarkan konfigurasi DeepSeek-V3/R1, digunakan struktur 4096 token per batch, 7168 hidden node, top-4 group, top-8 expert, serta dispatch FP8 dan combine BF16
- Hasil uji menunjukkan komunikasi intra-node (berbasis NVLink) memiliki bandwidth sekitar 150GB/s atau lebih, sedangkan komunikasi antar-node (berbasis RDMA) mencatat bandwidth 40~47GB/s tergantung jumlah expert
- Semakin banyak jumlah expert, bandwidth RDMA cenderung sedikit meningkat (misalnya 43GB/s saat 16 expert, 46GB/s saat 64 expert)
Kernel latensi rendah (RDMA murni)
- Hasil pengukuran menunjukkan latensi kernel latensi rendah berkurang signifikan dibanding kernel umum
- Pada lingkungan yang memproses 128 token per batch, latensi meningkat sesuai jumlah expert, tetapi bandwidth RDMA relatif tetap stabil
- Misalnya, naik dari 163 mikrodetik (us) saat 8 expert menjadi 194 mikrodetik (us) saat 256 expert
- Pada operasi combine, latensi lebih tinggi dibanding dispatch, dan seiring bertambahnya jumlah expert bandwidth RDMA menunjukkan kecenderungan turun bertahap hingga di bawah 40GB/s
- Artinya, kernel latensi rendah bekerja sangat cepat pada kelompok expert skala kecil, tetapi saat jumlah expert bertambah latensi ikut naik sehingga diperlukan keseimbangan yang tepat
Konfigurasi jaringan
Isolasi trafik (Traffic Isolation)
- Isolasi trafik dapat dilakukan dengan memanfaatkan Virtual Lanes (VL) pada InfiniBand
- Metode pemisahan yang direkomendasikan:
- Pekerjaan yang menggunakan kernel umum
- Pekerjaan yang menggunakan kernel latensi rendah
- Pekerjaan lainnya
- Pengaturan VL dapat dilakukan melalui variabel lingkungan
NVSHMEM_IB_SL
Routing adaptif (Adaptive Routing)
- Mendukung routing adaptif pada switch InfiniBand
- Dapat diaktifkan pada kernel latensi rendah, tetapi harus dinonaktifkan pada kernel umum (jika diaktifkan ada risiko korupsi data)
- Rekomendasi pengaturan:
- Saat beban jaringan tinggi: aktifkan routing adaptif
- Saat beban jaringan rendah: pertahankan routing statis
Pengendalian kemacetan (Congestion Control)
- DeepEP beroperasi dengan fitur pengendalian kemacetan dinonaktifkan
- Dikonfirmasi bahwa kemacetan jaringan tidak parah di lingkungan nyata
Pertimbangan teknis utama
- Menggunakan instruksi PTX tidak resmi:
ld.global.nc.L1::no_allocate.L2::256B dimanfaatkan untuk optimasi kinerja
- Pada arsitektur Hopper ini bekerja normal, tetapi pada platform lain bisa dinonaktifkan dengan mengatur
DISABLE_AGGRESSIVE_PTX_INSTRS=1
- Auto-tuning direkomendasikan: untuk performa optimal, perlu dilakukan uji kinerja per klaster sebelum menerapkan pengaturan
Belum ada komentar.