3 poin oleh xguru 2025-02-25 | Belum ada komentar. | Bagikan ke WhatsApp
  • Library komunikasi berperforma tinggi untuk Mixture-of-Experts (MoE) dan Expert Parallelism (EP)
  • Menyediakan kernel All-to-All berbasis GPU untuk memproses operasi dispatch dan combine MoE dengan kecepatan tinggi
  • Mendukung komputasi presisi rendah seperti FP8
  • Menerapkan algoritme group-limited gating yang diusulkan dalam paper DeepSeek-V3 untuk mengoptimalkan forwarding bandwidth domain asimetris
    • Contoh: optimasi transfer data NVLink → RDMA
    • Menyediakan throughput tinggi yang cocok untuk pelatihan dan pekerjaan prefilling inferensi
  • Termasuk kernel latensi rendah khusus RDMA untuk decoding inferensi yang sensitif terhadap latensi
  • Menyediakan teknik overlap komunikasi-komputasi (tidak memakai resource SM)

Kinerja

Kernel umum (transfer NVLink dan RDMA)

  • DeepEP menguji kinerja di lingkungan GPU H800 dan jaringan RDMA CX7 InfiniBand 400Gb/s
  • Berdasarkan konfigurasi DeepSeek-V3/R1, digunakan struktur 4096 token per batch, 7168 hidden node, top-4 group, top-8 expert, serta dispatch FP8 dan combine BF16
  • Hasil uji menunjukkan komunikasi intra-node (berbasis NVLink) memiliki bandwidth sekitar 150GB/s atau lebih, sedangkan komunikasi antar-node (berbasis RDMA) mencatat bandwidth 40~47GB/s tergantung jumlah expert
  • Semakin banyak jumlah expert, bandwidth RDMA cenderung sedikit meningkat (misalnya 43GB/s saat 16 expert, 46GB/s saat 64 expert)

Kernel latensi rendah (RDMA murni)

  • Hasil pengukuran menunjukkan latensi kernel latensi rendah berkurang signifikan dibanding kernel umum
  • Pada lingkungan yang memproses 128 token per batch, latensi meningkat sesuai jumlah expert, tetapi bandwidth RDMA relatif tetap stabil
  • Misalnya, naik dari 163 mikrodetik (us) saat 8 expert menjadi 194 mikrodetik (us) saat 256 expert
  • Pada operasi combine, latensi lebih tinggi dibanding dispatch, dan seiring bertambahnya jumlah expert bandwidth RDMA menunjukkan kecenderungan turun bertahap hingga di bawah 40GB/s
  • Artinya, kernel latensi rendah bekerja sangat cepat pada kelompok expert skala kecil, tetapi saat jumlah expert bertambah latensi ikut naik sehingga diperlukan keseimbangan yang tepat

Konfigurasi jaringan

Isolasi trafik (Traffic Isolation)

  • Isolasi trafik dapat dilakukan dengan memanfaatkan Virtual Lanes (VL) pada InfiniBand
  • Metode pemisahan yang direkomendasikan:
    • Pekerjaan yang menggunakan kernel umum
    • Pekerjaan yang menggunakan kernel latensi rendah
    • Pekerjaan lainnya
  • Pengaturan VL dapat dilakukan melalui variabel lingkungan NVSHMEM_IB_SL

Routing adaptif (Adaptive Routing)

  • Mendukung routing adaptif pada switch InfiniBand
  • Dapat diaktifkan pada kernel latensi rendah, tetapi harus dinonaktifkan pada kernel umum (jika diaktifkan ada risiko korupsi data)
  • Rekomendasi pengaturan:
    • Saat beban jaringan tinggi: aktifkan routing adaptif
    • Saat beban jaringan rendah: pertahankan routing statis

Pengendalian kemacetan (Congestion Control)

  • DeepEP beroperasi dengan fitur pengendalian kemacetan dinonaktifkan
  • Dikonfirmasi bahwa kemacetan jaringan tidak parah di lingkungan nyata

Pertimbangan teknis utama

  • Menggunakan instruksi PTX tidak resmi: ld.global.nc.L1::no_allocate.L2::256B dimanfaatkan untuk optimasi kinerja
    • Pada arsitektur Hopper ini bekerja normal, tetapi pada platform lain bisa dinonaktifkan dengan mengatur DISABLE_AGGRESSIVE_PTX_INSTRS=1
  • Auto-tuning direkomendasikan: untuk performa optimal, perlu dilakukan uji kinerja per klaster sebelum menerapkan pengaturan

Entri kedua dari 5 proyek open source yang dirilis melalui DeepSeek Open Infra

Belum ada komentar.

Belum ada komentar.