12 poin oleh xguru 2025-03-02 | 1 komentar | Bagikan ke WhatsApp
  • Di penghujung Open Source Week, mereka secara mengejutkan merilis gambaran menyeluruh sistem hingga biaya operasional sebagai one more thing

Ikhtisar Sistem Inferensi DeepSeek-V3/R1

Prinsip desain sistem

  • Target optimasi sistem inferensi DeepSeek-V3/R1 adalah throughput lebih tinggi dan latensi lebih rendah
  • Untuk itu, sistem dioptimalkan dengan menerapkan cross-node Expert Parallelism (EP).
    • Peningkatan throughput: EP memperbesar ukuran batch untuk meningkatkan efisiensi operasi matriks GPU dan menaikkan throughput.
    • Penurunan latensi: Dengan mendistribusikan expert ke banyak GPU, beban akses memori pada tiap GPU berkurang sehingga latensi menurun.
  • Namun, EP meningkatkan kompleksitas sistem:
    • Memerlukan komunikasi cross-node: Komunikasi dan komputasi harus dijalankan secara tumpang tindih agar tidak terjadi bottleneck.
    • Menggunakan banyak node: Data Parallelism (DP) perlu diterapkan, dan load balancing antar-DP juga diperlukan.

Expert Parallelism (EP) cross-node skala besar

  • Model DeepSeek-V3/R1 hanya mengaktifkan 8 dari 256 expert di setiap layer, sehingga perluasan ukuran batch menjadi sangat penting
  • Perbedaan paralelisme antara tahap Prefill dan Decode:
    • Tahap Prefill: EP32, DP32 (4 node, setiap GPU menangani 9 expert)
    • Tahap Decode: EP144, DP144 (18 node, setiap GPU menangani 2 expert)

Tumpang tindih komputasi-komunikasi (Computation-Communication Overlapping)

  • Karena EP meningkatkan biaya komunikasi cross-node, DeepSeek menguranginya dengan strategi overlap dual-batch.
    • Tahap Prefill: Dua microbatch dijalankan secara berselang-seling sehingga komunikasi satu batch tersembunyi di balik komputasi batch lain.
    • Tahap Decode: Layer attention dibagi menjadi dua tahap dan menggunakan pipeline 5 tahap untuk memaksimalkan overlap komputasi-komunikasi.

Implementasi load balancing optimal

  • Untuk mencegah ketidakseimbangan antar-GPU dan memaksimalkan pemanfaatan resource, diterapkan tiga teknik load balancing.
    1. Load balancer Prefill
    • Masalah: Perbedaan jumlah request dan panjang sequence menyebabkan beban komputasi core-attention serta transfer data menjadi tidak seimbang.
    • Tujuan:
      • Menjaga keseimbangan beban komputasi core-attention antar-GPU.
      • Menyamakan jumlah token input per GPU.
    1. Load balancer Decode
    • Masalah: Perbedaan penggunaan KVCache membuat beban komputasi antar-GPU berbeda.
    • Tujuan:
      • Menjaga keseimbangan penggunaan KVCache antar-GPU.
      • Menyamakan jumlah request per GPU.
    1. Load balancer Expert-Parallel
    • Masalah: Beban pada expert tertentu tinggi sehingga menimbulkan ketidakseimbangan komputasi antar-GPU.
    • Tujuan:
      • Menjaga keseimbangan beban komputasi expert di setiap GPU.

Statistik sistem inferensi online DeepSeek

  • Layanan inferensi DeepSeek-V3/R1 berjalan di GPU H800 dan mempertahankan presisi komputasi yang sama seperti saat pelatihan
    • FP8: operasi matriks dan transfer data
    • BF16: operasi inti MLA dan transfer gabungan
  • Strategi operasi saat puncak dan malam hari
    • Pada siang hari beban layanan tinggi, dan pada malam hari beban menurun
    • Jam puncak: semua node digunakan untuk menjalankan layanan inferensi
    • Jam malam dengan beban rendah: sebagian node dialihkan untuk riset dan pelatihan agar penggunaan resource lebih efisien
  • Statistik operasi 24 jam (UTC+8, 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)
    • Total token input: 608B (di antaranya 342B atau 56.3% adalah cache hit KV)
    • Total token output: 168B (kecepatan output rata-rata 20~22 token/s)
    • Rata-rata panjang KVCache: 4,989 token per token output
    • Kecepatan pemrosesan per node H800:
      • Tahap Prefill: 73.7k token/s (termasuk cache hit)
      • Tahap Decode: 14.8k token/s

Analisis biaya operasional dan pendapatan: berdasarkan satu hari UTC+8 02/27/2025 12:00 PM to 02/28/2025 12:00 PM untuk V3 & R1

  • Penggunaan GPU: 278 node saat puncak, rata-rata 226.75 node (setiap node mencakup 8 GPU H800)
  • Biaya sewa GPU: $2/jam per GPU H800 → total biaya operasional harian: $87,072
  • Jika semua token diasumsikan ditagih, pendapatan harian teoretis: $562,027 → margin keuntungan 545%
    • (Harga token input/output R1: $0.14M(cache hit), $0.55M(cache miss), $2.19M)
  • Namun, pendapatan aktual lebih rendah:
    • Tarif DeepSeek-V3 jauh lebih rendah daripada R1
    • Hanya sebagian layanan yang dimonetisasi (penggunaan web dan aplikasi disediakan gratis)
    • Diskon otomatis diterapkan pada malam hari

5 proyek open source yang dirilis sebagai DeepSeek Open Infra diumumkan sebagai one more thing terakhir

1 komentar

 
sppappi 2025-03-03

Baru tanya 3 pertanyaan saja sudah langsung macet..