pendapatan

(github.com/deepseek-ai)

12 poin oleh xguru 2025-03-02 | 1 komentar | Bagikan ke WhatsApp

Di penghujung Open Source Week, mereka secara mengejutkan merilis gambaran menyeluruh sistem hingga biaya operasional sebagai one more thing

Ikhtisar Sistem Inferensi DeepSeek-V3/R1

Target optimasi sistem inferensi DeepSeek-V3/R1 adalah throughput lebih tinggi dan latensi lebih rendah
Untuk itu, sistem dioptimalkan dengan menerapkan cross-node Expert Parallelism (EP).
- Peningkatan throughput: EP memperbesar ukuran batch untuk meningkatkan efisiensi operasi matriks GPU dan menaikkan throughput.
- Penurunan latensi: Dengan mendistribusikan expert ke banyak GPU, beban akses memori pada tiap GPU berkurang sehingga latensi menurun.
Namun, EP meningkatkan kompleksitas sistem:
- Memerlukan komunikasi cross-node: Komunikasi dan komputasi harus dijalankan secara tumpang tindih agar tidak terjadi bottleneck.
- Menggunakan banyak node: Data Parallelism (DP) perlu diterapkan, dan load balancing antar-DP juga diperlukan.

Model DeepSeek-V3/R1 hanya mengaktifkan 8 dari 256 expert di setiap layer, sehingga perluasan ukuran batch menjadi sangat penting
Perbedaan paralelisme antara tahap Prefill dan Decode:
- Tahap Prefill: EP32, DP32 (4 node, setiap GPU menangani 9 expert)
- Tahap Decode: EP144, DP144 (18 node, setiap GPU menangani 2 expert)

Karena EP meningkatkan biaya komunikasi cross-node, DeepSeek menguranginya dengan strategi overlap dual-batch.
- Tahap Prefill: Dua microbatch dijalankan secara berselang-seling sehingga komunikasi satu batch tersembunyi di balik komputasi batch lain.
- Tahap Decode: Layer attention dibagi menjadi dua tahap dan menggunakan pipeline 5 tahap untuk memaksimalkan overlap komputasi-komunikasi.

Untuk mencegah ketidakseimbangan antar-GPU dan memaksimalkan pemanfaatan resource, diterapkan tiga teknik load balancing.
1. Load balancer Prefill
- Masalah: Perbedaan jumlah request dan panjang sequence menyebabkan beban komputasi core-attention serta transfer data menjadi tidak seimbang.
- Tujuan:
  - Menjaga keseimbangan beban komputasi core-attention antar-GPU.
  - Menyamakan jumlah token input per GPU.
1. Load balancer Decode
- Masalah: Perbedaan penggunaan KVCache membuat beban komputasi antar-GPU berbeda.
- Tujuan:
  - Menjaga keseimbangan penggunaan KVCache antar-GPU.
  - Menyamakan jumlah request per GPU.
1. Load balancer Expert-Parallel
- Masalah: Beban pada expert tertentu tinggi sehingga menimbulkan ketidakseimbangan komputasi antar-GPU.
- Tujuan:
  - Menjaga keseimbangan beban komputasi expert di setiap GPU.

Layanan inferensi DeepSeek-V3/R1 berjalan di GPU H800 dan mempertahankan presisi komputasi yang sama seperti saat pelatihan
- FP8: operasi matriks dan transfer data
- BF16: operasi inti MLA dan transfer gabungan
Strategi operasi saat puncak dan malam hari
- Pada siang hari beban layanan tinggi, dan pada malam hari beban menurun
- Jam puncak: semua node digunakan untuk menjalankan layanan inferensi
- Jam malam dengan beban rendah: sebagian node dialihkan untuk riset dan pelatihan agar penggunaan resource lebih efisien
Statistik operasi 24 jam (UTC+8, 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)
- Total token input: 608B (di antaranya 342B atau 56.3% adalah cache hit KV)
- Total token output: 168B (kecepatan output rata-rata 20~22 token/s)
- Rata-rata panjang KVCache: 4,989 token per token output
- Kecepatan pemrosesan per node H800:
  - Tahap Prefill: 73.7k token/s (termasuk cache hit)
  - Tahap Decode: 14.8k token/s

Penggunaan GPU: 278 node saat puncak, rata-rata 226.75 node (setiap node mencakup 8 GPU H800)
Biaya sewa GPU: $2/jam per GPU H800 → total biaya operasional harian: $87,072
Jika semua token diasumsikan ditagih, pendapatan harian teoretis: $562,027 → margin keuntungan 545%
- (Harga token input/output R1: $0.14M(cache hit), $0.55M(cache miss), $2.19M)
Namun, pendapatan aktual lebih rendah:
- Tarif DeepSeek-V3 jauh lebih rendah daripada R1
- Hanya sebagian layanan yang dimonetisasi (penggunaan web dan aplikasi disediakan gratis)
- Diskon otomatis diterapkan pada malam hari

sppappi 2025-03-03

Baru tanya 3 pertanyaan saja sudah langsung macet..