- Di penghujung Open Source Week, mereka secara mengejutkan merilis gambaran menyeluruh sistem hingga biaya operasional sebagai one more thing
Ikhtisar Sistem Inferensi DeepSeek-V3/R1
Prinsip desain sistem
- Target optimasi sistem inferensi DeepSeek-V3/R1 adalah throughput lebih tinggi dan latensi lebih rendah
- Untuk itu, sistem dioptimalkan dengan menerapkan cross-node Expert Parallelism (EP).
- Peningkatan throughput: EP memperbesar ukuran batch untuk meningkatkan efisiensi operasi matriks GPU dan menaikkan throughput.
- Penurunan latensi: Dengan mendistribusikan expert ke banyak GPU, beban akses memori pada tiap GPU berkurang sehingga latensi menurun.
- Namun, EP meningkatkan kompleksitas sistem:
- Memerlukan komunikasi cross-node: Komunikasi dan komputasi harus dijalankan secara tumpang tindih agar tidak terjadi bottleneck.
- Menggunakan banyak node: Data Parallelism (DP) perlu diterapkan, dan load balancing antar-DP juga diperlukan.
Expert Parallelism (EP) cross-node skala besar
- Model DeepSeek-V3/R1 hanya mengaktifkan 8 dari 256 expert di setiap layer, sehingga perluasan ukuran batch menjadi sangat penting
- Perbedaan paralelisme antara tahap Prefill dan Decode:
- Tahap Prefill: EP32, DP32 (4 node, setiap GPU menangani 9 expert)
- Tahap Decode: EP144, DP144 (18 node, setiap GPU menangani 2 expert)
Tumpang tindih komputasi-komunikasi (Computation-Communication Overlapping)
- Karena EP meningkatkan biaya komunikasi cross-node, DeepSeek menguranginya dengan strategi overlap dual-batch.
- Tahap Prefill: Dua microbatch dijalankan secara berselang-seling sehingga komunikasi satu batch tersembunyi di balik komputasi batch lain.
- Tahap Decode: Layer attention dibagi menjadi dua tahap dan menggunakan pipeline 5 tahap untuk memaksimalkan overlap komputasi-komunikasi.
Implementasi load balancing optimal
- Untuk mencegah ketidakseimbangan antar-GPU dan memaksimalkan pemanfaatan resource, diterapkan tiga teknik load balancing.
-
- Load balancer Prefill
- Masalah: Perbedaan jumlah request dan panjang sequence menyebabkan beban komputasi core-attention serta transfer data menjadi tidak seimbang.
- Tujuan:
- Menjaga keseimbangan beban komputasi core-attention antar-GPU.
- Menyamakan jumlah token input per GPU.
-
- Load balancer Decode
- Masalah: Perbedaan penggunaan KVCache membuat beban komputasi antar-GPU berbeda.
- Tujuan:
- Menjaga keseimbangan penggunaan KVCache antar-GPU.
- Menyamakan jumlah request per GPU.
-
- Load balancer Expert-Parallel
- Masalah: Beban pada expert tertentu tinggi sehingga menimbulkan ketidakseimbangan komputasi antar-GPU.
- Tujuan:
- Menjaga keseimbangan beban komputasi expert di setiap GPU.
Statistik sistem inferensi online DeepSeek
- Layanan inferensi DeepSeek-V3/R1 berjalan di GPU H800 dan mempertahankan presisi komputasi yang sama seperti saat pelatihan
- FP8: operasi matriks dan transfer data
- BF16: operasi inti MLA dan transfer gabungan
- Strategi operasi saat puncak dan malam hari
- Pada siang hari beban layanan tinggi, dan pada malam hari beban menurun
- Jam puncak: semua node digunakan untuk menjalankan layanan inferensi
- Jam malam dengan beban rendah: sebagian node dialihkan untuk riset dan pelatihan agar penggunaan resource lebih efisien
- Statistik operasi 24 jam (UTC+8, 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)
- Total token input: 608B (di antaranya 342B atau 56.3% adalah cache hit KV)
- Total token output: 168B (kecepatan output rata-rata 20~22 token/s)
- Rata-rata panjang KVCache: 4,989 token per token output
- Kecepatan pemrosesan per node H800:
- Tahap Prefill: 73.7k token/s (termasuk cache hit)
- Tahap Decode: 14.8k token/s
Analisis biaya operasional dan pendapatan: berdasarkan satu hari UTC+8 02/27/2025 12:00 PM to 02/28/2025 12:00 PM untuk V3 & R1
- Penggunaan GPU: 278 node saat puncak, rata-rata 226.75 node (setiap node mencakup 8 GPU H800)
- Biaya sewa GPU: $2/jam per GPU H800 → total biaya operasional harian: $87,072
- Jika semua token diasumsikan ditagih, pendapatan harian teoretis: $562,027 → margin keuntungan 545%
- (Harga token input/output R1: $0.14M(cache hit), $0.55M(cache miss), $2.19M)
- Namun, pendapatan aktual lebih rendah:
- Tarif DeepSeek-V3 jauh lebih rendah daripada R1
- Hanya sebagian layanan yang dimonetisasi (penggunaan web dan aplikasi disediakan gratis)
- Diskon otomatis diterapkan pada malam hari
1 komentar
Baru tanya 3 pertanyaan saja sudah langsung macet..