- Tim AI DeepSeek berupaya melampaui batas dalam eksplorasi AGI
- Mulai minggu depan, mereka berencana merilis 5 repositori sebagai open source, sebagai cara untuk membagikan kemajuan kecil mereka sebagai developer secara transparan
- Ini adalah komponen dasar dari layanan online mereka, berupa kode yang telah didokumentasikan, di-deploy, dan diuji di lingkungan nyata
- Kode baru akan dirilis setiap hari untuk mendorong inovasi yang digerakkan komunitas
- Kernel decoding MLA yang efisien untuk GPU Hopper
- Dioptimalkan untuk serving sequence dengan panjang bervariasi
- Yang saat ini telah dirilis
- BF16
- Paged kvcache dengan ukuran blok 64
- Benchmark: menggunakan CUDA 12.6, mencapai hingga 3000GB/s pada konfigurasi memory-bound dan 580 TFLOPS pada konfigurasi compute-bound di H800 SXM5
- Library komunikasi berperforma tinggi untuk Mixture-of-Experts(MoE) dan Expert Parallelism(EP)
- Menyediakan kernel All-to-All berbasis GPU untuk memproses operasi dispatch dan combine MoE dengan cepat
- Mendukung komputasi presisi rendah seperti FP8
- Menerapkan algoritma group-limited gating yang diusulkan dalam paper DeepSeek-V3 untuk mengoptimalkan forwarding bandwidth domain asimetris
- Contoh: optimasi transfer data NVLink → RDMA
- Memberikan throughput tinggi yang cocok untuk pekerjaan training dan inference prefilling
- Menyertakan kernel latensi rendah khusus RDMA untuk inference decoding yang sensitif terhadap latensi
- Menyediakan teknik overlap komunikasi-komputasi (tanpa menggunakan resource SM)
- Library untuk menjalankan perkalian matriks FP8 (GEMM) secara efisien, serta mendukung metode fine-grained scaling yang diusulkan di DeepSeek-V3
- Mendukung baik GEMM umum maupun grouped GEMM Mix-of-Experts(MoE)
- Diimplementasikan berbasis CUDA, dan saat instalasi mengompilasi kernel pada runtime menggunakan modul Just-In-Time(JIT) ringan tanpa kompilasi terpisah
- Saat ini hanya mendukung NVIDIA Hopper Tensor Core
- Menggunakan akumulasi ganda (promotion) berbasis CUDA core untuk mengompensasi akumulasi yang tidak akurat pada FP8 Tensor Core
- Memanfaatkan sebagian konsep dari CUTLASS dan CuTe, tetapi dengan desain sederhana yang mengurangi ketergantungan template yang kompleks sehingga hanya berisi sekitar 300 baris kode kernel
- Cocok untuk mempelajari operasi matriks dan teknik optimasi Hopper FP8
- Meski desainnya ringan, pada berbagai ukuran matriks ia menunjukkan performa yang setara atau lebih baik dibanding library yang dituning di tingkat ahli
- Strategi dan kode yang digunakan di DeepSeek V3/R1
- DualPipe: algoritma paralelisasi pipeline dua arah untuk overlap komputasi-komunikasi
- EPLB: load balancer Expert-Parallel
- Profile-Data: profiling data infrastruktur DeepSeek untuk menganalisis overlap komputasi-komunikasi
- Fire-Flyer File System(3FS) adalah sistem file terdistribusi berperforma tinggi yang dirancang untuk menangani workload training dan inference AI
- Memanfaatkan SSD terbaru dan jaringan RDMA untuk menyediakan lapisan shared storage, sekaligus menyederhanakan pengembangan aplikasi terdistribusi
- Fitur dan keunggulan utama
- Performa dan kemudahan penggunaan
- Arsitektur terpisah: menggabungkan ribuan SSD dan bandwidth jaringan dari ratusan node storage agar resource storage dapat diakses tanpa bergantung pada lokalitas
- Jaminan konsistensi kuat: menggunakan Chain Replication with Apportioned Queries(CRAQ) untuk menjaga konsistensi, sehingga menyederhanakan kode aplikasi
- Dukungan antarmuka file: menyediakan layanan metadata stateless yang memanfaatkan transactional key-value store berbasis FoundationDB. Karena menggunakan antarmuka file yang sudah ada, tidak perlu mempelajari API storage baru
- Mendukung berbagai workload
- Persiapan data: mengatur output pipeline analisis data dalam struktur direktori hierarkis, dan mengelola output antara dalam jumlah besar secara efisien
- Optimasi data loader: memungkinkan akses acak ke sampel training dari banyak compute node tanpa perlu preload atau shuffle dataset
- Penyimpanan checkpoint: mendukung penyimpanan checkpoint paralel berkecepatan tinggi untuk training skala besar
- Optimasi inference berbasis KVCache: lebih hemat biaya daripada caching berbasis DRAM, sekaligus menawarkan throughput tinggi dan kapasitas penyimpanan besar
- SmallPond - framework pemrosesan data ringan yang dibangun di atas DuckDB dan 3FS
- Memiliki karakteristik pemrosesan data berperforma tinggi, skalabilitas besar, dan operasional sederhana
- Pemrosesan data berperforma tinggi: memanfaatkan DuckDB untuk pemrosesan data yang cepat
- Dukungan dataset skala besar: mampu memproses data skala petabyte(PB)
- Operasional sederhana: mudah digunakan tanpa layanan yang berjalan jangka panjang
- Prinsip desain sistem: target optimasi sistem inferensi DeepSeek-V3/R1 adalah throughput lebih tinggi dan latensi lebih rendah
- Untuk itu diterapkan optimasi dengan cross-node Expert Parallelism(EP)
- Biaya operasional DeepSeek
- Rata-rata 226 node GPU (8 GPU H800 per node)
- Biaya operasional per hari: $87,072 (1.27 eok won) - $2/jam per H800
- Secara teoritis pendapatan per hari (berdasarkan R1): $562027 (8.2 eok won) → margin keuntungan 545%
- Namun, pendapatan aktual lebih rendah (karena V3 lebih murah daripada R1, dan hanya sebagian layanan yang dimonetisasi)
Paper infrastruktur AI 2024 (SC24)
Fire-Flyer AI-HPC: ko-desain software-hardware yang hemat biaya untuk deep learning
- Karena kemajuan pesat deep learning(DL) dan large language model(LLM), kebutuhan terhadap performa komputasi dan bandwidth meningkat secara eksponensial
- Biaya membangun high-performance computing(HPC) meningkat tajam akibat mahalnya chip komputasi cepat dan interkoneksi berkecepatan tinggi
- Untuk mengatasinya, diperkenalkan arsitektur Fire-Flyer AI-HPC yang mencapai optimasi biaya dan performa melalui desain kolaboratif hardware-software
- Membangun sistem Fire-Flyer 2 yang memanfaatkan 10.000 GPU PCIe A100 untuk menjalankan training DL
- Memberikan performa setara DGX-A100 sambil memangkas biaya hingga setengah dan menurunkan konsumsi energi sebesar 40%
- Elemen optimasi performa
- HFReduce : mempercepat komunikasi Allreduce untuk meningkatkan kecepatan sinkronisasi data antar-GPU
- Computation-Storage Integrated Network : menerapkan berbagai teknik manajemen kemacetan untuk mencegah bottleneck jaringan
- Software stack : melalui HaiScale, 3FS, HAI-Platform, komputasi dan komunikasi dijalankan secara tumpang tindih untuk memaksimalkan skalabilitas
2 komentar
DeepSeek benar-benar terus membuat langkah yang sangat menarik. Saya penasaran apa saja yang akan dibuka ke publik.
Komentar Hacker News
Penasaran apakah saya satu-satunya orang yang menantikan rilis DeepSeek tanpa terlalu banyak menganalisisnya. Thread ini terasa penuh dengan tafsiran pribadi
Mulai minggu depan mereka akan meng-open-source-kan 5 repo. Akan dirilis satu per hari
Rasa hormat yang mendalam untuk inovasi dan riset DeepSeek. Untuk semua yang telah mereka buka
Faktanya mereka sedang benar-benar membongkar OpenAI. Mungkin terlepas dari niat mereka
Menarik melihat di mana letak moat dalam bidang AI. Model dasar yang bagus pada akhirnya selalu bisa didistilasi ketika ada akses ke API. System prompt bisa bocor, trik UI bisa disalin. Pada akhirnya, moat mungkin ada pada hardware dan integrasi vertikal
Bisakah DeepSeek dan OpenAI saling menukar nama?
Meng-open-source-kan alat infrastruktur benar-benar bisa mempercepat inovasi di bidang AI. Akses ke repo yang terdokumentasi dengan baik membuat eksperimen dan membangun di atas pekerjaan yang ada menjadi jauh lebih mudah
Saya penasaran bagaimana valuasi perusahaan model fondasi yang sudah dengan tegas di-open-source-kan oleh Facebook dan DeepSeek bisa tetap bersaing. Membangun model-model ini tampaknya tidak akan menciptakan nilai ratusan miliar dolar ketika China dan Facebook pada dasarnya memberikannya secara gratis