9 poin oleh GN⁺ 2025-02-22 | 2 komentar | Bagikan ke WhatsApp
  • Tim AI DeepSeek berupaya melampaui batas dalam eksplorasi AGI
  • Mulai minggu depan, mereka berencana merilis 5 repositori sebagai open source, sebagai cara untuk membagikan kemajuan kecil mereka sebagai developer secara transparan
  • Ini adalah komponen dasar dari layanan online mereka, berupa kode yang telah didokumentasikan, di-deploy, dan diuji di lingkungan nyata
  • Kode baru akan dirilis setiap hari untuk mendorong inovasi yang digerakkan komunitas

Day 1: FlashMLA

  • Kernel decoding MLA yang efisien untuk GPU Hopper
  • Dioptimalkan untuk serving sequence dengan panjang bervariasi
  • Yang saat ini telah dirilis
    • BF16
    • Paged kvcache dengan ukuran blok 64
  • Benchmark: menggunakan CUDA 12.6, mencapai hingga 3000GB/s pada konfigurasi memory-bound dan 580 TFLOPS pada konfigurasi compute-bound di H800 SXM5

Day 2: DeepEP

  • Library komunikasi berperforma tinggi untuk Mixture-of-Experts(MoE) dan Expert Parallelism(EP)
  • Menyediakan kernel All-to-All berbasis GPU untuk memproses operasi dispatch dan combine MoE dengan cepat
  • Mendukung komputasi presisi rendah seperti FP8
  • Menerapkan algoritma group-limited gating yang diusulkan dalam paper DeepSeek-V3 untuk mengoptimalkan forwarding bandwidth domain asimetris
    • Contoh: optimasi transfer data NVLink → RDMA
    • Memberikan throughput tinggi yang cocok untuk pekerjaan training dan inference prefilling
  • Menyertakan kernel latensi rendah khusus RDMA untuk inference decoding yang sensitif terhadap latensi
  • Menyediakan teknik overlap komunikasi-komputasi (tanpa menggunakan resource SM)

Day 3: DeepGEMM

  • Library untuk menjalankan perkalian matriks FP8 (GEMM) secara efisien, serta mendukung metode fine-grained scaling yang diusulkan di DeepSeek-V3
  • Mendukung baik GEMM umum maupun grouped GEMM Mix-of-Experts(MoE)
  • Diimplementasikan berbasis CUDA, dan saat instalasi mengompilasi kernel pada runtime menggunakan modul Just-In-Time(JIT) ringan tanpa kompilasi terpisah
  • Saat ini hanya mendukung NVIDIA Hopper Tensor Core
  • Menggunakan akumulasi ganda (promotion) berbasis CUDA core untuk mengompensasi akumulasi yang tidak akurat pada FP8 Tensor Core
  • Memanfaatkan sebagian konsep dari CUTLASS dan CuTe, tetapi dengan desain sederhana yang mengurangi ketergantungan template yang kompleks sehingga hanya berisi sekitar 300 baris kode kernel
  • Cocok untuk mempelajari operasi matriks dan teknik optimasi Hopper FP8
  • Meski desainnya ringan, pada berbagai ukuran matriks ia menunjukkan performa yang setara atau lebih baik dibanding library yang dituning di tingkat ahli

Day 4: Strategi pemrosesan paralel yang dioptimalkan: DualPipe, EPLB, Profile-Data

  • Strategi dan kode yang digunakan di DeepSeek V3/R1
    • DualPipe: algoritma paralelisasi pipeline dua arah untuk overlap komputasi-komunikasi
    • EPLB: load balancer Expert-Parallel
    • Profile-Data: profiling data infrastruktur DeepSeek untuk menganalisis overlap komputasi-komunikasi

Day 5: Sistem file 3FS dan framework pemrosesan data Smallpond

  • Fire-Flyer File System(3FS) adalah sistem file terdistribusi berperforma tinggi yang dirancang untuk menangani workload training dan inference AI
  • Memanfaatkan SSD terbaru dan jaringan RDMA untuk menyediakan lapisan shared storage, sekaligus menyederhanakan pengembangan aplikasi terdistribusi
  • Fitur dan keunggulan utama
    • Performa dan kemudahan penggunaan
      • Arsitektur terpisah: menggabungkan ribuan SSD dan bandwidth jaringan dari ratusan node storage agar resource storage dapat diakses tanpa bergantung pada lokalitas
      • Jaminan konsistensi kuat: menggunakan Chain Replication with Apportioned Queries(CRAQ) untuk menjaga konsistensi, sehingga menyederhanakan kode aplikasi
      • Dukungan antarmuka file: menyediakan layanan metadata stateless yang memanfaatkan transactional key-value store berbasis FoundationDB. Karena menggunakan antarmuka file yang sudah ada, tidak perlu mempelajari API storage baru
    • Mendukung berbagai workload
      • Persiapan data: mengatur output pipeline analisis data dalam struktur direktori hierarkis, dan mengelola output antara dalam jumlah besar secara efisien
      • Optimasi data loader: memungkinkan akses acak ke sampel training dari banyak compute node tanpa perlu preload atau shuffle dataset
      • Penyimpanan checkpoint: mendukung penyimpanan checkpoint paralel berkecepatan tinggi untuk training skala besar
      • Optimasi inference berbasis KVCache: lebih hemat biaya daripada caching berbasis DRAM, sekaligus menawarkan throughput tinggi dan kapasitas penyimpanan besar
  • SmallPond - framework pemrosesan data ringan yang dibangun di atas DuckDB dan 3FS
    • Memiliki karakteristik pemrosesan data berperforma tinggi, skalabilitas besar, dan operasional sederhana
      • Pemrosesan data berperforma tinggi: memanfaatkan DuckDB untuk pemrosesan data yang cepat
      • Dukungan dataset skala besar: mampu memproses data skala petabyte(PB)
      • Operasional sederhana: mudah digunakan tanpa layanan yang berjalan jangka panjang

Day 6: Pengungkapan arsitektur sistem inferensi V3/R1 serta biaya/pendapatan operasional

  • Prinsip desain sistem: target optimasi sistem inferensi DeepSeek-V3/R1 adalah throughput lebih tinggi dan latensi lebih rendah
    • Untuk itu diterapkan optimasi dengan cross-node Expert Parallelism(EP)
  • Biaya operasional DeepSeek
    • Rata-rata 226 node GPU (8 GPU H800 per node)
    • Biaya operasional per hari: $87,072 (1.27 eok won) - $2/jam per H800
    • Secara teoritis pendapatan per hari (berdasarkan R1): $562027 (8.2 eok won) → margin keuntungan 545%
    • Namun, pendapatan aktual lebih rendah (karena V3 lebih murah daripada R1, dan hanya sebagian layanan yang dimonetisasi)

Paper infrastruktur AI 2024 (SC24)

Fire-Flyer AI-HPC: ko-desain software-hardware yang hemat biaya untuk deep learning

  • Karena kemajuan pesat deep learning(DL) dan large language model(LLM), kebutuhan terhadap performa komputasi dan bandwidth meningkat secara eksponensial
  • Biaya membangun high-performance computing(HPC) meningkat tajam akibat mahalnya chip komputasi cepat dan interkoneksi berkecepatan tinggi
  • Untuk mengatasinya, diperkenalkan arsitektur Fire-Flyer AI-HPC yang mencapai optimasi biaya dan performa melalui desain kolaboratif hardware-software
    • Membangun sistem Fire-Flyer 2 yang memanfaatkan 10.000 GPU PCIe A100 untuk menjalankan training DL
    • Memberikan performa setara DGX-A100 sambil memangkas biaya hingga setengah dan menurunkan konsumsi energi sebesar 40%
  • Elemen optimasi performa
    • HFReduce : mempercepat komunikasi Allreduce untuk meningkatkan kecepatan sinkronisasi data antar-GPU
    • Computation-Storage Integrated Network : menerapkan berbagai teknik manajemen kemacetan untuk mencegah bottleneck jaringan
    • Software stack : melalui HaiScale, 3FS, HAI-Platform, komputasi dan komunikasi dijalankan secara tumpang tindih untuk memaksimalkan skalabilitas

2 komentar

 
xguru 2025-02-23

DeepSeek benar-benar terus membuat langkah yang sangat menarik. Saya penasaran apa saja yang akan dibuka ke publik.

 
GN⁺ 2025-02-22
Komentar Hacker News
  • Penasaran apakah saya satu-satunya orang yang menantikan rilis DeepSeek tanpa terlalu banyak menganalisisnya. Thread ini terasa penuh dengan tafsiran pribadi

    • DeepSeek tetaplah sebuah bisnis. Ini rilis yang hebat, tetapi ekspektasi dan motivasinya terasa dibesar-besarkan
    • Ungkapan "energi garasi murni" terdengar keren
    • Yang paling saya nantikan adalah stack inferensi mereka. Kebanyakan orang menjalankan R1 pada satu node H200, tetapi DeepSeek menggunakan RAM per GPU yang jauh lebih sedikit untuk inferensi dan menerapkan deployment MoE berbasis klaster
    • Lebih menarik daripada 12 Days of Christmas milik OpenAI
  • Mulai minggu depan mereka akan meng-open-source-kan 5 repo. Akan dirilis satu per hari

    • Ini bisa dianggap sebagai pengumuman atas sebuah pengumuman. Sebaiknya jangan terlalu banyak dibahas sampai repo-repo itu benar-benar dirilis, karena belum ada detail tentang apa yang akan di-open-source-kan
    • Ini adalah blok bangunan sederhana dari layanan online mereka. Sudah didokumentasikan, sudah diterapkan, dan sudah diuji di lingkungan nyata
  • Rasa hormat yang mendalam untuk inovasi dan riset DeepSeek. Untuk semua yang telah mereka buka

    • Ungkapan "setiap baris yang dibagikan menjadi momentum kolektif yang mempercepat perjalanan. Pembukaan harian akan segera dimulai. Bukan menara gading, melainkan energi garasi murni dan inovasi yang digerakkan komunitas" terdengar keren
  • Faktanya mereka sedang benar-benar membongkar OpenAI. Mungkin terlepas dari niat mereka

    • LLM adalah "blockchain" yang jauh lebih sah daripada saat sebagian besar majalah CIO memuat esai berjudul "apa strategi blockchain Anda?"
    • Gelembung AI akan pecah, dan kemungkinan besar pecah sepenuhnya pada akhir 2026
  • Menarik melihat di mana letak moat dalam bidang AI. Model dasar yang bagus pada akhirnya selalu bisa didistilasi ketika ada akses ke API. System prompt bisa bocor, trik UI bisa disalin. Pada akhirnya, moat mungkin ada pada hardware dan integrasi vertikal

  • Bisakah DeepSeek dan OpenAI saling menukar nama?

  • Meng-open-source-kan alat infrastruktur benar-benar bisa mempercepat inovasi di bidang AI. Akses ke repo yang terdokumentasi dengan baik membuat eksperimen dan membangun di atas pekerjaan yang ada menjadi jauh lebih mudah

    • Penasaran apakah repo-repo ini berfokus pada area tertentu seperti pelatihan terdistribusi atau model serving
  • Saya penasaran bagaimana valuasi perusahaan model fondasi yang sudah dengan tegas di-open-source-kan oleh Facebook dan DeepSeek bisa tetap bersaing. Membangun model-model ini tampaknya tidak akan menciptakan nilai ratusan miliar dolar ketika China dan Facebook pada dasarnya memberikannya secara gratis