2 poin oleh GN⁺ 2025-09-30 | 1 komentar | Bagikan ke WhatsApp
  • Model eksperimental berbasis V3.1-Terminus yang memperkenalkan DeepSeek Sparse Attention (mekanisme sparse attention) untuk meningkatkan efisiensi pemrosesan konteks panjang
  • Sparse Attention mendukung operasi sparse pada unit yang lebih rinci, sehingga secara signifikan meningkatkan efisiensi pelatihan dan inferensi sambil mempertahankan kualitas output pada tingkat yang mirip dengan sebelumnya
  • Pada benchmark utama, hasilnya menunjukkan performa yang serupa atau sebagian meningkat dibanding V3.1-Terminus, khususnya pada pemecahan masalah coding dan matematika serta penggunaan alat bergaya agent
  • Untuk riset dan pemanfaatan, kernel terkait seperti TileLang, DeepGEMM, FlashMLA juga dirilis bersama, mencakup baik versi desain yang mudah dibaca maupun kernel CUDA berperforma tinggi
  • Dapat langsung dijalankan di berbagai lingkungan seperti HuggingFace, SGLang, dan vLLM, sehingga diperkirakan menjadi landasan untuk riset dan penerapan praktis arsitektur transformer efisien generasi berikutnya

Pengenalan

  • DeepSeek-V3.2-Exp adalah model tahap praarsitektur generasi berikutnya yang dikembangkan berdasarkan V3.1-Terminus
  • Karakteristik utamanya adalah penerapan DeepSeek Sparse Attention (DSA) yang memungkinkan inferensi dan pelatihan efisien pada konteks panjang
  • Tujuannya adalah mengoptimalkan peningkatan efisiensi komputasi dan pemrosesan urutan teks yang diperluas

Pencapaian utama

  • DSA untuk pertama kalinya mewujudkan sparse attention yang canggih, meningkatkan efisiensi sambil mempertahankan kualitas output model
  • Konfigurasi pelatihan disamakan dengan V3.1-Terminus untuk memastikan keandalan perbandingan performa
  • Hasil benchmark publik:
    • Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
    • Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
    • Secara keseluruhan terkonfirmasi setara atau sedikit lebih baik

Kernel open source

  • TileLang: menyediakan contoh kernel yang mudah dibaca untuk tujuan riset
  • DeepGEMM: merilis kernel CUDA berperforma tinggi dan kernel logits indexer
  • FlashMLA: menyediakan kernel sparse attention

Cara menjalankan

  • HuggingFace: setelah konversi model, chat interaktif dapat dijalankan dengan torchrun
  • SGLang: menyediakan image Docker (untuk H200, MI350, dan NPU)
  • vLLM: dukungan Day-0, dengan dokumentasi recipe resmi tersedia

Lisensi

  • Dirilis berdasarkan MIT License

1 komentar

 
GN⁺ 2025-09-30
Opini Hacker News
  • Sebagai efek sekunder, ada bagian yang jarang dibicarakan orang yaitu harga; sangat mengesankan bahwa seiring model berkembang cepat, harganya juga turun, dan ini sama pentingnya dengan penyebaran AI serta kecerdasan model; pada dasarnya saya tidak tahu ada semacam hukum yang bisa menghentikan penurunan harga ini; saat ini, mirip dengan Hukum Moore (atau siklus pengembangan chip AI/Nvidia), setiap generasi hardware menjadi jauh lebih cepat dan murah; jadi setahun lagi mungkin kita bisa memakai ChatGPT-5 dengan setengah harga (tentu model performa tinggi akan lebih mahal, tapi ini kalau dilihat dari tarif per token)

    • Itu masih sangat meremehkan besarnya penurunan harga; misalnya, menurut riset Andreessen Horowitz, selama 2 tahun sejak kemunculan GPT-3.5, biaya inferensi turun 10x per tahun referensi; jadi bahkan dalam skenario perlambatan pertumbuhan pun, saya rasa penurunan 1.000x dalam 5 tahun ke depan masih mungkin; penurunan harga saat ini tidak terhubung langsung dengan Hukum Moore, melainkan berkat berbagai inovasi seperti optimisasi model, rantai pasok high-bandwidth memory, dan investasi infrastruktur listrik
  • Senang melihat tren model open source dari Tiongkok terus membaik dan makin murah; model ini sudah murah, dan harga API-nya dipangkas lagi 50% menjadi Input $0.28/M, (jika cache hit $0.028/M), Output $0.42/M

    • Karena harganya diturunkan, jadi penasaran berapa harga sebelumnya; saya malah sempat merasa harganya baru-baru ini sempat naik

    • Penurunan harga itu bagus, tapi saya penasaran seberapa lama level ini bisa dipertahankan; karena dulu sempat sangat murah, lalu sekali naik cukup besar, dan sekarang turun lagi

  • Tautan pengenalan model Deepseek v3.2-exp

    • Anehnya, model tersebut ditandai sebagai melakukan "pelatihan dengan data" ("Penyedia ini dapat menggunakan prompt dan output untuk melatih model baru. Penyedia ini saat ini dinonaktifkan, tetapi dapat diaktifkan kembali jika kebijakan data berubah"); biasanya model berbayar hampir tidak pernah menggunakan data input untuk pelatihan, jadi saya penasaran apakah Openrouter salah menandainya atau Deepseek memang benar-benar memakai data pengguna untuk pelatihan

    • Saya ragu apakah Open Router benar-benar open source; repo "utama" diarsipkan dan yang ada hanya proyek-proyek kecil; yang benar-benar open source tampaknya hanya binding klien API, jadi apakah layanan routing intinya sebenarnya tertutup?

  • Saya tidak yakin apakah pemahaman saya benar, tetapi ciri model ini adalah ia dilatih untuk meniru seluruh distribusi attention sambil hanya memfilter token top-k yang penting (di sini k=2048), sehingga walaupun context window membesar, kompleksitas komputasi perhitungan [query, key] tidak meningkat secara linear dan tetap konstan (kalau melihat grafik sebenarnya masih ada proses indexer yang menyapu seluruh konteks secara kasar sekali, jadi tetap O(L))

  • Masalah besar dari model yang "murah" seperti ini adalah, jika penyedianya tidak mendukung caching, dalam lingkungan penggunaan nyata (terutama workflow agent) justru biaya total bisa lebih tinggi; biaya token input/output tidak terlalu berarti, dan biaya cache hit (reuse) mencakup sebagian besar total token; kalau begitu, lebih murah atau setidaknya biayanya mirip untuk langsung memakai GPT-5 yang modelnya juga lebih kuat

    • DeepSeek mendukung cache, dan saat cache hit biayanya sepersepuluh dari cache miss; tepatnya cache hit $0.028/M, cache miss $0.28/M, output $0.42/M referensi

    • Setahu saya model ini memang mendukung caching, dan halaman panduan harga juga secara eksplisit menyebut input token saat cache hit adalah $0.028

    • Anda menyatakan itu masalah serius sambil menambahkan prasyarat (IF); API DeepSeek secara resmi mendukung caching; tolong jangan membuat masalah yang sebenarnya tidak ada panduan cache

  • Mengejutkan bahwa benchmark hampir tetap sama sementara biayanya turun drastis

  • Yang menarik, laju perkembangan model masih begitu cepat sehingga hardware khusus model tertentu belum benar-benar menjadi sorotan besar, dan keuntungan scaling utama masih datang dari platform serbaguna

    • Meski begitu, chip yang dioptimalkan secara arsitektural seperti Google TPU, Groq, dan Cerebras juga perlu disebut; ini memang bukan sepenuhnya hardware khusus, tetapi merupakan contoh optimisasi di struktur yang lebih umum
  • Deep Sparse Attention tampaknya bisa benar-benar membantu pada penalaran panjang dan terstruktur seperti kode

  • Benar-benar terasa hebat; saya penasaran bagaimana performanya pada data dunia nyata di mana perbedaan halus itu penting, dan juga sangat penasaran apakah pernah diuji pada situasi yang lebih besar dari context window 128K

  • Keren bisa melihat contoh sparse attention diterapkan di lingkungan nyata