- Model eksperimental berbasis V3.1-Terminus yang memperkenalkan DeepSeek Sparse Attention (mekanisme sparse attention) untuk meningkatkan efisiensi pemrosesan konteks panjang
- Sparse Attention mendukung operasi sparse pada unit yang lebih rinci, sehingga secara signifikan meningkatkan efisiensi pelatihan dan inferensi sambil mempertahankan kualitas output pada tingkat yang mirip dengan sebelumnya
- Pada benchmark utama, hasilnya menunjukkan performa yang serupa atau sebagian meningkat dibanding V3.1-Terminus, khususnya pada pemecahan masalah coding dan matematika serta penggunaan alat bergaya agent
- Untuk riset dan pemanfaatan, kernel terkait seperti TileLang, DeepGEMM, FlashMLA juga dirilis bersama, mencakup baik versi desain yang mudah dibaca maupun kernel CUDA berperforma tinggi
- Dapat langsung dijalankan di berbagai lingkungan seperti HuggingFace, SGLang, dan vLLM, sehingga diperkirakan menjadi landasan untuk riset dan penerapan praktis arsitektur transformer efisien generasi berikutnya
Pengenalan
- DeepSeek-V3.2-Exp adalah model tahap praarsitektur generasi berikutnya yang dikembangkan berdasarkan V3.1-Terminus
- Karakteristik utamanya adalah penerapan DeepSeek Sparse Attention (DSA) yang memungkinkan inferensi dan pelatihan efisien pada konteks panjang
- Tujuannya adalah mengoptimalkan peningkatan efisiensi komputasi dan pemrosesan urutan teks yang diperluas
Pencapaian utama
- DSA untuk pertama kalinya mewujudkan sparse attention yang canggih, meningkatkan efisiensi sambil mempertahankan kualitas output model
- Konfigurasi pelatihan disamakan dengan V3.1-Terminus untuk memastikan keandalan perbandingan performa
- Hasil benchmark publik:
- Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
- Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
- Secara keseluruhan terkonfirmasi setara atau sedikit lebih baik
Kernel open source
- TileLang: menyediakan contoh kernel yang mudah dibaca untuk tujuan riset
- DeepGEMM: merilis kernel CUDA berperforma tinggi dan kernel logits indexer
- FlashMLA: menyediakan kernel sparse attention
Cara menjalankan
- HuggingFace: setelah konversi model, chat interaktif dapat dijalankan dengan
torchrun
- SGLang: menyediakan image Docker (untuk H200, MI350, dan NPU)
- vLLM: dukungan Day-0, dengan dokumentasi recipe resmi tersedia
Lisensi
- Dirilis berdasarkan MIT License
1 komentar
Opini Hacker News
Sebagai efek sekunder, ada bagian yang jarang dibicarakan orang yaitu harga; sangat mengesankan bahwa seiring model berkembang cepat, harganya juga turun, dan ini sama pentingnya dengan penyebaran AI serta kecerdasan model; pada dasarnya saya tidak tahu ada semacam hukum yang bisa menghentikan penurunan harga ini; saat ini, mirip dengan Hukum Moore (atau siklus pengembangan chip AI/Nvidia), setiap generasi hardware menjadi jauh lebih cepat dan murah; jadi setahun lagi mungkin kita bisa memakai ChatGPT-5 dengan setengah harga (tentu model performa tinggi akan lebih mahal, tapi ini kalau dilihat dari tarif per token)
Senang melihat tren model open source dari Tiongkok terus membaik dan makin murah; model ini sudah murah, dan harga API-nya dipangkas lagi 50% menjadi Input $0.28/M, (jika cache hit $0.028/M), Output $0.42/M
Karena harganya diturunkan, jadi penasaran berapa harga sebelumnya; saya malah sempat merasa harganya baru-baru ini sempat naik
Penurunan harga itu bagus, tapi saya penasaran seberapa lama level ini bisa dipertahankan; karena dulu sempat sangat murah, lalu sekali naik cukup besar, dan sekarang turun lagi
Tautan pengenalan model Deepseek v3.2-exp
Anehnya, model tersebut ditandai sebagai melakukan "pelatihan dengan data" ("Penyedia ini dapat menggunakan prompt dan output untuk melatih model baru. Penyedia ini saat ini dinonaktifkan, tetapi dapat diaktifkan kembali jika kebijakan data berubah"); biasanya model berbayar hampir tidak pernah menggunakan data input untuk pelatihan, jadi saya penasaran apakah Openrouter salah menandainya atau Deepseek memang benar-benar memakai data pengguna untuk pelatihan
Saya ragu apakah Open Router benar-benar open source; repo "utama" diarsipkan dan yang ada hanya proyek-proyek kecil; yang benar-benar open source tampaknya hanya binding klien API, jadi apakah layanan routing intinya sebenarnya tertutup?
Saya tidak yakin apakah pemahaman saya benar, tetapi ciri model ini adalah ia dilatih untuk meniru seluruh distribusi attention sambil hanya memfilter token top-k yang penting (di sini k=2048), sehingga walaupun context window membesar, kompleksitas komputasi perhitungan [query, key] tidak meningkat secara linear dan tetap konstan (kalau melihat grafik sebenarnya masih ada proses indexer yang menyapu seluruh konteks secara kasar sekali, jadi tetap O(L))
Masalah besar dari model yang "murah" seperti ini adalah, jika penyedianya tidak mendukung caching, dalam lingkungan penggunaan nyata (terutama workflow agent) justru biaya total bisa lebih tinggi; biaya token input/output tidak terlalu berarti, dan biaya cache hit (reuse) mencakup sebagian besar total token; kalau begitu, lebih murah atau setidaknya biayanya mirip untuk langsung memakai GPT-5 yang modelnya juga lebih kuat
DeepSeek mendukung cache, dan saat cache hit biayanya sepersepuluh dari cache miss; tepatnya cache hit $0.028/M, cache miss $0.28/M, output $0.42/M referensi
Setahu saya model ini memang mendukung caching, dan halaman panduan harga juga secara eksplisit menyebut input token saat cache hit adalah $0.028
Anda menyatakan itu masalah serius sambil menambahkan prasyarat (IF); API DeepSeek secara resmi mendukung caching; tolong jangan membuat masalah yang sebenarnya tidak ada panduan cache
Mengejutkan bahwa benchmark hampir tetap sama sementara biayanya turun drastis
Yang menarik, laju perkembangan model masih begitu cepat sehingga hardware khusus model tertentu belum benar-benar menjadi sorotan besar, dan keuntungan scaling utama masih datang dari platform serbaguna
Deep Sparse Attention tampaknya bisa benar-benar membantu pada penalaran panjang dan terstruktur seperti kode
Benar-benar terasa hebat; saya penasaran bagaimana performanya pada data dunia nyata di mana perbedaan halus itu penting, dan juga sangat penasaran apakah pernah diuji pada situasi yang lebih besar dari context window 128K
Keren bisa melihat contoh sparse attention diterapkan di lingkungan nyata