DeepSeek-V3.2-Exp: Model Eksperimental dengan Optimasi Konteks Panjang Dirilis

(github.com/deepseek-ai)

2 poin oleh GN⁺ 2025-09-30 | 1 komentar | Bagikan ke WhatsApp

Model eksperimental berbasis V3.1-Terminus yang memperkenalkan DeepSeek Sparse Attention (mekanisme sparse attention) untuk meningkatkan efisiensi pemrosesan konteks panjang
Sparse Attention mendukung operasi sparse pada unit yang lebih rinci, sehingga secara signifikan meningkatkan efisiensi pelatihan dan inferensi sambil mempertahankan kualitas output pada tingkat yang mirip dengan sebelumnya
Pada benchmark utama, hasilnya menunjukkan performa yang serupa atau sebagian meningkat dibanding V3.1-Terminus, khususnya pada pemecahan masalah coding dan matematika serta penggunaan alat bergaya agent
Untuk riset dan pemanfaatan, kernel terkait seperti TileLang, DeepGEMM, FlashMLA juga dirilis bersama, mencakup baik versi desain yang mudah dibaca maupun kernel CUDA berperforma tinggi
Dapat langsung dijalankan di berbagai lingkungan seperti HuggingFace, SGLang, dan vLLM, sehingga diperkirakan menjadi landasan untuk riset dan penerapan praktis arsitektur transformer efisien generasi berikutnya

Pengenalan

DeepSeek-V3.2-Exp adalah model tahap praarsitektur generasi berikutnya yang dikembangkan berdasarkan V3.1-Terminus
Karakteristik utamanya adalah penerapan DeepSeek Sparse Attention (DSA) yang memungkinkan inferensi dan pelatihan efisien pada konteks panjang
Tujuannya adalah mengoptimalkan peningkatan efisiensi komputasi dan pemrosesan urutan teks yang diperluas

Pencapaian utama

DSA untuk pertama kalinya mewujudkan sparse attention yang canggih, meningkatkan efisiensi sambil mempertahankan kualitas output model
Konfigurasi pelatihan disamakan dengan V3.1-Terminus untuk memastikan keandalan perbandingan performa
Hasil benchmark publik:
- Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
- Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
- Secara keseluruhan terkonfirmasi setara atau sedikit lebih baik

Kernel open source

TileLang: menyediakan contoh kernel yang mudah dibaca untuk tujuan riset
DeepGEMM: merilis kernel CUDA berperforma tinggi dan kernel logits indexer
FlashMLA: menyediakan kernel sparse attention

Cara menjalankan

HuggingFace: setelah konversi model, chat interaktif dapat dijalankan dengan torchrun
SGLang: menyediakan image Docker (untuk H200, MI350, dan NPU)
vLLM: dukungan Day-0, dengan dokumentasi recipe resmi tersedia

Lisensi

Dirilis berdasarkan MIT License

1 komentar

GN⁺ 2025-09-30

Opini Hacker News

Sebagai efek sekunder, ada bagian yang jarang dibicarakan orang yaitu harga; sangat mengesankan bahwa seiring model berkembang cepat, harganya juga turun, dan ini sama pentingnya dengan penyebaran AI serta kecerdasan model; pada dasarnya saya tidak tahu ada semacam hukum yang bisa menghentikan penurunan harga ini; saat ini, mirip dengan Hukum Moore (atau siklus pengembangan chip AI/Nvidia), setiap generasi hardware menjadi jauh lebih cepat dan murah; jadi setahun lagi mungkin kita bisa memakai ChatGPT-5 dengan setengah harga (tentu model performa tinggi akan lebih mahal, tapi ini kalau dilihat dari tarif per token)
- Itu masih sangat meremehkan besarnya penurunan harga; misalnya, menurut riset Andreessen Horowitz, selama 2 tahun sejak kemunculan GPT-3.5, biaya inferensi turun 10x per tahun referensi; jadi bahkan dalam skenario perlambatan pertumbuhan pun, saya rasa penurunan 1.000x dalam 5 tahun ke depan masih mungkin; penurunan harga saat ini tidak terhubung langsung dengan Hukum Moore, melainkan berkat berbagai inovasi seperti optimisasi model, rantai pasok high-bandwidth memory, dan investasi infrastruktur listrik
Senang melihat tren model open source dari Tiongkok terus membaik dan makin murah; model ini sudah murah, dan harga API-nya dipangkas lagi 50% menjadi Input $0.28/M, (jika cache hit $0.028/M), Output $0.42/M
- Karena harganya diturunkan, jadi penasaran berapa harga sebelumnya; saya malah sempat merasa harganya baru-baru ini sempat naik
- Penurunan harga itu bagus, tapi saya penasaran seberapa lama level ini bisa dipertahankan; karena dulu sempat sangat murah, lalu sekali naik cukup besar, dan sekarang turun lagi
Tautan pengenalan model Deepseek v3.2-exp
- Anehnya, model tersebut ditandai sebagai melakukan "pelatihan dengan data" ("Penyedia ini dapat menggunakan prompt dan output untuk melatih model baru. Penyedia ini saat ini dinonaktifkan, tetapi dapat diaktifkan kembali jika kebijakan data berubah"); biasanya model berbayar hampir tidak pernah menggunakan data input untuk pelatihan, jadi saya penasaran apakah Openrouter salah menandainya atau Deepseek memang benar-benar memakai data pengguna untuk pelatihan
- Saya ragu apakah Open Router benar-benar open source; repo "utama" diarsipkan dan yang ada hanya proyek-proyek kecil; yang benar-benar open source tampaknya hanya binding klien API, jadi apakah layanan routing intinya sebenarnya tertutup?
Saya tidak yakin apakah pemahaman saya benar, tetapi ciri model ini adalah ia dilatih untuk meniru seluruh distribusi attention sambil hanya memfilter token top-k yang penting (di sini k=2048), sehingga walaupun context window membesar, kompleksitas komputasi perhitungan [query, key] tidak meningkat secara linear dan tetap konstan (kalau melihat grafik sebenarnya masih ada proses indexer yang menyapu seluruh konteks secara kasar sekali, jadi tetap O(L))
Masalah besar dari model yang "murah" seperti ini adalah, jika penyedianya tidak mendukung caching, dalam lingkungan penggunaan nyata (terutama workflow agent) justru biaya total bisa lebih tinggi; biaya token input/output tidak terlalu berarti, dan biaya cache hit (reuse) mencakup sebagian besar total token; kalau begitu, lebih murah atau setidaknya biayanya mirip untuk langsung memakai GPT-5 yang modelnya juga lebih kuat
- DeepSeek mendukung cache, dan saat cache hit biayanya sepersepuluh dari cache miss; tepatnya cache hit $0.028/M, cache miss $0.28/M, output $0.42/M referensi
- Setahu saya model ini memang mendukung caching, dan halaman panduan harga juga secara eksplisit menyebut input token saat cache hit adalah $0.028
- Anda menyatakan itu masalah serius sambil menambahkan prasyarat (IF); API DeepSeek secara resmi mendukung caching; tolong jangan membuat masalah yang sebenarnya tidak ada panduan cache
Mengejutkan bahwa benchmark hampir tetap sama sementara biayanya turun drastis
Yang menarik, laju perkembangan model masih begitu cepat sehingga hardware khusus model tertentu belum benar-benar menjadi sorotan besar, dan keuntungan scaling utama masih datang dari platform serbaguna
- Meski begitu, chip yang dioptimalkan secara arsitektural seperti Google TPU, Groq, dan Cerebras juga perlu disebut; ini memang bukan sepenuhnya hardware khusus, tetapi merupakan contoh optimisasi di struktur yang lebih umum
Deep Sparse Attention tampaknya bisa benar-benar membantu pada penalaran panjang dan terstruktur seperti kode
Benar-benar terasa hebat; saya penasaran bagaimana performanya pada data dunia nyata di mana perbedaan halus itu penting, dan juga sangat penasaran apakah pernah diuji pada situasi yang lebih besar dari context window 128K
Keren bisa melihat contoh sparse attention diterapkan di lingkungan nyata

DeepSeek-V3.2-Exp: Model Eksperimental dengan Optimasi Konteks Panjang Dirilis

Pengenalan

Pencapaian utama

Kernel open source

Cara menjalankan

Lisensi

Bacaan terkait

1 komentar

Opini Hacker News