DeepSeek-V3.2 dirilis - memperluas batas model bahasa besar terbuka
(huggingface.co)- DeepSeek-V3.2 adalah model bahasa besar open-source yang menggabungkan efisiensi komputasi tinggi serta performa penalaran dan agen
- Arsitektur baru DeepSeek Sparse Attention (DSA) menjaga performa pada konteks panjang sekaligus sangat mengurangi kompleksitas komputasi
- Melalui kerangka reinforcement learning (RL) yang dapat diskalakan, model ini mencapai performa setingkat GPT-5, dan versi berperforma tinggi memperoleh kemampuan penalaran yang setara dengan Gemini-3.0-Pro
- Dengan pipeline sintesis tugas bergaya agen berskala besar, model ini menghasilkan 1.800 lingkungan dan 85.000 prompt, meningkatkan generalisasi dan kemampuan mengikuti instruksi dalam lingkungan interaktif yang kompleks
- Model terbuka mempersempit kesenjangan dengan model tertutup dan memantapkan diri sebagai alternatif yang hemat biaya
Ikhtisar DeepSeek-V3.2
- DeepSeek-V3.2 adalah model yang dirancang untuk mengatasi batas performa penalaran dan agen pada LLM open-source
- Terdiri dari tiga teknologi inti: DeepSeek Sparse Attention (DSA), kerangka reinforcement learning yang dapat diperluas, dan pipeline sintesis tugas agen berskala besar
- Versi berperforma tinggi DeepSeek-V3.2-Speciale melampaui GPT-5 dan memiliki kemampuan penalaran yang setara dengan Gemini-3.0-Pro
- Mencatat hasil setingkat medali emas pada International Mathematical Olympiad (IMO) dan International Olympiad in Informatics (IOI) tahun 2025
- Meningkatkan efisiensi dan performa model terbuka secara bersamaan sehingga memperkecil kesenjangan performa dengan model tertutup
Keterbatasan model terbuka dan arah perbaikannya
- Ada tiga keterbatasan yang disebut sebagai alasan LLM open-source tertinggal dibanding model tertutup
- Inefisiensi struktur attention dasar menyebabkan beban komputasi besar saat memproses sekuens panjang
- Kurangnya sumber daya komputasi pada tahap post-training menurunkan performa pada tugas sulit
- Kurangnya generalisasi agen dan kemampuan mengikuti instruksi membatasi penerapan di dunia nyata
- Untuk mengatasinya, DeepSeek-V3.2 memperkenalkan struktur attention yang efisien, pelatihan RL yang dapat diskalakan, dan pipeline terintegrasi untuk penalaran berbasis pemanfaatan alat
DeepSeek Sparse Attention (DSA)
- DSA terdiri dari lightning indexer dan mekanisme seleksi token yang rinci
- lightning indexer bekerja dengan presisi FP8 dan menentukan pasangan key-value top-k yang akan dipilih setiap token query
- Dengan ini, kompleksitas O(L²) diturunkan menjadi O(Lk) sehingga pemrosesan konteks panjang menjadi efisien
- Implementasi berbasis MLA menjaga kompatibilitas dengan DeepSeek-V3.1-Terminus yang sudah ada
- Menjalankan proses continual learning dua tahap
- Tahap Dense Warm-up untuk inisialisasi indexer
- Tahap Sparse Training untuk menyesuaikan seluruh model ke pola DSA, dengan pelatihan pada 943.7B token
Evaluasi performa dan efisiensi
- DeepSeek-V3.2-Exp sangat meningkatkan efisiensi pemrosesan konteks panjang sambil tetap mempertahankan hasil yang setara dengan DeepSeek-V3.1-Terminus tanpa penurunan performa
- Mencatat skor penalaran yang lebih baik dibanding versi sebelumnya pada benchmark independen seperti AA-LCR3 dan Fiction.liveBench
- Berdasarkan klaster GPU H800, biaya per token berkurang drastis sehingga menghasilkan peningkatan kecepatan end-to-end
Post-Training dan struktur reinforcement learning
- Menggabungkan Specialist Distillation dan Mixed RL
- Melatih 6 model domain spesialis dengan RL, termasuk matematika, pemrograman, penalaran logis, agen umum, agen kode, dan agen pencarian
- Data dari tiap model spesialis kemudian didistilasi untuk membuat checkpoint akhir
- Menggunakan algoritme Group Relative Policy Optimization (GRPO) untuk menyatukan pelatihan penalaran, agen, dan alignment
- Mengombinasikan model reward, penalti panjang, dan reward konsistensi bahasa
- DeepSeek-V3.2-Speciale juga menerapkan data dan skema reward tambahan dari DeepSeekMath-V2 untuk memperkuat kemampuan pembuktian matematis
Teknik stabilisasi reinforcement learning (Scaling GRPO)
- Unbiased KL Estimate memastikan konvergensi yang stabil
- Mengatasi masalah gradien tidak stabil pada estimator K3 yang sebelumnya digunakan
- Off-Policy Sequence Masking menutupi sampel negatif dengan ketidaksesuaian kebijakan yang besar, sehingga meningkatkan stabilitas pelatihan
- Keep Routing menjaga konsistensi routing pada model Mixture-of-Experts
- Keep Sampling Mask mencegah ketidaksesuaian ruang aksi antar kebijakan saat sampling top-p dan top-k
Penalaran berbasis pemanfaatan alat (Thinking in Tool-Use)
- Memperkenalkan Thinking Context Management untuk mencegah penalaran ulang yang tidak perlu saat memanggil alat
- Isi penalaran sebelumnya hanya dihapus ketika pesan pengguna baru ditambahkan
- Riwayat pemanggilan alat tetap dipertahankan untuk pengelolaan konteks yang efisien
- Pada tahap Cold-Start, data penalaran dan data agen digabungkan
- Data reasoning menandai jalur penalaran dengan tag <think></think>
- Menjadi dasar pelatihan terpadu melalui system prompt yang mencakup pemanggilan alat
- Melalui sintesis tugas agen berskala besar, dihasilkan 1.800 lingkungan dan 85.000 prompt
- Menjalankan pelatihan RL berbasis lingkungan nyata termasuk API pencarian web nyata, alat eksekusi kode, dan Jupyter Notebook
- Search Agent mengotomatiskan pembuatan pertanyaan, verifikasi, dan evaluasi reward melalui pipeline multi-agen
- Menerapkan model reward hibrida yang mengoptimalkan keandalan faktual dan kegunaan praktis secara bersamaan
Kesimpulan
- DeepSeek-V3.2 menembus keterbatasan model terbuka dengan menggabungkan struktur attention yang efisien dan pelatihan RL yang dapat diskalakan
- Dalam performa terpadu penalaran dan agen, model ini sangat memperkecil kesenjangan dengan model tertutup dan muncul sebagai alternatif yang hemat biaya
- Dinilai sebagai contoh yang menunjukkan arah perkembangan berperforma tinggi yang berkelanjutan bagi LLM open-source
1 komentar
Komentar Hacker News
Mengesankan bahwa mereka terus meningkatkan efisiensi biaya dan membagikan proses perkembangannya secara terbuka
Semoga upaya seperti ini bisa menjadi kekuatan yang mencegah monopoli AI
Jika model terbuka bisa bersaing dengan model komersial, muncul pertanyaan bagaimana perusahaan seperti Google, Anthropic, dan OpenAI bisa menghasilkan uang dari AI
Dulu open source gagal karena tertinggal dari model tertutup dalam kualitas dan kedalaman fitur, tetapi sekarang performa tampaknya sudah memasuki fase stagnasi
Pada akhirnya, pihak yang memiliki infrastruktur energi termurah kemungkinan akan menjadi pemenang jangka panjang
Misalnya seperti Amazon yang melayani API MongoDB, pada akhirnya ini adalah struktur bisnis yang menghasilkan uang dari biaya penggunaan infrastruktur
Sebagian besar perusahaan tidak mampu meng-host model SOTA sendiri. Melihat kenyataan bahwa bahkan server email pun jarang dioperasikan sendiri, hal ini mudah dipahami
Google menciptakan Transformer, dan OpenAI sukses dengan ChatGPT lewat RLHF, tetapi sekarang justru fitur ringkasan AI milik Google yang kembali menempati bagian atas pencarian
Dokumen terkait: Google “We have no moat, and neither does OpenAI”
Model kali ini disebut mengalami peningkatan besar bukan hanya pada benchmark, tetapi juga pada efisiensi inferensi
Tautan terkait: Perbandingan performa oleh Thomas Ip
chat template DeepSeek-V3.2 berubah cukup besar.
Awalnya saya kira mereka membuat format baru, tetapi setelah melihat sintaksnya, ternyata pada dasarnya tampak sama dengan format Harmony
Kalau begitu, akan lebih mudah dipahami kalau sejak awal disebut kompatibel dengan Harmony
Saya penasaran kenapa hampir tidak ada model kelas 32~512GB, dan kenapa RAM maksimum Mac Studio M4 hanya 128GB
Keren melihat model seperti ini dirilis sebagai open source. Tapi saya ragu apakah rig seharga $20.000 dengan empat RTX 5090 cukup untuk menjalankannya dengan cepat
Justru ini mendukung klaim komentar awal bahwa model ini lambat untuk penggunaan konsumen
Melihat tabel 3 di paper, DS-Speciale menempati posisi 1 atau 2 di hampir semua tes, tetapi jumlah token keluarannya lebih dari 50% lebih banyak
Dengan membuat beberapa jawaban secara paralel lalu memilih jawaban akhir, performa penalaran bisa diskalakan dengan sumber daya komputasi
Setelah dipakai beberapa jam, ini terasa sebagai model yang solid dan kompetitif. Menurut saya lebih baik daripada GLM4.6 dan juga lebih bagus daripada Kimi K2. Saya menantikan v4
Menarik bahwa ini adalah model frontier besar yang dirilis dengan lisensi MIT
Saya tidak begitu paham standar penilaian industri AI di AS. Model Tiongkok jauh lebih murah tetapi performanya hampir setara
Selain itu, benchmark sudah mendekati titik jenuh sehingga kesenjangannya tampak kecil, tetapi perbedaan 1% di level teratas sebenarnya sangat berarti
Di leaderboard Metabench yang saya buat, model Tiongkok memang bagus, tetapi tetap masih ada jarak dengan jajaran teratas
Namun karena biaya inferensinya rendah, model Tiongkok kuat dalam aspek value for money
Perusahaan AS pada dasarnya menjual bukan hanya model, tetapi juga infrastruktur latensi rendah skala global. Itu menjelaskan valuasi perusahaan mereka yang tinggi
Sebagai referensi, Cerebras menyediakan GLM 4.6 yang sangat cepat
Mungkin ada asumsi tersembunyi bahwa DeepSeek akan dilarang dan open software akan diblokir di AS
Ke depan, model frontier bisa jadi akan dibedakan lewat edge case yang lebih detail