- DeepSeek-V3.2 adalah model bahasa besar open-source yang menggabungkan efisiensi komputasi tinggi serta performa penalaran dan agen
- Arsitektur baru DeepSeek Sparse Attention (DSA) menjaga performa pada konteks panjang sekaligus sangat mengurangi kompleksitas komputasi
- Melalui kerangka reinforcement learning (RL) yang dapat diskalakan, model ini mencapai performa setingkat GPT-5, dan versi berperforma tinggi memperoleh kemampuan penalaran yang setara dengan Gemini-3.0-Pro
- Dengan pipeline sintesis tugas bergaya agen berskala besar, model ini menghasilkan 1.800 lingkungan dan 85.000 prompt, meningkatkan generalisasi dan kemampuan mengikuti instruksi dalam lingkungan interaktif yang kompleks
- Model terbuka mempersempit kesenjangan dengan model tertutup dan memantapkan diri sebagai alternatif yang hemat biaya
Ikhtisar DeepSeek-V3.2
- DeepSeek-V3.2 adalah model yang dirancang untuk mengatasi batas performa penalaran dan agen pada LLM open-source
- Terdiri dari tiga teknologi inti: DeepSeek Sparse Attention (DSA), kerangka reinforcement learning yang dapat diperluas, dan pipeline sintesis tugas agen berskala besar
- Versi berperforma tinggi DeepSeek-V3.2-Speciale melampaui GPT-5 dan memiliki kemampuan penalaran yang setara dengan Gemini-3.0-Pro
- Mencatat hasil setingkat medali emas pada International Mathematical Olympiad (IMO) dan International Olympiad in Informatics (IOI) tahun 2025
- Meningkatkan efisiensi dan performa model terbuka secara bersamaan sehingga memperkecil kesenjangan performa dengan model tertutup
Keterbatasan model terbuka dan arah perbaikannya
- Ada tiga keterbatasan yang disebut sebagai alasan LLM open-source tertinggal dibanding model tertutup
- Inefisiensi struktur attention dasar menyebabkan beban komputasi besar saat memproses sekuens panjang
- Kurangnya sumber daya komputasi pada tahap post-training menurunkan performa pada tugas sulit
- Kurangnya generalisasi agen dan kemampuan mengikuti instruksi membatasi penerapan di dunia nyata
- Untuk mengatasinya, DeepSeek-V3.2 memperkenalkan struktur attention yang efisien, pelatihan RL yang dapat diskalakan, dan pipeline terintegrasi untuk penalaran berbasis pemanfaatan alat
DeepSeek Sparse Attention (DSA)
- DSA terdiri dari lightning indexer dan mekanisme seleksi token yang rinci
- lightning indexer bekerja dengan presisi FP8 dan menentukan pasangan key-value top-k yang akan dipilih setiap token query
- Dengan ini, kompleksitas O(L²) diturunkan menjadi O(Lk) sehingga pemrosesan konteks panjang menjadi efisien
- Implementasi berbasis MLA menjaga kompatibilitas dengan DeepSeek-V3.1-Terminus yang sudah ada
- Menjalankan proses continual learning dua tahap
- Tahap Dense Warm-up untuk inisialisasi indexer
- Tahap Sparse Training untuk menyesuaikan seluruh model ke pola DSA, dengan pelatihan pada 943.7B token
Evaluasi performa dan efisiensi
- DeepSeek-V3.2-Exp sangat meningkatkan efisiensi pemrosesan konteks panjang sambil tetap mempertahankan hasil yang setara dengan DeepSeek-V3.1-Terminus tanpa penurunan performa
- Mencatat skor penalaran yang lebih baik dibanding versi sebelumnya pada benchmark independen seperti AA-LCR3 dan Fiction.liveBench
- Berdasarkan klaster GPU H800, biaya per token berkurang drastis sehingga menghasilkan peningkatan kecepatan end-to-end
Post-Training dan struktur reinforcement learning
- Menggabungkan Specialist Distillation dan Mixed RL
- Melatih 6 model domain spesialis dengan RL, termasuk matematika, pemrograman, penalaran logis, agen umum, agen kode, dan agen pencarian
- Data dari tiap model spesialis kemudian didistilasi untuk membuat checkpoint akhir
- Menggunakan algoritme Group Relative Policy Optimization (GRPO) untuk menyatukan pelatihan penalaran, agen, dan alignment
- Mengombinasikan model reward, penalti panjang, dan reward konsistensi bahasa
- DeepSeek-V3.2-Speciale juga menerapkan data dan skema reward tambahan dari DeepSeekMath-V2 untuk memperkuat kemampuan pembuktian matematis
Teknik stabilisasi reinforcement learning (Scaling GRPO)
- Unbiased KL Estimate memastikan konvergensi yang stabil
- Mengatasi masalah gradien tidak stabil pada estimator K3 yang sebelumnya digunakan
- Off-Policy Sequence Masking menutupi sampel negatif dengan ketidaksesuaian kebijakan yang besar, sehingga meningkatkan stabilitas pelatihan
- Keep Routing menjaga konsistensi routing pada model Mixture-of-Experts
- Keep Sampling Mask mencegah ketidaksesuaian ruang aksi antar kebijakan saat sampling top-p dan top-k
Penalaran berbasis pemanfaatan alat (Thinking in Tool-Use)
- Memperkenalkan Thinking Context Management untuk mencegah penalaran ulang yang tidak perlu saat memanggil alat
- Isi penalaran sebelumnya hanya dihapus ketika pesan pengguna baru ditambahkan
- Riwayat pemanggilan alat tetap dipertahankan untuk pengelolaan konteks yang efisien
- Pada tahap Cold-Start, data penalaran dan data agen digabungkan
- Data reasoning menandai jalur penalaran dengan tag <think></think>
- Menjadi dasar pelatihan terpadu melalui system prompt yang mencakup pemanggilan alat
- Melalui sintesis tugas agen berskala besar, dihasilkan 1.800 lingkungan dan 85.000 prompt
- Menjalankan pelatihan RL berbasis lingkungan nyata termasuk API pencarian web nyata, alat eksekusi kode, dan Jupyter Notebook
- Search Agent mengotomatiskan pembuatan pertanyaan, verifikasi, dan evaluasi reward melalui pipeline multi-agen
- Menerapkan model reward hibrida yang mengoptimalkan keandalan faktual dan kegunaan praktis secara bersamaan
Kesimpulan
- DeepSeek-V3.2 menembus keterbatasan model terbuka dengan menggabungkan struktur attention yang efisien dan pelatihan RL yang dapat diskalakan
- Dalam performa terpadu penalaran dan agen, model ini sangat memperkecil kesenjangan dengan model tertutup dan muncul sebagai alternatif yang hemat biaya
- Dinilai sebagai contoh yang menunjukkan arah perkembangan berperforma tinggi yang berkelanjutan bagi LLM open-source
Belum ada komentar.