6 poin oleh GN⁺ 2025-12-02 | Belum ada komentar. | Bagikan ke WhatsApp
  • DeepSeek-V3.2 adalah model bahasa besar open-source yang menggabungkan efisiensi komputasi tinggi serta performa penalaran dan agen
  • Arsitektur baru DeepSeek Sparse Attention (DSA) menjaga performa pada konteks panjang sekaligus sangat mengurangi kompleksitas komputasi
  • Melalui kerangka reinforcement learning (RL) yang dapat diskalakan, model ini mencapai performa setingkat GPT-5, dan versi berperforma tinggi memperoleh kemampuan penalaran yang setara dengan Gemini-3.0-Pro
  • Dengan pipeline sintesis tugas bergaya agen berskala besar, model ini menghasilkan 1.800 lingkungan dan 85.000 prompt, meningkatkan generalisasi dan kemampuan mengikuti instruksi dalam lingkungan interaktif yang kompleks
  • Model terbuka mempersempit kesenjangan dengan model tertutup dan memantapkan diri sebagai alternatif yang hemat biaya

Ikhtisar DeepSeek-V3.2

  • DeepSeek-V3.2 adalah model yang dirancang untuk mengatasi batas performa penalaran dan agen pada LLM open-source
    • Terdiri dari tiga teknologi inti: DeepSeek Sparse Attention (DSA), kerangka reinforcement learning yang dapat diperluas, dan pipeline sintesis tugas agen berskala besar
  • Versi berperforma tinggi DeepSeek-V3.2-Speciale melampaui GPT-5 dan memiliki kemampuan penalaran yang setara dengan Gemini-3.0-Pro
    • Mencatat hasil setingkat medali emas pada International Mathematical Olympiad (IMO) dan International Olympiad in Informatics (IOI) tahun 2025
  • Meningkatkan efisiensi dan performa model terbuka secara bersamaan sehingga memperkecil kesenjangan performa dengan model tertutup

Keterbatasan model terbuka dan arah perbaikannya

  • Ada tiga keterbatasan yang disebut sebagai alasan LLM open-source tertinggal dibanding model tertutup
    • Inefisiensi struktur attention dasar menyebabkan beban komputasi besar saat memproses sekuens panjang
    • Kurangnya sumber daya komputasi pada tahap post-training menurunkan performa pada tugas sulit
    • Kurangnya generalisasi agen dan kemampuan mengikuti instruksi membatasi penerapan di dunia nyata
  • Untuk mengatasinya, DeepSeek-V3.2 memperkenalkan struktur attention yang efisien, pelatihan RL yang dapat diskalakan, dan pipeline terintegrasi untuk penalaran berbasis pemanfaatan alat

DeepSeek Sparse Attention (DSA)

  • DSA terdiri dari lightning indexer dan mekanisme seleksi token yang rinci
    • lightning indexer bekerja dengan presisi FP8 dan menentukan pasangan key-value top-k yang akan dipilih setiap token query
    • Dengan ini, kompleksitas O(L²) diturunkan menjadi O(Lk) sehingga pemrosesan konteks panjang menjadi efisien
  • Implementasi berbasis MLA menjaga kompatibilitas dengan DeepSeek-V3.1-Terminus yang sudah ada
  • Menjalankan proses continual learning dua tahap
    • Tahap Dense Warm-up untuk inisialisasi indexer
    • Tahap Sparse Training untuk menyesuaikan seluruh model ke pola DSA, dengan pelatihan pada 943.7B token

Evaluasi performa dan efisiensi

  • DeepSeek-V3.2-Exp sangat meningkatkan efisiensi pemrosesan konteks panjang sambil tetap mempertahankan hasil yang setara dengan DeepSeek-V3.1-Terminus tanpa penurunan performa
  • Mencatat skor penalaran yang lebih baik dibanding versi sebelumnya pada benchmark independen seperti AA-LCR3 dan Fiction.liveBench
  • Berdasarkan klaster GPU H800, biaya per token berkurang drastis sehingga menghasilkan peningkatan kecepatan end-to-end

Post-Training dan struktur reinforcement learning

  • Menggabungkan Specialist Distillation dan Mixed RL
    • Melatih 6 model domain spesialis dengan RL, termasuk matematika, pemrograman, penalaran logis, agen umum, agen kode, dan agen pencarian
    • Data dari tiap model spesialis kemudian didistilasi untuk membuat checkpoint akhir
  • Menggunakan algoritme Group Relative Policy Optimization (GRPO) untuk menyatukan pelatihan penalaran, agen, dan alignment
    • Mengombinasikan model reward, penalti panjang, dan reward konsistensi bahasa
  • DeepSeek-V3.2-Speciale juga menerapkan data dan skema reward tambahan dari DeepSeekMath-V2 untuk memperkuat kemampuan pembuktian matematis

Teknik stabilisasi reinforcement learning (Scaling GRPO)

  • Unbiased KL Estimate memastikan konvergensi yang stabil
    • Mengatasi masalah gradien tidak stabil pada estimator K3 yang sebelumnya digunakan
  • Off-Policy Sequence Masking menutupi sampel negatif dengan ketidaksesuaian kebijakan yang besar, sehingga meningkatkan stabilitas pelatihan
  • Keep Routing menjaga konsistensi routing pada model Mixture-of-Experts
  • Keep Sampling Mask mencegah ketidaksesuaian ruang aksi antar kebijakan saat sampling top-p dan top-k

Penalaran berbasis pemanfaatan alat (Thinking in Tool-Use)

  • Memperkenalkan Thinking Context Management untuk mencegah penalaran ulang yang tidak perlu saat memanggil alat
    • Isi penalaran sebelumnya hanya dihapus ketika pesan pengguna baru ditambahkan
    • Riwayat pemanggilan alat tetap dipertahankan untuk pengelolaan konteks yang efisien
  • Pada tahap Cold-Start, data penalaran dan data agen digabungkan
    • Data reasoning menandai jalur penalaran dengan tag <think></think>
    • Menjadi dasar pelatihan terpadu melalui system prompt yang mencakup pemanggilan alat
  • Melalui sintesis tugas agen berskala besar, dihasilkan 1.800 lingkungan dan 85.000 prompt
    • Menjalankan pelatihan RL berbasis lingkungan nyata termasuk API pencarian web nyata, alat eksekusi kode, dan Jupyter Notebook
    • Search Agent mengotomatiskan pembuatan pertanyaan, verifikasi, dan evaluasi reward melalui pipeline multi-agen
    • Menerapkan model reward hibrida yang mengoptimalkan keandalan faktual dan kegunaan praktis secara bersamaan

Kesimpulan

  • DeepSeek-V3.2 menembus keterbatasan model terbuka dengan menggabungkan struktur attention yang efisien dan pelatihan RL yang dapat diskalakan
  • Dalam performa terpadu penalaran dan agen, model ini sangat memperkecil kesenjangan dengan model tertutup dan muncul sebagai alternatif yang hemat biaya
  • Dinilai sebagai contoh yang menunjukkan arah perkembangan berperforma tinggi yang berkelanjutan bagi LLM open-source

Belum ada komentar.

Belum ada komentar.