DeepSeek-V3.2 dirilis - memperluas batas model bahasa besar terbuka

(huggingface.co)

6 poin oleh GN⁺ 2025-12-02 | 1 komentar | Bagikan ke WhatsApp

DeepSeek-V3.2 adalah model bahasa besar open-source yang menggabungkan efisiensi komputasi tinggi serta performa penalaran dan agen
Arsitektur baru DeepSeek Sparse Attention (DSA) menjaga performa pada konteks panjang sekaligus sangat mengurangi kompleksitas komputasi
Melalui kerangka reinforcement learning (RL) yang dapat diskalakan, model ini mencapai performa setingkat GPT-5, dan versi berperforma tinggi memperoleh kemampuan penalaran yang setara dengan Gemini-3.0-Pro
Dengan pipeline sintesis tugas bergaya agen berskala besar, model ini menghasilkan 1.800 lingkungan dan 85.000 prompt, meningkatkan generalisasi dan kemampuan mengikuti instruksi dalam lingkungan interaktif yang kompleks
Model terbuka mempersempit kesenjangan dengan model tertutup dan memantapkan diri sebagai alternatif yang hemat biaya

Ikhtisar DeepSeek-V3.2

DeepSeek-V3.2 adalah model yang dirancang untuk mengatasi batas performa penalaran dan agen pada LLM open-source
- Terdiri dari tiga teknologi inti: DeepSeek Sparse Attention (DSA), kerangka reinforcement learning yang dapat diperluas, dan pipeline sintesis tugas agen berskala besar
Versi berperforma tinggi DeepSeek-V3.2-Speciale melampaui GPT-5 dan memiliki kemampuan penalaran yang setara dengan Gemini-3.0-Pro
- Mencatat hasil setingkat medali emas pada International Mathematical Olympiad (IMO) dan International Olympiad in Informatics (IOI) tahun 2025
Meningkatkan efisiensi dan performa model terbuka secara bersamaan sehingga memperkecil kesenjangan performa dengan model tertutup

Keterbatasan model terbuka dan arah perbaikannya

Ada tiga keterbatasan yang disebut sebagai alasan LLM open-source tertinggal dibanding model tertutup
- Inefisiensi struktur attention dasar menyebabkan beban komputasi besar saat memproses sekuens panjang
- Kurangnya sumber daya komputasi pada tahap post-training menurunkan performa pada tugas sulit
- Kurangnya generalisasi agen dan kemampuan mengikuti instruksi membatasi penerapan di dunia nyata
Untuk mengatasinya, DeepSeek-V3.2 memperkenalkan struktur attention yang efisien, pelatihan RL yang dapat diskalakan, dan pipeline terintegrasi untuk penalaran berbasis pemanfaatan alat

DeepSeek Sparse Attention (DSA)

DSA terdiri dari lightning indexer dan mekanisme seleksi token yang rinci
- lightning indexer bekerja dengan presisi FP8 dan menentukan pasangan key-value top-k yang akan dipilih setiap token query
- Dengan ini, kompleksitas O(L²) diturunkan menjadi O(Lk) sehingga pemrosesan konteks panjang menjadi efisien
Implementasi berbasis MLA menjaga kompatibilitas dengan DeepSeek-V3.1-Terminus yang sudah ada
Menjalankan proses continual learning dua tahap
- Tahap Dense Warm-up untuk inisialisasi indexer
- Tahap Sparse Training untuk menyesuaikan seluruh model ke pola DSA, dengan pelatihan pada 943.7B token

Evaluasi performa dan efisiensi

DeepSeek-V3.2-Exp sangat meningkatkan efisiensi pemrosesan konteks panjang sambil tetap mempertahankan hasil yang setara dengan DeepSeek-V3.1-Terminus tanpa penurunan performa
Mencatat skor penalaran yang lebih baik dibanding versi sebelumnya pada benchmark independen seperti AA-LCR3 dan Fiction.liveBench
Berdasarkan klaster GPU H800, biaya per token berkurang drastis sehingga menghasilkan peningkatan kecepatan end-to-end

Post-Training dan struktur reinforcement learning

Menggabungkan Specialist Distillation dan Mixed RL
- Melatih 6 model domain spesialis dengan RL, termasuk matematika, pemrograman, penalaran logis, agen umum, agen kode, dan agen pencarian
- Data dari tiap model spesialis kemudian didistilasi untuk membuat checkpoint akhir
Menggunakan algoritme Group Relative Policy Optimization (GRPO) untuk menyatukan pelatihan penalaran, agen, dan alignment
- Mengombinasikan model reward, penalti panjang, dan reward konsistensi bahasa
DeepSeek-V3.2-Speciale juga menerapkan data dan skema reward tambahan dari DeepSeekMath-V2 untuk memperkuat kemampuan pembuktian matematis

Teknik stabilisasi reinforcement learning (Scaling GRPO)

Unbiased KL Estimate memastikan konvergensi yang stabil
- Mengatasi masalah gradien tidak stabil pada estimator K3 yang sebelumnya digunakan
Off-Policy Sequence Masking menutupi sampel negatif dengan ketidaksesuaian kebijakan yang besar, sehingga meningkatkan stabilitas pelatihan
Keep Routing menjaga konsistensi routing pada model Mixture-of-Experts
Keep Sampling Mask mencegah ketidaksesuaian ruang aksi antar kebijakan saat sampling top-p dan top-k

Penalaran berbasis pemanfaatan alat (Thinking in Tool-Use)

Memperkenalkan Thinking Context Management untuk mencegah penalaran ulang yang tidak perlu saat memanggil alat
- Isi penalaran sebelumnya hanya dihapus ketika pesan pengguna baru ditambahkan
- Riwayat pemanggilan alat tetap dipertahankan untuk pengelolaan konteks yang efisien
Pada tahap Cold-Start, data penalaran dan data agen digabungkan
- Data reasoning menandai jalur penalaran dengan tag <think></think>
- Menjadi dasar pelatihan terpadu melalui system prompt yang mencakup pemanggilan alat
Melalui sintesis tugas agen berskala besar, dihasilkan 1.800 lingkungan dan 85.000 prompt
- Menjalankan pelatihan RL berbasis lingkungan nyata termasuk API pencarian web nyata, alat eksekusi kode, dan Jupyter Notebook
- Search Agent mengotomatiskan pembuatan pertanyaan, verifikasi, dan evaluasi reward melalui pipeline multi-agen
- Menerapkan model reward hibrida yang mengoptimalkan keandalan faktual dan kegunaan praktis secara bersamaan

Kesimpulan

DeepSeek-V3.2 menembus keterbatasan model terbuka dengan menggabungkan struktur attention yang efisien dan pelatihan RL yang dapat diskalakan
Dalam performa terpadu penalaran dan agen, model ini sangat memperkecil kesenjangan dengan model tertutup dan muncul sebagai alternatif yang hemat biaya
Dinilai sebagai contoh yang menunjukkan arah perkembangan berperforma tinggi yang berkelanjutan bagi LLM open-source

1 komentar

GN⁺ 2025-12-02

Komentar Hacker News

Mengesankan bahwa mereka terus meningkatkan efisiensi biaya dan membagikan proses perkembangannya secara terbuka
Semoga upaya seperti ini bisa menjadi kekuatan yang mencegah monopoli AI
- Namun, sebenarnya tidak jelas siapa yang sedang “menang” dalam efisiensi biaya, karena kita tidak tahu struktur untung-rugi tiap perusahaan
- Saya setuju, tapi saya tidak menganggap niat mereka tunggal
- Sampai benar-benar bisa berjalan penuh di satu GPU, belum ada yang bisa disebut pemenang sejati dalam efisiensi biaya
- Sepertinya mereka akan terus melakukan keterbukaan seperti ini sampai berhasil membuat model yang jauh lebih baik daripada pesaing. Tapi kalau mereka tetap terbuka bahkan setelah benar-benar unggul, barulah saya akan benar-benar terkesan
- Namun, menganggap perusahaan yang didukung Partai Komunis Tiongkok bertindak dengan niat murni menurut saya naif. Jelas ada tujuan lain di baliknya
Jika model terbuka bisa bersaing dengan model komersial, muncul pertanyaan bagaimana perusahaan seperti Google, Anthropic, dan OpenAI bisa menghasilkan uang dari AI
Dulu open source gagal karena tertinggal dari model tertutup dalam kualitas dan kedalaman fitur, tetapi sekarang performa tampaknya sudah memasuki fase stagnasi
Pada akhirnya, pihak yang memiliki infrastruktur energi termurah kemungkinan akan menjadi pemenang jangka panjang
- Menurut dokumen internal Google, “AI/LLM tidak punya moat.” Namun, meski tidak memiliki modelnya sendiri, tetap bisa meraup keuntungan besar jika menawarkannya dalam bentuk SaaS atau MaaS
  Misalnya seperti Amazon yang melayani API MongoDB, pada akhirnya ini adalah struktur bisnis yang menghasilkan uang dari biaya penggunaan infrastruktur
  Sebagian besar perusahaan tidak mampu meng-host model SOTA sendiri. Melihat kenyataan bahwa bahkan server email pun jarang dioperasikan sendiri, hal ini mudah dipahami
  Google menciptakan Transformer, dan OpenAI sukses dengan ChatGPT lewat RLHF, tetapi sekarang justru fitur ringkasan AI milik Google yang kembali menempati bagian atas pencarian
  Dokumen terkait: Google “We have no moat, and neither does OpenAI”
- Perusahaan-perusahaan mempercayai OpenAI atau Anthropic. Fakta bahwa ada pihak yang bisa dimintai pertanggungjawaban saat terjadi masalah juga penting
- Jika suatu saat bisa memperoleh energi murah dari luar angkasa, Musk mungkin bisa mendapatkan keunggulan besar dalam persaingan AI. Ia terobsesi membangun pabrik satelit AI di bulan
- Pada akhirnya persaingan ditentukan oleh kombinasi UX, lock-in, dan kepercayaan. Semakin dalam AI mengakses data pribadi, semakin orang memilih merek yang sudah mereka kenal
- Model murni itu sendiri tidak menghasilkan keuntungan. Nilai utamanya adalah mengintegrasikan model ke platform yang sudah termonetisasi
Model kali ini disebut mengalami peningkatan besar bukan hanya pada benchmark, tetapi juga pada efisiensi inferensi
Tautan terkait: Perbandingan performa oleh Thomas Ip
- Saya penasaran kenapa bisa seefisien itu
chat template DeepSeek-V3.2 berubah cukup besar.
Awalnya saya kira mereka membuat format baru, tetapi setelah melihat sintaksnya, ternyata pada dasarnya tampak sama dengan format Harmony
Kalau begitu, akan lebih mudah dipahami kalau sejak awal disebut kompatibel dengan Harmony
Saya penasaran kenapa hampir tidak ada model kelas 32~512GB, dan kenapa RAM maksimum Mac Studio M4 hanya 128GB
- Ini cuma bercanda, tapi jadi teringat kalimat “128GB sudah cukup.” Saya berharap RAM yang lebih besar di M5 Max
Keren melihat model seperti ini dirilis sebagai open source. Tapi saya ragu apakah rig seharga $20.000 dengan empat RTX 5090 cukup untuk menjalankannya dengan cepat
- Di Mac Studio M3 Ultra 512GB, katanya bisa menghasilkan sekitar 20 token per detik. Video demo
- Untuk model besar, pendekatan realistis adalah menjalankannya di cloud dengan biaya per jam atau per token. Bisa saja membeli rack H100 sendiri, tetapi penggunaan cloud jauh lebih efisien
- Rig pribadi sekarang kurang efisien dari sisi biaya. Jika memperhitungkan GPU, listrik, dan biaya pendinginan, menurut saya lebih baik membeli RTX Pro 6000
- Dua penyedia DeepSeek-V3.2 di OpenRouter (termasuk DeepSeek) sama-sama menjalankannya di sekitar 28tps. Tautan OpenRouter
  Justru ini mendukung klaim komentar awal bahwa model ini lambat untuk penggunaan konsumen
- Saya juga memakai rig dengan 6 RTX 3090, dan model 685B parameter terlalu lambat. Agar tetap nyaman dipakai, harus menggunakan model 144B ke bawah. GLM 4.5 Air sangat bagus khususnya
Melihat tabel 3 di paper, DS-Speciale menempati posisi 1 atau 2 di hampir semua tes, tetapi jumlah token keluarannya lebih dari 50% lebih banyak
- Beberapa masalah penalaran logis memang membutuhkan rantai pemikiran yang lebih panjang. DeepSeek yang biayanya rendah bisa memaksimalkan bagian ini
  Dengan membuat beberapa jawaban secara paralel lalu memilih jawaban akhir, performa penalaran bisa diskalakan dengan sumber daya komputasi
Setelah dipakai beberapa jam, ini terasa sebagai model yang solid dan kompetitif. Menurut saya lebih baik daripada GLM4.6 dan juga lebih bagus daripada Kimi K2. Saya menantikan v4
Menarik bahwa ini adalah model frontier besar yang dirilis dengan lisensi MIT
Saya tidak begitu paham standar penilaian industri AI di AS. Model Tiongkok jauh lebih murah tetapi performanya hampir setara
- Model Tiongkok kebanyakan berfokus pada teks, sementara model AS dan Eropa juga menangani gambar, suara, dan video sehingga biayanya lebih besar
  Selain itu, benchmark sudah mendekati titik jenuh sehingga kesenjangannya tampak kecil, tetapi perbedaan 1% di level teratas sebenarnya sangat berarti
  Di leaderboard Metabench yang saya buat, model Tiongkok memang bagus, tetapi tetap masih ada jarak dengan jajaran teratas
  Namun karena biaya inferensinya rendah, model Tiongkok kuat dalam aspek value for money
- Dalam deployment nyata, kuncinya adalah kecepatan infrastruktur. Di OpenRouter, model Tiongkok tidak secepat Claude, GPT, atau Gemini
  Perusahaan AS pada dasarnya menjual bukan hanya model, tetapi juga infrastruktur latensi rendah skala global. Itu menjelaskan valuasi perusahaan mereka yang tinggi
  Sebagai referensi, Cerebras menyediakan GLM 4.6 yang sangat cepat
- Penyedia pihak ketiga tidak mendukung caching. Jika caching diaktifkan, biaya model AS bisa turun hingga sekitar 2x dan menjadi jauh lebih kompetitif
- Valuasi perusahaan AS didasarkan pada potensi masa depan ketimbang pencapaian saat ini. Investasi dilakukan dalam keadaan pemahaman terhadap riset Tiongkok masih kurang
  Mungkin ada asumsi tersembunyi bahwa DeepSeek akan dilarang dan open software akan diblokir di AS
- Meski begitu, jika AS tidak lebih dulu memicu persaingan lewat FOMO (takut ketinggalan), strategi Tiongkok mungkin tidak akan berhasil seperti sekarang
  Ke depan, model frontier bisa jadi akan dibedakan lewat edge case yang lebih detail

DeepSeek-V3.2 dirilis - memperluas batas model bahasa besar terbuka

Ikhtisar DeepSeek-V3.2

Keterbatasan model terbuka dan arah perbaikannya

DeepSeek Sparse Attention (DSA)

Evaluasi performa dan efisiensi

Post-Training dan struktur reinforcement learning

Teknik stabilisasi reinforcement learning (Scaling GRPO)

Penalaran berbasis pemanfaatan alat (Thinking in Tool-Use)

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News