DeepSeek v4: Model bahasa besar berefisiensi tinggi yang mendukung konteks 1 juta token

(huggingface.co)

10 poin oleh GN⁺ 2026-04-24 | 1 komentar | Bagikan ke WhatsApp

Model bahasa besar berbasis Mixture-of-Experts(MoE) yang mendukung konteks 1 juta token, dirilis dalam dua versi: Pro (1.6T parameter) dan Flash (284B parameter)
Arsitektur attention hibrida yang menggabungkan Compressed Sparse Attention(CSA) dan Heavily Compressed Attention(HCA), sehingga pada 1 juta token hanya menggunakan 27% FLOPs inferensi dan 10% cache KV dibanding DeepSeek-V3.2
Setelah pra-pelatihan dengan lebih dari 32T token, diterapkan pipeline pascapelatihan 2 tahap yang melatih pakar per domain secara terpisah lalu mengintegrasikannya ke dalam satu model melalui on-policy distillation
DeepSeek-V4-Pro-Max mencapai performa open source terbaik pada benchmark coding seperti LiveCodeBench 93.5, SWE Verified 80.6, dan Codeforces 3206
Mendukung tiga mode inferensi: Non-Think, Think High, dan Think Max, sehingga bisa dipilih sesuai kebutuhan dari tugas harian hingga penalaran tersulit

Ikhtisar model dan arsitektur

Seri DeepSeek-V4 terdiri dari dua model: DeepSeek-V4-Pro (total 1.6T parameter, 49B aktif) dan DeepSeek-V4-Flash (total 284B parameter, 13B aktif)
Kedua model sama-sama mendukung panjang konteks 1 juta token
Tiga peningkatan utama pada arsitektur dan optimisasi:
- Hybrid Attention Architecture: menggabungkan CSA dan HCA untuk sangat meningkatkan efisiensi konteks panjang; pada 1 juta token, FLOPs inferensi per token tunggal turun menjadi 27% dan cache KV menjadi 10% dibanding DeepSeek-V3.2
- Manifold-Constrained Hyper-Connections(mHC): memperkuat koneksi residual yang ada untuk sekaligus menjaga stabilitas propagasi sinyal antar-layer dan daya representasi model
- Muon Optimizer: memberikan konvergensi lebih cepat dan stabilitas pelatihan yang lebih tinggi

Pipeline pelatihan dan pascapelatihan

Pra-pelatihan dilakukan dengan token yang beragam dan berkualitas tinggi sebanyak lebih dari 32T
Pascapelatihan menerapkan paradigma 2 tahap:
- Tahap 1: melatih pakar per domain secara independen melalui SFT dan RL (menggunakan GRPO)
- Tahap 2: mengintegrasikan keahlian dari berbagai domain ke dalam satu model melalui on-policy distillation

Mode inferensi

DeepSeek-V4-Pro dan DeepSeek-V4-Flash sama-sama mendukung tiga mode inferensi:
- Non-Think: respons cepat dan intuitif, cocok untuk pekerjaan sehari-hari atau pengambilan keputusan berisiko rendah
- Think High: analisis logis yang lebih mendalam, cocok untuk pemecahan masalah kompleks atau perencanaan
- Think Max: mendorong kemampuan penalaran hingga batasnya, untuk mengeksplorasi batas inferensi model

Performa benchmark — model Base

DeepSeek-V4-Pro-Base melampaui V3.2-Base dan V4-Flash-Base di sebagian besar benchmark:
- MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro: 73.5 (V3.2-Base 65.5)
- Simple-QA Verified: 55.2 (V3.2-Base 28.3)
- FACTS Parametric: 62.6 (V3.2-Base 27.1)
- HumanEval: 76.8 (V3.2-Base 62.8)
- LongBench-V2: 51.5 (V3.2-Base 40.2)
V4-Flash-Base membuktikan efisiensinya dengan hanya 13B parameter aktif, mendekati atau bahkan melampaui V3.2-Base (37B aktif) di beberapa benchmark

Performa benchmark — model Instruct (V4-Pro-Max vs model frontier)

Sangat menonjol pada benchmark coding:
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
Di area pengetahuan dan penalaran:
- SimpleQA-Verified 57.9 dan Chinese-SimpleQA 84.4 melampaui sebagian besar model, tetapi masih di bawah Gemini-3.1-Pro High (75.6, 85.9)
- GPQA Diamond 90.1, MMLU-Pro 87.5
Tugas agen:
- Berada di papan atas pada SWE Verified 80.6 dan MCPAtlas Public 73.6
- Pada Terminal Bench 2.0(67.9) dan HLE w/ tools(48.2), masih di bawah beberapa model closed-source
V4-Flash-Max dapat mencapai performa penalaran yang mendekati versi Pro jika diberi thinking budget yang lebih besar, tetapi sedikit tertinggal pada tugas pengetahuan murni dan workflow agen yang kompleks karena perbedaan skala parameter

Perbandingan performa per mode

V4-Pro Max mencatat performa terbaik di semua benchmark
Terlihat pola peningkatan yang konsisten dari Non-Think → Think High → Think Max:
- Contoh: pada GPQA Diamond, V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- Contoh: pada LiveCodeBench, V4-Flash Non-Think 55.2 → Max 91.6
V4-Flash Max menunjukkan performa yang mirip atau melampaui V4-Pro High di sejumlah benchmark

Unduhan model dan presisi

Empat model tersedia: V4-Flash-Base, V4-Flash, V4-Pro-Base, dan V4-Pro
Model Base menggunakan presisi FP8 Mixed, sedangkan model Instruct menggunakan presisi FP4 + FP8 Mixed
- Parameter pakar MoE menggunakan FP4, sementara sebagian besar sisanya menggunakan FP8
Dapat diunduh dari HuggingFace dan ModelScope

Template chat dan eksekusi lokal

Template chat format Jinja tidak disertakan; sebagai gantinya, folder encoding menyediakan skrip Python dan test case untuk encoding/parsing pesan dalam format yang kompatibel dengan OpenAI
Parameter sampling yang direkomendasikan untuk deployment lokal: temperature 1.0, top_p 1.0
Pada mode Think Max, disarankan context window minimal 384K token

Lisensi

Baik bobot model maupun repositorinya sama-sama menggunakan MIT License

1 komentar

GN⁺ 2026-04-24

Komentar Hacker News

Untuk model besar seperti v4 pro, biayanya sekitar $4 per 1 juta token output, jadi saya tidak yakin klaim bahwa "lab frontier menjalankannya dengan subsidi inferensi yang gila-gilaan" itu benar
Model langganan pun tampaknya sudah cukup menguntungkan, belum lagi harga API
Input $1.74/M, output $3.48/M menurut OpenRouter
- Ada juga penjelasan bahwa harga tinggi sekarang disebabkan oleh kekurangan kartu inferensi DeepSeek
  Katanya dalam siaran pers disebutkan bahwa ketika kartu komputasi Ascend 950 keluar pada paruh kedua tahun ini, harga Pro akan turun besar
- Dari sisi biaya operasional mungkin sudah untung, tetapi jika dihitung berdasarkan biaya modal dengan jadwal depresiasi saat ini, mungkin belum
  Meski begitu, belakangan estimasi biaya itu juga cenderung naik lebih tinggi dari perkiraan
- Saya juga melihatnya kurang lebih sama
  Layanan berlangganan tampaknya sudah untung, dan narasi soal subsidi pada akhirnya terlihat seperti logika untuk mengambil margin lebih tinggi dari API pelanggan enterprise
- Poin itu benar, tetapi masih belum ada penyedia Barat yang bisa menyamai level harga itu
  Biaya listrik di Tiongkok juga lebih murah
Agak menghangatkan hati bahwa dokumentasi pengembang keluar lebih dulu daripada siaran pers yang mencolok
- Betul, ini benar-benar this is the way
- Kalau mau menyebut ini open source, lalu di mana data pelatihan dan skrip pelatihannya?
  Setelah diperbaiki, sepertinya ungkapan "open source" sudah dihilangkan dari komentar teratas
Sudah muncul di OpenRouter
Pro: input $1.74/m, output $3.48/m, dan Flash: input $0.14/m, output $0.28/m
- Di sini muncul Api Error
  Semua model lain berjalan normal
- https://openrouter.ai/deepseek/deepseek-v4-pro
  
  https://openrouter.ai/deepseek/deepseek-v4-flash
Menyenangkan melihat open source sungguhan datang dari Tiongkok
Saya tahu mungkin ada motif tersembunyi, tapi tetap saja terasa menarik
- Perusahaan AS meminta verifikasi identitas yang berlebihan bahkan untuk akses model berbayar, menyimpan data serta memakainya untuk analisis dan pelatihan, dan juga terang-terangan mengatakan bisa menyerahkannya ke otoritas kapan pun diminta
  Motif tersembunyi Tiongkok itu asumsi, sementara pihak AS justru terbuka menunjukkannya
- Tulisan ini membantu memahami kenapa lab Tiongkok merilis model mereka
  http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
- Ini cuma open weights
Mereka mengunggah 1.6T Pro base model ke Hugging Face
Ini pertama kalinya saya melihat notasi model skala T di sini
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Modelnya dirilis dan cukup mengesankan
Performanya kelas frontier, tetapi biayanya jauh lebih rendah, dan rasanya lebih baik daripada Opus 4.6
- Saya mulai merasa sekarang sudah tidak perlu lagi membandingkan model dengan Opus
  Pengguna Opus akan tetap percaya itu yang terbaik, sedangkan yang bukan pengguna memang tidak menginginkan biaya, lock-in, dan batasannya
  Saya sendiri masih memakai model termurah dan tercepat yang bisa menyelesaikan pekerjaan, dan saat ini peran itu diisi MiniMax M2.5
  Kadang saya mencoba model terbaru yang lebih mahal, tetapi hasilnya mirip, jadi saya juga bertanya-tanya apakah ada hype berlebihan di seluruh industri AI yang membuat kemajuannya terlihat hanya di benchmark
- Saya penasaran bagaimana kalau dibandingkan dengan Opus 4.7
  Saya ikut hackathon Anthropic Opus 4.7 sepanjang minggu ini dan banyak memakai 4.7; meski token yang dipakai jauh lebih banyak daripada 4.6, hasilnya cukup mengesankan
- Saya penasaran apakah benar lebih baik daripada Opus 4.6, atau cuma sangat dioptimalkan untuk benchmark
  Ingin tahu apakah sudah dicoba untuk coding nyata dengan agent harness
  Kalau kemampuan coding-nya lebih baik daripada Claude Code + Opus 4.6, saya akan langsung pindah
- Mulai lagi deh
  Setiap hari ada posting rilis yang bilang lebih baik daripada Opus 4.6, padahal DeepSeek sendiri pun tidak mengklaim itu jika thinking ikut dihitung
  Dsv3 bukan model yang cuma menggembungkan benchmark, dan pada tugas di luar benchmark pun cukup konsisten; memang belum SoTA, tetapi tetap bagus
  Model kali ini terlihat mirip
  Levelnya tepat di bawah performa terbaik, tetapi selisihnya tidak besar dan harganya jauh lebih rendah
  Model besar saat ini dilayani langsung oleh ds dengan harga $1.74 in / $3.48 out / $0.14 cache, jadi sangat murah untuk nilai yang ditawarkan
  Model kecil $0.14 in / $0.28 out / $0.028 cache, jadi praktis murah sekali sampai nyaris tak perlu dipikirkan, dan bisa menjadi kandidat realistis untuk dijalankan di rumah
  Jika performanya cukup bagus, sepertinya sangat mampu bersaing dengan lini haiku atau gemini-flash
- Dari angka benchmark yang dipublikasikan, saya hitung kasar total selisihnya 20.1 poin persentase pada 20 metrik yang sama-sama punya skor
  Rata-rata peningkatannya sekitar 2%, dan sejujurnya sulit menilai apakah itu besar atau remeh
  Claude 4.6 jauh lebih baik hampir 10pp pada tanya-jawab konteks panjang, terutama corpuses di CorpusQA dan percakapan multi-putaran di MRCR
  Sebaliknya, DSv4 unggul 14pp penuh di IMOAnswerBench dan 12pp di SimpleQA-Verified
Bobot model bisa diunduh di sini
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
- https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
  https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
  
  Sangat bagus karena base model yang baru juga ikut dirilis
Saya sangat tertarik pada bidang ini dan juga punya banyak hal yang dipertaruhkan di dalamnya, tetapi jujur sekarang saya mulai burnout kalau harus terus mengikuti semuanya
Rasanya kita sudah lama melewati titik di mana AI perlu merangkum perkembangan AI agar kita bisa mengikutinya
- Lebih baik jangan mencoba mengikuti semuanya
  Mirip berita pada umumnya, saat ada hal yang benar-benar perlu diketahui, seseorang akan memberi tahu lebih dulu
- Pemain intinya hampir tidak berubah
  Cukup diikuti seperti mengikuti olahraga, dan kalau menerima bahwa posisi puncak memang bisa berganti, rasanya tidak terlalu melelahkan
- Secara rasa, sejak GPT-4 semuanya mirip-mirip saja
  Model baru keluar lalu ceritanya hanya beberapa benchmark yang membaik, sementara pengalaman subjektif saat benar-benar dipakai hampir sama
  Sejak itu tidak banyak yang benar-benar mengejutkan, dan sekarang rasanya stagnan menjadi sesuatu yang hanya diminati kelompok antusias
Dibanding fakta bahwa High Flyer membuat ini dengan meniru Anthropic secara terang-terangan, yang lebih mengganggu bagi saya justru bahwa GAB memberi mereka cukup waktu untuk menanam puluhan easter egg setingkat xz di dalamnya
Baru saja saya mencobanya lewat OpenRouter di Pi Coding agent, dan cukup sering read dan write tool tidak dipakai dengan benar
Cukup mengecewakan, dan saya penasaran apakah ada solusi yang lebih baik daripada prompt seperti "jangan gunakan direct call, selalu gunakan tool yang disediakan"
- Baru dirilis belum lama ini, jadi sebaiknya tunggu sebentar
  Kemungkinan besar pra-pengujian dengan Pi memang belum cukup dilakukan

DeepSeek v4: Model bahasa besar berefisiensi tinggi yang mendukung konteks 1 juta token

Ikhtisar model dan arsitektur

Pipeline pelatihan dan pascapelatihan

Mode inferensi

Performa benchmark — model Base

Performa benchmark — model Instruct (V4-Pro-Max vs model frontier)

Perbandingan performa per mode

Unduhan model dan presisi

Template chat dan eksekusi lokal

Lisensi

Bacaan terkait

1 komentar

Komentar Hacker News