DeepSeek V4 – Hampir Menyamai Frontier dan Harganya Jauh Lebih Murah

(simonwillison.net)

7 poin oleh GN⁺ 2026-05-03 | 2 komentar | Bagikan ke WhatsApp

DeepSeek merilis dua model pratinjau pertama dalam seri V4, yaitu DeepSeek-V4-Pro dan DeepSeek-V4-Flash. Keduanya adalah model Mixture of Experts yang mendukung konteks 1 juta token dan tersedia dengan lisensi MIT
DeepSeek-V4-Pro adalah model dengan total 1.6T parameter dan 49B parameter aktif, menjadikannya model open weight terbesar dibanding Kimi K2.6, GLM-5.1, dan DeepSeek V3.2
Pembeda utama DeepSeek V4 adalah harga: Flash dibanderol $0.14 per 1 juta token input dan $0.28 output, sedangkan Pro $1.74 input dan $3.48 output, lebih rendah daripada model kecil maupun besar pembanding
Harga rendah ini terkait dengan efisiensi konteks panjang: pada konteks 1 juta token, Pro menurunkan FLOPs per token tunggal menjadi 27% dan KV cache menjadi 10% dibanding DeepSeek-V3.2, sementara Flash turun ke 10% FLOPs dan 7% KV cache
Dalam benchmark internal, DeepSeek-V4-Pro dinilai mampu bersaing dengan model frontier, tetapi masih sedikit di bawah GPT-5.4 dan Gemini-3.1-Pro, dengan lintasan pengembangan sekitar 3–6 bulan di belakang model frontier paling mutakhir

Rilis model dan spesifikasi dasar

Setelah V3.2 dan V3.2 Speciale pada Desember 2025, DeepSeek merilis dua model pratinjau pertama dalam seri V4: DeepSeek-V4-Pro dan DeepSeek-V4-Flash
Keduanya adalah model Mixture of Experts yang mendukung konteks 1 juta token dan menggunakan lisensi MIT standar
DeepSeek-V4-Pro memiliki total 1.6T parameter dengan 49B parameter aktif, sedangkan DeepSeek-V4-Flash memiliki total 284B parameter dengan 13B parameter aktif
DeepSeek-V4-Pro lebih besar daripada Kimi K2.6 dengan 1.1T, GLM-5.1 dengan 754B, dan DeepSeek V3.2 dengan 685B, sehingga tampak menjadi model open weight terbesar yang baru
Berdasarkan Hugging Face, ukuran model Pro adalah 865GB dan Flash 160GB. Flash yang dikuantisasi ringan diperkirakan dapat dijalankan pada MacBook Pro M5 128GB
Model Pro juga berpotensi bisa dijalankan pada mesin yang sama jika hanya expert aktif yang diperlukan dapat di-stream dari disk
Pengujian singkat melalui OpenRouter
- Model dipanggil menggunakan OpenRouter dan llm-openrouter dengan perintah berikut
- ```
llm install llm-openrouter  
llm openrouter refresh  
llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle'  
```
- Hasil yang dihasilkan dipublikasikan sebagai SVG pelikan dari DeepSeek-V4-Flash dan SVG pelikan dari DeepSeek-V4-Pro
- Sebagai pembanding, hasil dari prompt yang sama untuk DeepSeek V3.2 pada Desember 2025, V3.1 pada Agustus 2025, dan V3-0324 pada Maret 2025 juga ditampilkan

Harga, efisiensi, dan posisi performa

Aspek paling menonjol dari DeepSeek V4 adalah harga. Berdasarkan halaman harga DeepSeek, Flash dibanderol $0.14 per 1 juta token input dan $0.28 per 1 juta token output
Pro dibanderol $1.74 per 1 juta token input dan $3.48 per 1 juta token output
Dalam tabel perbandingan, DeepSeek V4 Flash lebih murah daripada GPT-5.4 Nano dengan input $0.20 dan output $1.25, serta Gemini 3.1 Flash-Lite dengan input $0.25 dan output $1.50, menjadikannya yang termurah di antara model kecil
DeepSeek V4 Pro lebih murah daripada Gemini 3.1 Pro dengan input $2 dan output $12, GPT-5.4 dengan input $2.50 dan output $15, Claude Sonnet 4.6 dengan input $3 dan output $15, Claude Opus 4.7 dengan input $5 dan output $25, serta GPT-5.5 dengan input $5 dan output $30, menjadikannya yang termurah di antara model frontier besar
Efisiensi mendukung harga yang rendah
- Makalah DeepSeek menyatakan bahwa rilis kali ini sangat berfokus pada efisiensi prompt berkonteks panjang
- Pada konteks 1 juta token, DeepSeek-V4-Pro hanya membutuhkan 27% FLOPs per token tunggal dan ukuran KV cache 10% dibanding DeepSeek-V3.2
- Dalam kondisi yang sama, DeepSeek-V4-Flash menurunkan FLOPs per token tunggal menjadi 10% dan ukuran KV cache menjadi 7% dibanding DeepSeek-V3.2
Dalam benchmark, mendekati frontier tetapi masih di bawah papan atas
- Benchmark yang dilaporkan sendiri oleh DeepSeek menunjukkan bahwa model Pro dapat bersaing dengan model frontier lain
- Menurut makalah tersebut, DeepSeek-V4-Pro-Max dengan perluasan token penalaran menunjukkan performa lebih tinggi daripada GPT-5.2 dan Gemini-3.0-Pro pada benchmark penalaran standar
- Namun, performanya masih sedikit di bawah GPT-5.4 dan Gemini-3.1-Pro, serta menunjukkan lintasan pengembangan sekitar 3–6 bulan di belakang model frontier paling mutakhir
- Versi kuantisasi dari Unsloth di huggingface.co/unsloth/models dinantikan, dan seberapa baik model Flash akan berjalan di mesin lokal masih menjadi perhatian

2 komentar

emptybynature 2026-05-09

Pertama, fakta bahwa harganya benar-benar murah itu bagus, tapi masalahnya terlalu lambat.... kalau pakai codex butuh 5 menit, yang ini mikir 20 menit. Jadi ketimbang dipakai untuk implementasi, sekarang saya lebih sering memakainya untuk code review, dan untuk code review hasilnya cukup bagus jadi saya puas.

GN⁺ 2026-05-03

Komentar Hacker News

Pembeda terbesar buat saya adalah DeepSeek benar-benar melakukan apa yang diminta. Saya baru-baru ini mencoba GPT dan Claude untuk keperluan rekayasa balik, dan keduanya menolak, bahkan akun OpenAI saya sampai mendapat peringatan
- Sayangnya, tingkat halusinasinya sangat tinggi, sehingga sisi terburuk model bahasa besar jadi terlihat jelas
  Deepseek v4 pro 94%
  Deepseek v4 flash - 96%
  https://artificialanalysis.ai/evaluations/omniscience?models...
- Dalam pengalaman saya, IDA Pro dan GLM 5.1 sangat bagus bila dipakai bersama, DeepSeek v4 pro berada di posisi kedua dengan selisih tipis, dan Kimi langsung menolak. Claude bisa dipakai untuk rekayasa balik kalau didorong dulu ke mode pahlawan/penyelamat lalu perlahan diarahkan ke sisi red team, tapi gampang sekali tersandung
- Karena kantor punya akun Cursor enterprise, saya bisa mencoba semua model arus utama. Saat menyelidiki masalah di kode kami sendiri yang memang punya source, saya memakai Composer 2 dan memintanya mengaktifkan flag debug untuk melewati pengecekan lisensi, tapi tetap tidak mau
  Saya benar-benar kesal, rasanya seperti meme Patrick di SpongeBob jadul. Saya tidak paham kenapa model ingin dijadikan penegak hukum. Sesuatu yang ilegal tetap ilegal, dan sudah ada profesional yang menangani kejahatan. Google tidak perlu menjadi penengah kebenaran dan keadilan. Lembaga penegak hukum saja sudah sulit dimintai pertanggungjawaban, meski setidaknya mereka bekerja untuk kita
- Bagian “bahkan akun OpenAI saya sampai mendapat peringatan” itu benar-benar aneh dan distopis, karena software mengancam pengguna dengan membawa-bawa konsekuensi
  Rekan-rekan developer, dunia seperti apa yang kita bangun? Ini gila. Bayangkan palu berkata, “jangan pakai aku untuk sekrup, hanya untuk paku. Kalau diulangi aku akan meledak sendiri.” Tolong berhenti membuat software seperti ini
- Bagian “akun OpenAI saya sampai mendapat peringatan” juga terasa cukup menakutkan cukup sering. Bagi orang biasa tanpa pengikut, praktis tidak ada proses banding yang nyata, dan ada kemungkinan dikucilkan dari alat-alat dasar
  Bayangkan OpenAI mengakuisisi 20 perusahaan lalu Anda tidak bisa lagi memakai Figma atau Next hanya karena dulu pernah sekali melewati garis yang samar. Bukan cuma OpenAI, seluruh ekosistem ini terlalu sulit dibaca
  Saya pernah bertanya ke Gemini tentang sebuah kutipan dari Catch-22, dan meski tidak ada konten kekerasan atau seksual, responsnya terus berhenti di tengah streaming dan mengatakan tidak bisa membahasnya. Buku itu memang punya konten seperti itu, tapi tetap saja muncul rasa bahwa akun workspace secara keseluruhan bisa kena penalti hanya karena itu
  Idealnya masa depan memang lokal, tapi melihat biaya nyata dan konsumsi listrik untuk beberapa tahun ke depan, saya tidak tahu seberapa realistis itu bagi kebanyakan orang. Kalau pun ada pengecualian di ekosistem itu, mungkin prosesor M* saja
DeepSeek v4 Pro terasa seperti Claude Opus 4.6 dari sisi karakter, dan sangat mengesankan dari sisi biaya
Saya memintanya fokus pada satu endpoint saja dalam codebase TypeScript yang cukup besar, lalu menelusuri API, DTO, service, dan model database secara mendalam per lapisan, memahami tipe-tipe terkait secara menyeluruh, dan memastikan tidak muncul tipe sementara
Ia merangkum dengan sangat singkat tapi tepat tipe-tipe yang diperkenalkan dan mana yang dikembalikan, lalu setelah itu saya memintanya menyederhanakan semuanya
Dua prompt itu pasti membuatnya menelusuri banyak file, tetapi total biaya versi Pro hanya $0.09. Kalau memakai Claude Opus, bahkan berdasarkan pengalaman sebelum harga naik, dua prompt itu saja kemungkinan mudah menghabiskan sekitar $9~$13, dan keuntungannya mungkin tidak besar
Sebagai catatan, saya tidak memakai OpenRouter, melainkan langsung API DeepSeek. Soalnya OpenRouter sendiri sedang terkena pembatasan laju dari pihak DeepSeek
- Saya juga mengalami hal yang sama. Tugas seperti “telusuri seluruh modul ini dan sesuaikan dengan style guide pilihan saya secara teliti dan akurat” terasa sayang kalau harus menghabiskan beberapa dolar di model frontier. Enaknya DeepSeek Flash adalah saya bisa melemparkannya ke pekerjaan bodoh, tak perlu, atau sangat spekulatif tanpa khawatir biaya
- Sebagian besar inefisiensi muncul karena model terus menusuk ke sana-sini secara acak dan terus melakukan grep, dan menurut saya ini masalah harness
  Karena itu saya membuat MCP berbasis Prolog yang mem-parse kode menjadi graf dengan tree-sitter, sehingga model bisa bertanya hal seperti “semua fungsi yang terhubung dengan fungsi ini apa saja?” Kalau ingin melihat sebuah endpoint melakukan apa, seluruh subgraf panggilannya bisa ditelusuri dengan mudah dan bisa diprediksi
  https://github.com/yogthos/chiasmus
- Saya penasaran, saat Anda bilang “mungkin menghabiskan $9~$13 tanpa banyak manfaat,” maksudnya tidak banyak manfaat dibanding DeepSeek v4 Pro seharga 9 sen, atau maksudnya keduanya sama-sama tidak terlalu bermanfaat?
- Bahkan jika mempertimbangkan bahwa tagihannya sedang didiskon 75%, tetap saja jauh lebih murah
- Penasaran Anda memakainya bagaimana. Pakai OpenRouter, atau langsung pakai API penyedianya?
Terkait itu, ada demo langsung menjalankan DeepSeek v4 Flash di MacBook 128GB. Videonya berbahasa Italia dan ada subtitle bahasa Inggris
https://www.youtube.com/watch?v=todMmp6AGCE
Saya menghubungkannya ke vscode copilot dan mencoba flash maupun pro. Untuk proof of concept kecil, flash sudah cukup, cukup cepat, dan sangat murah
Beberapa kali sempat macet, mungkin masalah latensi, tapi hasilnya tetap bagus. pro saya pakai untuk pekerjaan berat dan penyusunan rencana, dan hasilnya sangat baik
Untuk satu proof of concept kecil, saya membayar sekitar 10 sen, dan hasilnya bekerja persis seperti yang saya minta. Buat saya ini alternatif nyata setelah membatalkan GitHub Copilot akhir bulan ini
Biayanya memang lebih rendah daripada model frontier, tetapi ada dua hal yang membuat DS4 Pro dan K2.6 tidak semurah yang terlihat
DS4 Pro sedang didiskon di API resminya, dan ini sering terlewat atau tercampur dalam diskusi. Simon memakai harga normal dalam perbandingannya, jadi di sini tidak masalah
Masalah lainnya adalah DS4 Pro dan K2.6 sering memakai jauh lebih banyak token penalaran daripada model frontier. Dalam pengujian saya, pada beberapa kasus yang patologis, token yang dipakai begitu banyak sampai biaya per request bisa setara dengan model frontier. Agar adil, saya memakai DS dan Kimi melalui penyedia pihak ketiga, jadi mungkin ini masalah konfigurasi di sana
Namun jika melihat halaman model di Artificial Analysis, pada benchmark kecerdasan DSv4 Pro memakai 190M token, K2.6 memakai 170M token, sedangkan GPT 5.5 high hanya 45M
Untuk “Intelligence vs. Cost to Run Artificial Analysis Intelligence Index”, saya sarankan melihat “Intelligence vs Cost” di UI. Model open source memang masih lebih murah, tetapi tidak semurah yang diharapkan jika hanya melihat harga token
[0] https://artificialanalysis.ai/models/deepseek-v4-pro
[1] https://artificialanalysis.ai/models/kimi-k2-6
[2] https://artificialanalysis.ai/models/gpt-5-5-high
- Ini sangat keliru, DS4 itu benar-benar murah. Saya sarankan baca dulu paper rilisnya
  https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
  Mereka memperkenalkan HCA dan mCH, metode yang cukup baru untuk meningkatkan efisiensi konteks panjang dan attention. Dibanding v3.2, penalaran hanya butuh 27% FLOP, dan KV cache hanya 10%. Artinya, dengan sumber daya komputasi yang sama, mereka bisa melayani lebih dari 3x lebih banyak, dan hanya butuh 30% dari KV cache sebelumnya
  Lagi pula rilis ini masih PREVIEW. DeepSeek itu benar-benar lab riset terbuka, dan di setiap rilis mereka bukan cuma membuat banyak hal, tapi juga mempublikasikan dan membagikannya. Saya menjalankannya secara lokal
  Kalau mau bicara seberapa “murah”, di v3.2 pada konteks 256k GPU memory saya tidak cukup sehingga meluber ke system memory, dan saya masih puas dengan sekitar 7 ribu token per detik. Kali ini seluruh konteks 1 juta token muat 100% di GPU memory, berjalan lebih dari 2x lebih cepat, dan hasilnya juga lebih baik
  Ini benar-benar murah. Moonshot sudah jelas kekurangan GPU, jadi wajar begitu. Kalau mereka punya kapasitas GPU seperti di AS dan mendukung model seperti di sini, mereka mungkin akan membagikannya gratis
- Itu mungkin bisa terjadi, tapi bukan pengalaman saya. Saya melakukan refaktor yang cukup besar seharian, banyak percakapan bolak-balik, perubahan kode ribuan baris, review, investigasi, sampai pekerjaan paralel oleh banyak sub-agent, dan total biayanya $0.95
  Dulu saat saya mencoba hal yang sama dengan Opus 4.6, sebelum prompt pertama saja selesai kembali, anggaran $10 yang saya pasang sudah habis
  Bahkan kalau harganya sangat didiskon sekali pun, solusi lengkapnya tetap hanya memakan biaya satu digit dolar, sementara Opus memakan biaya dua digit dolar tanpa menghasilkan apa-apa
- Menurut Artificial Analysis, Grok 4.3 lebih cepat, lebih pintar, lebih murah, dan memakai token lebih sedikit daripada DS4. Jadi kenapa tidak ada yang membicarakan Grok?
  1. https://artificialanalysis.ai/models/grok-4-3
V4 jelas naik satu tingkat dibanding V3.2 pada benchmark multibahasa kami
Namun ada dua catatan. Saat inferensi lewat OpenRouter, kecepatannya (TPS) sangat lambat dan kadang sangat tidak stabil. Bahkan barusan saya cek, di semua penyedia yang tersedia hanya 10~30 TPS, yang tidak tinggi untuk model yang banyak “berpikir” seperti DeepSeek
API resmi DeepSeek juga tidak menjamin privasi data bahkan untuk pengguna berbayar
Jika dipakai melalui Azure AI Foundry, mungkin dua masalah itu bukan masalah. Setidaknya yang terakhir, sejauh yang saya tahu, meski saya sendiri belum mengujinya
Bagaimanapun, menyenangkan melihat makin banyak model open-weight yang bisa cukup bersaing dengan model terbaru kelas atas
API resmi DeepSeek, kalau dipakai terus dalam sesi panjang pada codebase yang sama, punya cache hit rate di atas 99%, jadi jauh lebih murah daripada model frontier. Ada contoh sesi 200M token di claude code
- Mungkin ini pertanyaan bodoh, tapi untuk memastikan prefix yang benar cocok dengan cache di sesi baru, apakah file-file harus dibaca dalam urutan yang sama?
Saya heran orang-orang, terutama saat langsung memakai API pengembang model, hampir sama sekali tidak peduli bahwa model seperti ini melatih dirinya secara publik dari data Anda
Kalau ada hal seperti “GitHub sekarang otomatis mengikutsertakan kode semua orang untuk pelatihan model”, komentar marah yang wajar bisa sampai ratusan, tapi saat membahas memakai model Tiongkok lewat OpenRouter, poin ini hampir tidak pernah muncul lagi. Bisa saja dijelaskan dengan “orangnya berbeda”, tapi perbedaannya terlalu mencolok untuk dianggap hanya itu
- Hal bagus dari model open-weight adalah Anda bebas memakai penyedia alternatif yang tidak mengirim data ke pembuat model asli. Misalnya, di OpenRouter terlihat ada 6 penyedia alternatif untuk DeepSeek V4 Pro
- Secara pribadi, saya tidak masalah membantu mereka selama modelnya dirilis terbuka dan tidak ditutup. Dan saya juga tidak percaya pada pengaturan penyedia yang bilang data tidak dipakai untuk pelatihan
- Sebagian besar model open-weight memungkinkan memakai penyedia yang menawarkan tanpa retensi data dan tanpa pelatihan. Contohnya lihat OpenRouter dan OpenCode Go/Zen
  Ini salah satu keunggulan besar open-weight. Baik Tiongkok maupun AS tidak mengambil data saya
- Karena mereka membagikannya gratis dan API-nya juga diberi harga yang sangat masuk akal. Sulit untuk tidak memahaminya. Rasanya seperti Robin Hood mencuri pajak data kita lalu mengembalikannya kepada kita
- Saya tidak masalah kalau mereka melatih model dengan kode open source saya. Kode saya juga cukup jelek, tapi itu bukan intinya, dan lagi pula mereka memberi layanannya gratis. Tapi kalau saya sudah bayar biaya enterprise lalu data itu tetap dipakai untuk pelatihan, saya akan sangat marah. Saya rasa kebanyakan programmer juga berpikir begitu
Ada harapan bahwa setelah sirkus subsidi selesai dan semua beralih ke murni berbasis penggunaan, ini tetap tidak akan sepenuhnya eksklusif bagi orang biasa yang tidak punya anggaran $200 per bulan
- Ada dua alasan saya optimistis tidak akan ada tikungan tajam besar pada rasio harga-kinerja dibanding hari ini
  Pertama, kita terus menemukan cara memasukkan lebih banyak kecerdasan ke model yang lebih kecil, jadi spesifikasi hardware yang sama akan memberikan kemampuan model yang lebih besar seiring waktu
  Kedua, hardware terus membaik dan pasokan perlahan mengejar permintaan, jadi spesifikasi hardware yang bisa dibeli dengan 1 dolar juga akan makin baik seiring waktu
  Saya berharap suatu hari nanti model “mengakses AI lewat API penyedia” akan kita lihat seperti sekarang kita melihat masa ketika “semua orang terhubung ke mainframe perusahaan” dulu
- Saya tidak akan terkejut jika, saat semuanya sudah tenang, penggunaan interaktif pribadi menjadi mustahil di bawah $200. Setiap kali saya mencoba memodelkan biaya serving hal-hal seperti ini, hasilnya tidak cocok dengan laporan publik. Bahkan untuk skenario yang lebih pesimistis sekalipun
Saya sudah mencoba v4 pro beberapa hari terakhir, dan dari sisi kualitas secara umum terlihat mirip OpenAI 5.4 atau Opus 4.6. Saya belum mencoba 4.7
Jelasnya, saya tidak mengerjakan tugas yang benar-benar state-of-the-art. Saya terutama memakainya untuk pengembangan frontend, dan karena saya tidak terlalu ahli di area itu, saya hanya butuh prototipe yang terlihat meyakinkan
Untuk tujuan saya, ini model yang sepenuhnya oke dan harganya juga wajar. Tapi saya benar-benar menunggu model terbuka yang cukup kecil untuk bisa dijalankan lokal. Saya tidak suka harus bergantung pada mesin orang lain, sambil membiarkan semua data saya bocor dalam prosesnya
- Kalau memakai Tinfoil untuk inferensi, Anda bisa mendapatkan privasi yang mirip eksekusi lokal sambil tetap memakai model di cloud: https://tinfoil.sh/inference
  Sebagai catatan, saya co-founder. Cara ini menjalankan model di dalam secure enclave, lalu memverifikasi bahwa kode open source yang berjalan di dalam enclave sesuai dengan runtime attestation. Kami memakai NVIDIA confidential computing
  Dokumentasinya menjelaskan proses verifikasinya: https://docs.tinfoil.sh/verification/verification-in-tinfoil
- Terima kasih sudah berbagi pengalaman memakainya, saya juga sedang ingin mencobanya. Untuk inferensi, Anda memakai penyedia apa? Opencode atau API DeepSeek?

DeepSeek V4 – Hampir Menyamai Frontier dan Harganya Jauh Lebih Murah

Rilis model dan spesifikasi dasar

Pengujian singkat melalui OpenRouter

Harga, efisiensi, dan posisi performa

Efisiensi mendukung harga yang rendah

Dalam benchmark, mendekati frontier tetapi masih di bawah papan atas

Bacaan terkait

2 komentar

Komentar Hacker News