DeepSeek V4 – Hampir Menyamai Frontier dan Harganya Jauh Lebih Murah
(simonwillison.net)- DeepSeek merilis dua model pratinjau pertama dalam seri V4, yaitu DeepSeek-V4-Pro dan DeepSeek-V4-Flash. Keduanya adalah model Mixture of Experts yang mendukung konteks 1 juta token dan tersedia dengan lisensi MIT
- DeepSeek-V4-Pro adalah model dengan total 1.6T parameter dan 49B parameter aktif, menjadikannya model open weight terbesar dibanding Kimi K2.6, GLM-5.1, dan DeepSeek V3.2
- Pembeda utama DeepSeek V4 adalah harga: Flash dibanderol $0.14 per 1 juta token input dan $0.28 output, sedangkan Pro $1.74 input dan $3.48 output, lebih rendah daripada model kecil maupun besar pembanding
- Harga rendah ini terkait dengan efisiensi konteks panjang: pada konteks 1 juta token, Pro menurunkan FLOPs per token tunggal menjadi 27% dan KV cache menjadi 10% dibanding DeepSeek-V3.2, sementara Flash turun ke 10% FLOPs dan 7% KV cache
- Dalam benchmark internal, DeepSeek-V4-Pro dinilai mampu bersaing dengan model frontier, tetapi masih sedikit di bawah GPT-5.4 dan Gemini-3.1-Pro, dengan lintasan pengembangan sekitar 3–6 bulan di belakang model frontier paling mutakhir
Rilis model dan spesifikasi dasar
- Setelah V3.2 dan V3.2 Speciale pada Desember 2025, DeepSeek merilis dua model pratinjau pertama dalam seri V4: DeepSeek-V4-Pro dan DeepSeek-V4-Flash
- Keduanya adalah model Mixture of Experts yang mendukung konteks 1 juta token dan menggunakan lisensi MIT standar
- DeepSeek-V4-Pro memiliki total 1.6T parameter dengan 49B parameter aktif, sedangkan DeepSeek-V4-Flash memiliki total 284B parameter dengan 13B parameter aktif
- DeepSeek-V4-Pro lebih besar daripada Kimi K2.6 dengan 1.1T, GLM-5.1 dengan 754B, dan DeepSeek V3.2 dengan 685B, sehingga tampak menjadi model open weight terbesar yang baru
- Berdasarkan Hugging Face, ukuran model Pro adalah 865GB dan Flash 160GB. Flash yang dikuantisasi ringan diperkirakan dapat dijalankan pada MacBook Pro M5 128GB
- Model Pro juga berpotensi bisa dijalankan pada mesin yang sama jika hanya expert aktif yang diperlukan dapat di-stream dari disk
-
Pengujian singkat melalui OpenRouter
- Model dipanggil menggunakan OpenRouter dan llm-openrouter dengan perintah berikut
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - Hasil yang dihasilkan dipublikasikan sebagai SVG pelikan dari DeepSeek-V4-Flash dan SVG pelikan dari DeepSeek-V4-Pro
- Sebagai pembanding, hasil dari prompt yang sama untuk DeepSeek V3.2 pada Desember 2025, V3.1 pada Agustus 2025, dan V3-0324 pada Maret 2025 juga ditampilkan
Harga, efisiensi, dan posisi performa
- Aspek paling menonjol dari DeepSeek V4 adalah harga. Berdasarkan halaman harga DeepSeek, Flash dibanderol $0.14 per 1 juta token input dan $0.28 per 1 juta token output
- Pro dibanderol $1.74 per 1 juta token input dan $3.48 per 1 juta token output
- Dalam tabel perbandingan, DeepSeek V4 Flash lebih murah daripada GPT-5.4 Nano dengan input $0.20 dan output $1.25, serta Gemini 3.1 Flash-Lite dengan input $0.25 dan output $1.50, menjadikannya yang termurah di antara model kecil
- DeepSeek V4 Pro lebih murah daripada Gemini 3.1 Pro dengan input $2 dan output $12, GPT-5.4 dengan input $2.50 dan output $15, Claude Sonnet 4.6 dengan input $3 dan output $15, Claude Opus 4.7 dengan input $5 dan output $25, serta GPT-5.5 dengan input $5 dan output $30, menjadikannya yang termurah di antara model frontier besar
-
Efisiensi mendukung harga yang rendah
- Makalah DeepSeek menyatakan bahwa rilis kali ini sangat berfokus pada efisiensi prompt berkonteks panjang
- Pada konteks 1 juta token, DeepSeek-V4-Pro hanya membutuhkan 27% FLOPs per token tunggal dan ukuran KV cache 10% dibanding DeepSeek-V3.2
- Dalam kondisi yang sama, DeepSeek-V4-Flash menurunkan FLOPs per token tunggal menjadi 10% dan ukuran KV cache menjadi 7% dibanding DeepSeek-V3.2
-
Dalam benchmark, mendekati frontier tetapi masih di bawah papan atas
- Benchmark yang dilaporkan sendiri oleh DeepSeek menunjukkan bahwa model Pro dapat bersaing dengan model frontier lain
- Menurut makalah tersebut, DeepSeek-V4-Pro-Max dengan perluasan token penalaran menunjukkan performa lebih tinggi daripada GPT-5.2 dan Gemini-3.0-Pro pada benchmark penalaran standar
- Namun, performanya masih sedikit di bawah GPT-5.4 dan Gemini-3.1-Pro, serta menunjukkan lintasan pengembangan sekitar 3–6 bulan di belakang model frontier paling mutakhir
- Versi kuantisasi dari Unsloth di huggingface.co/unsloth/models dinantikan, dan seberapa baik model Flash akan berjalan di mesin lokal masih menjadi perhatian
2 komentar
Pertama, fakta bahwa harganya benar-benar murah itu bagus, tapi masalahnya terlalu lambat.... kalau pakai codex butuh 5 menit, yang ini mikir 20 menit. Jadi ketimbang dipakai untuk implementasi, sekarang saya lebih sering memakainya untuk code review, dan untuk code review hasilnya cukup bagus jadi saya puas.
Komentar Hacker News
Pembeda terbesar buat saya adalah DeepSeek benar-benar melakukan apa yang diminta. Saya baru-baru ini mencoba GPT dan Claude untuk keperluan rekayasa balik, dan keduanya menolak, bahkan akun OpenAI saya sampai mendapat peringatan
Deepseek v4 pro 94%
Deepseek v4 flash - 96%
https://artificialanalysis.ai/evaluations/omniscience?models...
Saya benar-benar kesal, rasanya seperti meme Patrick di SpongeBob jadul. Saya tidak paham kenapa model ingin dijadikan penegak hukum. Sesuatu yang ilegal tetap ilegal, dan sudah ada profesional yang menangani kejahatan. Google tidak perlu menjadi penengah kebenaran dan keadilan. Lembaga penegak hukum saja sudah sulit dimintai pertanggungjawaban, meski setidaknya mereka bekerja untuk kita
Rekan-rekan developer, dunia seperti apa yang kita bangun? Ini gila. Bayangkan palu berkata, “jangan pakai aku untuk sekrup, hanya untuk paku. Kalau diulangi aku akan meledak sendiri.” Tolong berhenti membuat software seperti ini
Bayangkan OpenAI mengakuisisi 20 perusahaan lalu Anda tidak bisa lagi memakai Figma atau Next hanya karena dulu pernah sekali melewati garis yang samar. Bukan cuma OpenAI, seluruh ekosistem ini terlalu sulit dibaca
Saya pernah bertanya ke Gemini tentang sebuah kutipan dari Catch-22, dan meski tidak ada konten kekerasan atau seksual, responsnya terus berhenti di tengah streaming dan mengatakan tidak bisa membahasnya. Buku itu memang punya konten seperti itu, tapi tetap saja muncul rasa bahwa akun workspace secara keseluruhan bisa kena penalti hanya karena itu
Idealnya masa depan memang lokal, tapi melihat biaya nyata dan konsumsi listrik untuk beberapa tahun ke depan, saya tidak tahu seberapa realistis itu bagi kebanyakan orang. Kalau pun ada pengecualian di ekosistem itu, mungkin prosesor M* saja
DeepSeek v4 Pro terasa seperti Claude Opus 4.6 dari sisi karakter, dan sangat mengesankan dari sisi biaya
Saya memintanya fokus pada satu endpoint saja dalam codebase TypeScript yang cukup besar, lalu menelusuri API, DTO, service, dan model database secara mendalam per lapisan, memahami tipe-tipe terkait secara menyeluruh, dan memastikan tidak muncul tipe sementara
Ia merangkum dengan sangat singkat tapi tepat tipe-tipe yang diperkenalkan dan mana yang dikembalikan, lalu setelah itu saya memintanya menyederhanakan semuanya
Dua prompt itu pasti membuatnya menelusuri banyak file, tetapi total biaya versi Pro hanya $0.09. Kalau memakai Claude Opus, bahkan berdasarkan pengalaman sebelum harga naik, dua prompt itu saja kemungkinan mudah menghabiskan sekitar $9~$13, dan keuntungannya mungkin tidak besar
Sebagai catatan, saya tidak memakai OpenRouter, melainkan langsung API DeepSeek. Soalnya OpenRouter sendiri sedang terkena pembatasan laju dari pihak DeepSeek
Karena itu saya membuat MCP berbasis Prolog yang mem-parse kode menjadi graf dengan tree-sitter, sehingga model bisa bertanya hal seperti “semua fungsi yang terhubung dengan fungsi ini apa saja?” Kalau ingin melihat sebuah endpoint melakukan apa, seluruh subgraf panggilannya bisa ditelusuri dengan mudah dan bisa diprediksi
https://github.com/yogthos/chiasmus
Terkait itu, ada demo langsung menjalankan DeepSeek v4 Flash di MacBook 128GB. Videonya berbahasa Italia dan ada subtitle bahasa Inggris
https://www.youtube.com/watch?v=todMmp6AGCE
Saya menghubungkannya ke vscode copilot dan mencoba flash maupun pro. Untuk proof of concept kecil, flash sudah cukup, cukup cepat, dan sangat murah
Beberapa kali sempat macet, mungkin masalah latensi, tapi hasilnya tetap bagus. pro saya pakai untuk pekerjaan berat dan penyusunan rencana, dan hasilnya sangat baik
Untuk satu proof of concept kecil, saya membayar sekitar 10 sen, dan hasilnya bekerja persis seperti yang saya minta. Buat saya ini alternatif nyata setelah membatalkan GitHub Copilot akhir bulan ini
Biayanya memang lebih rendah daripada model frontier, tetapi ada dua hal yang membuat DS4 Pro dan K2.6 tidak semurah yang terlihat
DS4 Pro sedang didiskon di API resminya, dan ini sering terlewat atau tercampur dalam diskusi. Simon memakai harga normal dalam perbandingannya, jadi di sini tidak masalah
Masalah lainnya adalah DS4 Pro dan K2.6 sering memakai jauh lebih banyak token penalaran daripada model frontier. Dalam pengujian saya, pada beberapa kasus yang patologis, token yang dipakai begitu banyak sampai biaya per request bisa setara dengan model frontier. Agar adil, saya memakai DS dan Kimi melalui penyedia pihak ketiga, jadi mungkin ini masalah konfigurasi di sana
Namun jika melihat halaman model di Artificial Analysis, pada benchmark kecerdasan DSv4 Pro memakai 190M token, K2.6 memakai 170M token, sedangkan GPT 5.5 high hanya 45M
Untuk “Intelligence vs. Cost to Run Artificial Analysis Intelligence Index”, saya sarankan melihat “Intelligence vs Cost” di UI. Model open source memang masih lebih murah, tetapi tidak semurah yang diharapkan jika hanya melihat harga token
[0] https://artificialanalysis.ai/models/deepseek-v4-pro
[1] https://artificialanalysis.ai/models/kimi-k2-6
[2] https://artificialanalysis.ai/models/gpt-5-5-high
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
Mereka memperkenalkan HCA dan mCH, metode yang cukup baru untuk meningkatkan efisiensi konteks panjang dan attention. Dibanding v3.2, penalaran hanya butuh 27% FLOP, dan KV cache hanya 10%. Artinya, dengan sumber daya komputasi yang sama, mereka bisa melayani lebih dari 3x lebih banyak, dan hanya butuh 30% dari KV cache sebelumnya
Lagi pula rilis ini masih PREVIEW. DeepSeek itu benar-benar lab riset terbuka, dan di setiap rilis mereka bukan cuma membuat banyak hal, tapi juga mempublikasikan dan membagikannya. Saya menjalankannya secara lokal
Kalau mau bicara seberapa “murah”, di v3.2 pada konteks 256k GPU memory saya tidak cukup sehingga meluber ke system memory, dan saya masih puas dengan sekitar 7 ribu token per detik. Kali ini seluruh konteks 1 juta token muat 100% di GPU memory, berjalan lebih dari 2x lebih cepat, dan hasilnya juga lebih baik
Ini benar-benar murah. Moonshot sudah jelas kekurangan GPU, jadi wajar begitu. Kalau mereka punya kapasitas GPU seperti di AS dan mendukung model seperti di sini, mereka mungkin akan membagikannya gratis
Dulu saat saya mencoba hal yang sama dengan Opus 4.6, sebelum prompt pertama saja selesai kembali, anggaran $10 yang saya pasang sudah habis
Bahkan kalau harganya sangat didiskon sekali pun, solusi lengkapnya tetap hanya memakan biaya satu digit dolar, sementara Opus memakan biaya dua digit dolar tanpa menghasilkan apa-apa
V4 jelas naik satu tingkat dibanding V3.2 pada benchmark multibahasa kami
Namun ada dua catatan. Saat inferensi lewat OpenRouter, kecepatannya (TPS) sangat lambat dan kadang sangat tidak stabil. Bahkan barusan saya cek, di semua penyedia yang tersedia hanya 10~30 TPS, yang tidak tinggi untuk model yang banyak “berpikir” seperti DeepSeek
API resmi DeepSeek juga tidak menjamin privasi data bahkan untuk pengguna berbayar
Jika dipakai melalui Azure AI Foundry, mungkin dua masalah itu bukan masalah. Setidaknya yang terakhir, sejauh yang saya tahu, meski saya sendiri belum mengujinya
Bagaimanapun, menyenangkan melihat makin banyak model open-weight yang bisa cukup bersaing dengan model terbaru kelas atas
API resmi DeepSeek, kalau dipakai terus dalam sesi panjang pada codebase yang sama, punya cache hit rate di atas 99%, jadi jauh lebih murah daripada model frontier. Ada contoh sesi 200M token di claude code
Saya heran orang-orang, terutama saat langsung memakai API pengembang model, hampir sama sekali tidak peduli bahwa model seperti ini melatih dirinya secara publik dari data Anda
Kalau ada hal seperti “GitHub sekarang otomatis mengikutsertakan kode semua orang untuk pelatihan model”, komentar marah yang wajar bisa sampai ratusan, tapi saat membahas memakai model Tiongkok lewat OpenRouter, poin ini hampir tidak pernah muncul lagi. Bisa saja dijelaskan dengan “orangnya berbeda”, tapi perbedaannya terlalu mencolok untuk dianggap hanya itu
Ini salah satu keunggulan besar open-weight. Baik Tiongkok maupun AS tidak mengambil data saya
Ada harapan bahwa setelah sirkus subsidi selesai dan semua beralih ke murni berbasis penggunaan, ini tetap tidak akan sepenuhnya eksklusif bagi orang biasa yang tidak punya anggaran $200 per bulan
Pertama, kita terus menemukan cara memasukkan lebih banyak kecerdasan ke model yang lebih kecil, jadi spesifikasi hardware yang sama akan memberikan kemampuan model yang lebih besar seiring waktu
Kedua, hardware terus membaik dan pasokan perlahan mengejar permintaan, jadi spesifikasi hardware yang bisa dibeli dengan 1 dolar juga akan makin baik seiring waktu
Saya berharap suatu hari nanti model “mengakses AI lewat API penyedia” akan kita lihat seperti sekarang kita melihat masa ketika “semua orang terhubung ke mainframe perusahaan” dulu
Saya sudah mencoba v4 pro beberapa hari terakhir, dan dari sisi kualitas secara umum terlihat mirip OpenAI 5.4 atau Opus 4.6. Saya belum mencoba 4.7
Jelasnya, saya tidak mengerjakan tugas yang benar-benar state-of-the-art. Saya terutama memakainya untuk pengembangan frontend, dan karena saya tidak terlalu ahli di area itu, saya hanya butuh prototipe yang terlihat meyakinkan
Untuk tujuan saya, ini model yang sepenuhnya oke dan harganya juga wajar. Tapi saya benar-benar menunggu model terbuka yang cukup kecil untuk bisa dijalankan lokal. Saya tidak suka harus bergantung pada mesin orang lain, sambil membiarkan semua data saya bocor dalam prosesnya
Sebagai catatan, saya co-founder. Cara ini menjalankan model di dalam secure enclave, lalu memverifikasi bahwa kode open source yang berjalan di dalam enclave sesuai dengan runtime attestation. Kami memakai NVIDIA confidential computing
Dokumentasinya menjelaskan proses verifikasinya: https://docs.tinfoil.sh/verification/verification-in-tinfoil