- Harga API DeepSeek-V4-Pro secara resmi tetap dipertahankan di level 1/4 dari harga sebelumnya bahkan setelah promosi diskon 75% berakhir
- Penagihan didasarkan pada harga per 1 juta token, dan penggunaan token input serta token output langsung dipotong dari saldo sesuai pemakaian
- Model yang didukung adalah DeepSeek-V4-Flash dan DeepSeek-V4-Pro, dan keduanya mendukung mode non-thinking dan mode thinking, dengan default mode thinking
- Kedua model sama-sama memiliki panjang konteks 1M, output maksimum 384K, tetapi batas konkurensinya berbeda: Flash 2500, Pro 500
- Harga cache hit input untuk semua model diturunkan menjadi 1/10 dari harga saat peluncuran, dan penyesuaian ini berlaku mulai 26 April 2026 12:15 UTC
Dasar penagihan
- Satuan harga adalah biaya per 1 juta token, dan token adalah unit teks terkecil yang dikenali model, bisa berupa kata, angka, atau tanda baca
- Dasar penagihan adalah total token input dan token output model
- Biaya dihitung dengan
jumlah token × harga, lalu langsung dipotong dari saldo isi ulang atau saldo pembayaran
- Jika saldo isi ulang dan saldo pembayaran sama-sama tersedia, saldo pembayaran akan digunakan lebih dahulu
- Harga produk dapat berubah, dan DeepSeek memiliki hak untuk menyesuaikan harga
- Disarankan mengisi saldo sesuai penggunaan aktual dan memeriksa harga terbaru secara berkala di halaman ini
Model dan harga
-
Model yang didukung
- Tersedia DeepSeek-V4-Flash dan DeepSeek-V4-Pro
- Kedua model mendukung mode non-thinking dan mode thinking, dengan default mode thinking
- Nama model
deepseek-chat dan deepseek-reasoner akan dihentikan pada masa mendatang
- Untuk kompatibilitas,
deepseek-chat masing-masing dipetakan ke mode non-thinking deepseek-v4-flash, dan deepseek-reasoner ke mode thinking deepseek-v4-flash
-
Endpoint dan fitur
-
Konteks dan batas output
- Panjang konteks adalah 1M
- Output maksimum adalah 384K
Harga per 1 juta token
| Item |
DeepSeek-V4-Flash |
DeepSeek-V4-Pro |
| Token input, cache hit |
$0.0028 |
$0.003625 |
| Token input, cache miss |
$0.14 |
$0.435 |
| Token output |
$0.28 |
$0.87 |
| Batas konkurensi |
2500 |
500 |
-
Penyesuaian diskon DeepSeek-V4-Pro
- Harga DeepSeek-V4-Pro ditampilkan sebagai harga diskon 75%
- Harga token input cache hit turun dari $0.0145 menjadi $0.003625
- Harga token input cache miss turun dari $1.74 menjadi $0.435
- Harga token output turun dari $3.48 menjadi $0.87
- Bahkan setelah promosi diskon 75% berakhir pada 31 Mei 2026 15:59 UTC, harga API DeepSeek-V4-Pro secara resmi disesuaikan menjadi 1/4 dari harga sebelumnya
-
Penurunan harga cache hit
- Harga cache hit input untuk semua model diturunkan menjadi 1/10 dari harga saat peluncuran
- Penyesuaian harga ini berlaku mulai 26 April 2026 12:15 UTC
-
Batas konkurensi
- Batas konkurensi DeepSeek-V4-Flash adalah 2500
- Batas konkurensi DeepSeek-V4-Pro adalah 500
- Detail lebih lanjut tentang batas konkurensi dapat dilihat di Rate Limit & Isolation
1 komentar
Komentar Hacker News
Kalau mereka merilis coding agent sendiri, saya mungkin akan mulai memakai model DeepSeek sebagai andalan
Mereka tampaknya terus melakukan hal-hal yang “benar”, seperti membuka model ke open source, merilis riset, dan menjaga harga tetap rendah
Bisa memakai V4 Pro di Claude Code 1
Saya sudah mencobanya sendiri dan cukup terkesan
Juga sangat cocok dengan OpenCode
Tim kami sering mentok kena batas 5 jam dari layanan langganan lain, jadi punya DeepSeek sebagai cadangan cukup enak
Saya cuma isi saldo 50 dolar, dan rasanya tidak akan pernah habis
Memang belum sampai bisa sepenuhnya menggantikan model terdepan, tapi sebagai cadangan jelas sangat bagus
Saya juga tidak yakin DeepSeek perlu sampai menyediakan coding agent sendiri
Tinggal sambungkan modelnya ke coding agent yang sudah ada saja
Secara pribadi saya lebih suka Pi, tapi ya pakai saja yang paling cocok buat masing-masing
Saya mulai menguji model-model Tiongkok di codebase saya sejak awal minggu ini
Sejauh ini saya lebih melihat klasifikasi issue, perbaikan bug otomatis, analisis log, dan semacamnya ketimbang coding interaktif; saya membandingkan DeepSeek, Kimi, GLM, Qwen, dan MiMO dengan GPT-5.5 high, semuanya dijalankan di harness Pi tanpa instalasi
Sampai sekarang Kimi dan MiMO terlihat paling menjanjikan
Ini memang belum diuji secara sangat ketat, tapi kesan awal saya adalah untuk pekerjaan harian umum di dunia nyata, model-model ini mungkin tidak setertinggal yang dibayangkan orang
Hanya saja mereka lebih cenderung “bekerja keras ketimbang bekerja cerdas”, jadi mencapai hasil serupa dengan lebih lambat dan memakai lebih banyak token, tetapi harganya jauh lebih murah
Saya lebih suka coding agent yang cukup independen dari penyedia model
Penyedia terlalu sering mengubah kualitas, fitur, dan harga, jadi saya tidak ingin harus ganti agent juga setiap kali itu terjadi
Saya berharap situasi ini sedikit melambat dan menjadi lebih stabil
Bukan berarti harus begitu sekarang juga, tapi akan bagus kalau pada akhirnya sampai ke titik itu
Kalau Anda belum mencoba DeepSeek V4, Anda benar-benar melewatkan sesuatu
Model ini sangat bagus sampai sulit dipercaya untuk harganya
Rantai penalaran DeepSeek sangat menarik untuk dibaca
OpenCode tidak menampilkannya, tetapi kalau dibaca langsung Anda mungkin akan kaget betapa diremehkannya model ini
Pemakaian model saya sangat kecil, tetapi saya rutin membayar DeepSeek secara langsung sebagai bentuk terima kasih karena mereka membuka modelnya sebagai open source, sekaligus dukungan terhadap arah yang menurut saya merupakan kebaikan sosial secara umum
Bagus dan murah, tetapi kalau Anda mulai membahas politik, semacam aturan sensor bisa aktif
Saya sedang melihat proses berpikirnya, lalu tiba-tiba semuanya dihapus dan model itu menyarankan mengganti topik tanpa penjelasan apa pun
Pernah juga keluar pesan umum ala media berita tentang melayani rakyat
Dua-duanya bukan permintaan sensitif, ilegal, atau subversif, jadi cukup mengejutkan
Tetapi topiknya sedikit politis, dan itu ternyata sudah cukup
Sensor ala Barat biasanya lebih halus, jadi ini terasa menyeramkan sekaligus agak menyegarkan
Betul, modelnya memang sangat bagus
Di kantor saya pakai Claude dan untuk pribadi saya pakai DeepSeek, dan ini satu-satunya model yang tidak berusaha membuat saya bangkrut
Untuk tugas tertentu saya suka V4 Pro, tetapi untuk coding V4 Flash cukup mengesankan
Jawabannya ringkas, tepat sasaran, cenderung lebih sedikit salah, dan cukup cepat
Di CLI opencode jejak penalarannya terlihat
Mungkin ini cuma masalah konfigurasi
Di opencode Anda bisa menyalakan dan mematikan tampilan penalaran
Harga ini mencurigakan murah
Jika model yang sama di-host oleh penyedia lain, harganya jauh lebih mahal 0
Jadi entah DeepSeek bisa meng-host jauh lebih murah daripada yang lain, atau model bisnisnya memang berbeda, dan saya rasa yang kedua lebih mungkin
Terutama karena di kebijakan privasi 1 mereka tertulis bahwa data pribadi, termasuk “User Input”, bisa dipakai untuk “peningkatan dan pengembangan layanan, pelatihan dan peningkatan teknologi”
Mungkin ini pertanyaan bodoh, tapi kalau lihat OpenRouter, apa benar hampir tidak ada yang menyediakan DeepSeek selain di AS, Singapura, dan Tiongkok?
Rasanya ini produk yang terlalu jelas untuk tidak ditawarkan oleh penyedia Eropa atau Barat lainnya
Saya yakin ini akan jadi lompatan yang jauh lebih besar daripada Mistral
Saya ingin mencoba model-model ini, tetapi saya ingin menghindari penyedia yang melatih atau menyimpan data saya melebihi persyaratan hukum standar
Ada banyak faktor yang bermain
Dari sisi efisiensi stack inferensi, banyak penyedia cuma mengambil sglang / vllm / trtllm yang sudah ada dan berharap hasil terbaik, sementara tim DeepSeek dikenal mendorong batas optimisasi
sglang dan vllm adalah software yang hebat, tetapi jika melihat sparse attention milik DeepSeek (DSA), itu diperkenalkan 1,5 tahun lalu (https://arxiv.org/abs/2512.02556) dan dipakai di DeepSeek 3.2, GLM 5, dan DeepSeek V4
Baru sekarang optimisasinya perlahan mulai masuk ke mesin inferensi utama: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 dll.)
Tentu saja DS V4 menambahkan optimisasi arsitektur model di atas DSA, dan butuh waktu lebih lama lagi sebelum mesin inferensi open source bisa memanfaatkannya sepenuhnya
Dari sisi privasi, ada taruhan bahwa orang bersedia membayar ekstra untuk inferensi yang di-host di luar Tiongkok
Ini terutama berlaku karena DeepSeek secara transparan menyatakan bahwa mereka memakai data API untuk peningkatan model
Selain itu ada faktor skala, yang sangat penting di MoE, reliabilitas, dan lock-in pelanggan enterprise yang terasa lebih mulus
Ada juga kemungkinan besar terjadi kolusi implisit
Kalau melihat harga GLM 5 dan GLM 5.1, biaya menjalankannya sama, tetapi 5.1 adalah model yang jauh lebih baik, dan karena Z.AI juga menaikkan harga, para penyedia pun memasang harga lebih mahal untuk 5.1
Jelas mereka sedang jual rugi
Tapi kenapa tidak?
Merugi demi merebut pangsa pasar bukan hak paten eksklusif Amerika
Mungkin Anda belum cukup tahu tentang pendiri DeepSeek, Liang Wenfeng
Dia juga pendiri High-Flyer Quant
Saya justru lebih penasaran dengan sisi caching
Tertulis bahwa “harga cache hit input di semua model diturunkan menjadi 1/10 dari harga peluncuran, dan penyesuaian harga ini berlaku mulai 2026/4/26 12:15 UTC”
Tidak ada tanggal berakhir
Saat ini DeepSeek V4 Flash berada di 2% dari harga input, dan dengan harga V4 Pro yang sekarang angkanya 0,8%, sangat rendah dibanding pesaing dan cukup berdampak pada unit economics, jadi saya kira awalnya ini cuma sementara
Untuk V4 Pro, biaya efektifnya jika memperhitungkan caching adalah sekitar $0.04 per 1 juta token input (berdasarkan metrik OpenRouter: https://openrouter.ai/deepseek/deepseek-v4-pro)
Jauh lebih murah bahkan dibanding model kecil dari pesaing
KV cache DeepSeek V4 sangat efisien berkat arsitektur sparse attention yang dikompresi kuat
DeepSeek V3.2 yang hanya memakai DSA memang model yang lebih kecil, tetapi pada context window 1 juta, model itu memakai memori 10x lebih banyak daripada DS V4 Pro
Selain itu, API DeepSeek punya cache hit rate yang sangat bagus
Untuk beban kerja yang sama, penyedia inferensi Barat utama yang menawarkan model open weight punya KV cache hit rate sekitar 50%, sedangkan API DS sekitar 80%
Poin besar dari DeepSeek V4 adalah ukuran KV cache yang jauh lebih kecil
Flash sendiri bukan model yang sangat kompetitif, dan harganya juga masih berada di kisaran yang mirip dengan model lain di pasar
Pesaing paling langsung untuk model Flash mungkin kira-kira seperti ini
GPT 5.4 mini
Cache Read
$0.075
/M tokens
Gemini 3 flash:
Cache Read
$0.05
/M tokens
Jadi bukan sesuatu yang ajaib atau revolusioner
Sonnet:
Cache Read
$0.30
Gemini 3.5 flash:
Cache Read
$0.15
Ini value for money yang luar biasa
Sudah beberapa waktu saya memakai GLM 5.1 dengan GLM Coding Plan Max, dan juga menguji DeepSeek V4 Pro sekitar 3 minggu; untuk tugas coding yang kompleks, menurut saya model ini lebih baik daripada GLM 5.1
Saya memakai 65 juta token, dan dengan harga seperti ini tagihannya cuma 1,5 dolar, benar-benar murah
Luar biasa
Dengan ini DeepSeek V4 Pro jadi sangat murah dibanding model lain bahkan dalam kategori yang sama
Jika melihat harga per 1 juta token output, angkanya seperti berikut
DeepSeek V4 Pro: $0.87
Qwen 3.7 Max: $7.50
Grok 4.3: $2.50
GLM 1.5: $3.08
Opus 4.7: $25.00
GPT-5.5: $30.00
Dalam workflow agent, biaya ini bisa jadi yang dominan, dan biaya cache read DeepSeek sangat rendah sampai sulit dibandingkan
Hanya $0.003626 per 1 juta token, sedangkan yang termurah berikutnya di daftar itu tetap di atas $0.2 per 1 juta token
Selisihnya hampir di skala 100x
Artinya inferensi yang efisien itu memang mungkin, asalkan mereka tidak sekadar membiarkan orang membakar uang tanpa batas
Kalau dua bulan setelah langganan Opus dibuat lebih jelek daripada GPT-3 demi menekan biaya, sebagus apa pun Opus tetap jadi tidak ada artinya
Bahkan dengan diskon V4 Pro, V4 Flash masih punya performa per dolar terbaik, dan untuk tugas agentic serta pekerjaan yang banyak memakai tool, performa totalnya juga lebih baik
V4 Pro memang lebih pintar untuk inferensi sekali jalan, tetapi perbedaan kecepatannya besar
Jika menggabungkan performa, biaya, dan kecepatan, V4 Flash saat ini jelas model flash terbaik menurut tolok ukur kami
Datanya ada di https://gertlabs.com/rankings
Arsitektur MLA mereka mengurangi KV cache sekitar 5–13x dibanding attention standar
Jadi ini bukan sekadar perang harga untuk merebut pangsa pasar, biaya menjalankan inferensinya memang sungguh lebih rendah
Context panjang, inferensi batch, dan penyimpanan KV cache ke disk jadi memungkinkan di platform konsumen biasa
Diskon kali ini mungkin adalah eksperimen pasar pasca-rilis untuk melihat seefisien apa caching bekerja pada generasi model baru
Saya lebih khawatir soal kebocoran data yang tidak disengaja pada model yang di-host di Tiongkok dibanding model yang di-host di AS
Misalnya kalau agent membaca file env
Apakah salah kalau saya curiga pemerintah Tiongkok lebih mungkin memindai semua percakapan dan menyimpan informasi yang berguna dibanding pemerintah atau perusahaan AS?
Saya bahkan ragu menulis komentar ini karena terdengar bias dan xenofobik
Saya berharap ada yang bisa meyakinkan saya bahwa saya salah
Apakah ada yang tahu perusahaan seperti apa yang berada di balik hosting DeepSeek, dan apakah mereka punya rekam jejak menghormati privasi data?
Ini bukan kekhawatiran yang tidak masuk akal
Itulah kenapa kebanyakan perusahaan AS lebih memilih AWS Bedrock atau lab AI, dan biasanya meminta kontrak tanpa retensi data
Tetapi kekhawatiran kebocoran tetap ada di mana pun hosting-nya, yang berubah hanyalah struktur insentifnya
Misalnya, lab-lab itu juga memindai semua percakapan dan melatih model dengan data yang tidak dilindungi kontrak enterprise ZDR
Penegak hukum bisa meminta akses ke semua data pengguna dengan surat perintah yang sah atau dalam keadaan darurat 1
Jika Anda ingin memakai DeepSeek V4 secara privat, Anda bisa mencoba Tinfoil(tinfoil.sh)
Mereka meng-host semua model di secure hardware enclave yang bisa diverifikasi, sehingga inferensinya privat secara end-to-end
Sebagai pengungkapan, saya salah satu co-founder-nya
1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
Tinggal pakai lewat Azure
Mereka meng-host seluruh modelnya dan menyediakannya dari AS
Kemungkinan ada penyedia lain juga
Kami memakainya begitu dan hasilnya sangat baik
Saya tidak akan terlalu kaget kalau mereka melakukannya
Saya juga tidak akan terlalu kaget kalau model yang berbasis di AS melakukan hal yang sama untuk pemerintah lain
Soal kerahasiaan data, ekspektasi saya memang tidak tinggi
Microsoft memang mencentang semua kotak enterprise, tetapi Azure pun kadang tetap dibobol
Saya rasa kemungkinannya bukan nol
Beijing bisa saja sewaktu-waktu memutuskan bahwa DeepSeek terlalu kuat atau sudah menjadi ekspor utama, lalu ikut campur
Bahkan tidak ada jaminan mereka belum melakukannya
Ada banyak laporan bahwa aktor asing, dan ini tidak terbatas pada Tiongkok, sudah menyusup besar-besaran ke jaringan penting di banyak industri AS dan menunggu saat yang tepat untuk mengeksploitasinya
Model terdepan hanyalah vektor serangan lain, dan kalau dipikir-pikir malah bisa dieksploitasi dengan jauh lebih mudah
Faktanya, untuk model yang di-host di cloud, kemungkinan seperti ini ada di mana-mana
Entah perusahaannya memang berniat begitu atau ada aktor jahat yang mengeksploitasi kerentanan
Saya bukan orang yang cukup penting sampai ada orang di Tiongkok yang repot-repot menyerang saya
Dan DeepSeek juga harus menjaga kepercayaan yang cukup agar pengguna terus memakai platformnya
Kalau mereka bertindak seperti keylogger yang menyerang dompet kripto semua orang, kepercayaan itu akan runtuh
Kalau saya mengerjakan sesuatu yang dianggap strategis penting oleh pemerintah Tiongkok, tentu saya akan khawatir, tetapi saya tidak bekerja di area seperti itu
Justru saya lebih khawatir para tech billionaire di negeri ini memakai LLM untuk memprofilkan saya secara luas, lalu membangun sesuatu di negara ini yang jauh lebih distopis daripada sistem kredit sosial Tiongkok yang nyata maupun imajiner
Orang-orang yang berusaha meyakinkan Anda, sebagai individu di AS, bahwa pemerintah Tiongkok adalah pihak yang harus Anda takutkan, justru kemungkinan besar adalah orang yang benar-benar perlu Anda waspadai
Kalau ada yang ingin menyambungkannya ke copilot, saya dulu pernah membuat skrip proxy untuk menangani koneksinya, dan mungkin berguna: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...