DeepSeek Permanenkan Diskon Harga V4 Pro

(api-docs.deepseek.com)

3 poin oleh GN⁺ 2026-05-23 | 3 komentar | Bagikan ke WhatsApp

Harga API DeepSeek-V4-Pro secara resmi tetap dipertahankan di level 1/4 dari harga sebelumnya bahkan setelah promosi diskon 75% berakhir
Penagihan didasarkan pada harga per 1 juta token, dan penggunaan token input serta token output langsung dipotong dari saldo sesuai pemakaian
Model yang didukung adalah DeepSeek-V4-Flash dan DeepSeek-V4-Pro, dan keduanya mendukung mode non-thinking dan mode thinking, dengan default mode thinking
Kedua model sama-sama memiliki panjang konteks 1M, output maksimum 384K, tetapi batas konkurensinya berbeda: Flash 2500, Pro 500
Harga cache hit input untuk semua model diturunkan menjadi 1/10 dari harga saat peluncuran, dan penyesuaian ini berlaku mulai 26 April 2026 12:15 UTC

Dasar penagihan

Satuan harga adalah biaya per 1 juta token, dan token adalah unit teks terkecil yang dikenali model, bisa berupa kata, angka, atau tanda baca
Dasar penagihan adalah total token input dan token output model
Biaya dihitung dengan jumlah token × harga, lalu langsung dipotong dari saldo isi ulang atau saldo pembayaran
Jika saldo isi ulang dan saldo pembayaran sama-sama tersedia, saldo pembayaran akan digunakan lebih dahulu
Harga produk dapat berubah, dan DeepSeek memiliki hak untuk menyesuaikan harga
Disarankan mengisi saldo sesuai penggunaan aktual dan memeriksa harga terbaru secara berkala di halaman ini

Model dan harga

Model yang didukung
- Tersedia DeepSeek-V4-Flash dan DeepSeek-V4-Pro
- Kedua model mendukung mode non-thinking dan mode thinking, dengan default mode thinking
- Nama model deepseek-chat dan deepseek-reasoner akan dihentikan pada masa mendatang
- Untuk kompatibilitas, deepseek-chat masing-masing dipetakan ke mode non-thinking deepseek-v4-flash, dan deepseek-reasoner ke mode thinking deepseek-v4-flash
Endpoint dan fitur
- Base URL format Anthropic adalah https://api.deepseek.com/anthropic
- Cara beralih ke mode thinking dapat dilihat di Thinking Mode
- Dokumentasi fitur terkait yang tersedia adalah Json Output, Tool Calls, Chat Prefix Completion（Beta）, FIM Completion（Beta）
Konteks dan batas output
- Panjang konteks adalah 1M
- Output maksimum adalah 384K

Harga per 1 juta token

Item	DeepSeek-V4-Flash	DeepSeek-V4-Pro
Token input, cache hit	$0.0028	$0.003625
Token input, cache miss	$0.14	$0.435
Token output	$0.28	$0.87
Batas konkurensi	2500	500

Penyesuaian diskon DeepSeek-V4-Pro
- Harga DeepSeek-V4-Pro ditampilkan sebagai harga diskon 75%
- Harga token input cache hit turun dari $0.0145 menjadi $0.003625
- Harga token input cache miss turun dari $1.74 menjadi $0.435
- Harga token output turun dari $3.48 menjadi $0.87
- Bahkan setelah promosi diskon 75% berakhir pada 31 Mei 2026 15:59 UTC, harga API DeepSeek-V4-Pro secara resmi disesuaikan menjadi 1/4 dari harga sebelumnya
Penurunan harga cache hit
- Harga cache hit input untuk semua model diturunkan menjadi 1/10 dari harga saat peluncuran
- Penyesuaian harga ini berlaku mulai 26 April 2026 12:15 UTC
Batas konkurensi
- Batas konkurensi DeepSeek-V4-Flash adalah 2500
- Batas konkurensi DeepSeek-V4-Pro adalah 500
- Detail lebih lanjut tentang batas konkurensi dapat dilihat di Rate Limit & Isolation

3 komentar

j2sus91 2026-05-26

Kalau melihat ketentuannya, katanya tidak ada klausul yang secara eksplisit menyatakan bahwa penggunaan API tidak akan dipakai untuk pelatihan.
Sepertinya bagus kalau menggunakan layanan ini sambil mempertimbangkan bagian tersebut~

myoun 2026-05-25

Oh, bagus ya

GN⁺ 2026-05-23

Komentar Hacker News

Kalau mereka merilis coding agent sendiri, saya mungkin akan mulai memakai model DeepSeek sebagai andalan
Mereka tampaknya terus melakukan hal-hal yang “benar”, seperti membuka model ke open source, merilis riset, dan menjaga harga tetap rendah
- Bisa memakai V4 Pro di Claude Code 1
  Saya sudah mencobanya sendiri dan cukup terkesan
- Juga sangat cocok dengan OpenCode
  Tim kami sering mentok kena batas 5 jam dari layanan langganan lain, jadi punya DeepSeek sebagai cadangan cukup enak
  Saya cuma isi saldo 50 dolar, dan rasanya tidak akan pernah habis
  
  Memang belum sampai bisa sepenuhnya menggantikan model terdepan, tapi sebagai cadangan jelas sangat bagus
- Saya juga tidak yakin DeepSeek perlu sampai menyediakan coding agent sendiri
  Tinggal sambungkan modelnya ke coding agent yang sudah ada saja
  Secara pribadi saya lebih suka Pi, tapi ya pakai saja yang paling cocok buat masing-masing
- Saya mulai menguji model-model Tiongkok di codebase saya sejak awal minggu ini
  Sejauh ini saya lebih melihat klasifikasi issue, perbaikan bug otomatis, analisis log, dan semacamnya ketimbang coding interaktif; saya membandingkan DeepSeek, Kimi, GLM, Qwen, dan MiMO dengan GPT-5.5 high, semuanya dijalankan di harness Pi tanpa instalasi
  
  Sampai sekarang Kimi dan MiMO terlihat paling menjanjikan
  Ini memang belum diuji secara sangat ketat, tapi kesan awal saya adalah untuk pekerjaan harian umum di dunia nyata, model-model ini mungkin tidak setertinggal yang dibayangkan orang
  
  Hanya saja mereka lebih cenderung “bekerja keras ketimbang bekerja cerdas”, jadi mencapai hasil serupa dengan lebih lambat dan memakai lebih banyak token, tetapi harganya jauh lebih murah
- Saya lebih suka coding agent yang cukup independen dari penyedia model
  Penyedia terlalu sering mengubah kualitas, fitur, dan harga, jadi saya tidak ingin harus ganti agent juga setiap kali itu terjadi
  
  Saya berharap situasi ini sedikit melambat dan menjadi lebih stabil
  Bukan berarti harus begitu sekarang juga, tapi akan bagus kalau pada akhirnya sampai ke titik itu
Kalau Anda belum mencoba DeepSeek V4, Anda benar-benar melewatkan sesuatu
Model ini sangat bagus sampai sulit dipercaya untuk harganya

Rantai penalaran DeepSeek sangat menarik untuk dibaca
OpenCode tidak menampilkannya, tetapi kalau dibaca langsung Anda mungkin akan kaget betapa diremehkannya model ini

Pemakaian model saya sangat kecil, tetapi saya rutin membayar DeepSeek secara langsung sebagai bentuk terima kasih karena mereka membuka modelnya sebagai open source, sekaligus dukungan terhadap arah yang menurut saya merupakan kebaikan sosial secara umum
- Bagus dan murah, tetapi kalau Anda mulai membahas politik, semacam aturan sensor bisa aktif
  Saya sedang melihat proses berpikirnya, lalu tiba-tiba semuanya dihapus dan model itu menyarankan mengganti topik tanpa penjelasan apa pun
  Pernah juga keluar pesan umum ala media berita tentang melayani rakyat
  
  Dua-duanya bukan permintaan sensitif, ilegal, atau subversif, jadi cukup mengejutkan
  Tetapi topiknya sedikit politis, dan itu ternyata sudah cukup
  Sensor ala Barat biasanya lebih halus, jadi ini terasa menyeramkan sekaligus agak menyegarkan
- Betul, modelnya memang sangat bagus
  Di kantor saya pakai Claude dan untuk pribadi saya pakai DeepSeek, dan ini satu-satunya model yang tidak berusaha membuat saya bangkrut
- Untuk tugas tertentu saya suka V4 Pro, tetapi untuk coding V4 Flash cukup mengesankan
  Jawabannya ringkas, tepat sasaran, cenderung lebih sedikit salah, dan cukup cepat
- Di CLI opencode jejak penalarannya terlihat
  Mungkin ini cuma masalah konfigurasi
- Di opencode Anda bisa menyalakan dan mematikan tampilan penalaran
Harga ini mencurigakan murah
Jika model yang sama di-host oleh penyedia lain, harganya jauh lebih mahal 0
Jadi entah DeepSeek bisa meng-host jauh lebih murah daripada yang lain, atau model bisnisnya memang berbeda, dan saya rasa yang kedua lebih mungkin
Terutama karena di kebijakan privasi 1 mereka tertulis bahwa data pribadi, termasuk “User Input”, bisa dipakai untuk “peningkatan dan pengembangan layanan, pelatihan dan peningkatan teknologi”
- Mungkin ini pertanyaan bodoh, tapi kalau lihat OpenRouter, apa benar hampir tidak ada yang menyediakan DeepSeek selain di AS, Singapura, dan Tiongkok?
  Rasanya ini produk yang terlalu jelas untuk tidak ditawarkan oleh penyedia Eropa atau Barat lainnya
  Saya yakin ini akan jadi lompatan yang jauh lebih besar daripada Mistral
  
  Saya ingin mencoba model-model ini, tetapi saya ingin menghindari penyedia yang melatih atau menyimpan data saya melebihi persyaratan hukum standar
- Ada banyak faktor yang bermain
  Dari sisi efisiensi stack inferensi, banyak penyedia cuma mengambil sglang / vllm / trtllm yang sudah ada dan berharap hasil terbaik, sementara tim DeepSeek dikenal mendorong batas optimisasi
  
  sglang dan vllm adalah software yang hebat, tetapi jika melihat sparse attention milik DeepSeek (DSA), itu diperkenalkan 1,5 tahun lalu (https://arxiv.org/abs/2512.02556) dan dipakai di DeepSeek 3.2, GLM 5, dan DeepSeek V4
  Baru sekarang optimisasinya perlahan mulai masuk ke mesin inferensi utama: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 dll.)
  Tentu saja DS V4 menambahkan optimisasi arsitektur model di atas DSA, dan butuh waktu lebih lama lagi sebelum mesin inferensi open source bisa memanfaatkannya sepenuhnya
  
  Dari sisi privasi, ada taruhan bahwa orang bersedia membayar ekstra untuk inferensi yang di-host di luar Tiongkok
  Ini terutama berlaku karena DeepSeek secara transparan menyatakan bahwa mereka memakai data API untuk peningkatan model
  
  Selain itu ada faktor skala, yang sangat penting di MoE, reliabilitas, dan lock-in pelanggan enterprise yang terasa lebih mulus
  
  Ada juga kemungkinan besar terjadi kolusi implisit
  Kalau melihat harga GLM 5 dan GLM 5.1, biaya menjalankannya sama, tetapi 5.1 adalah model yang jauh lebih baik, dan karena Z.AI juga menaikkan harga, para penyedia pun memasang harga lebih mahal untuk 5.1
- Jelas mereka sedang jual rugi
  Tapi kenapa tidak?
  Merugi demi merebut pangsa pasar bukan hak paten eksklusif Amerika
- Mungkin Anda belum cukup tahu tentang pendiri DeepSeek, Liang Wenfeng
  Dia juga pendiri High-Flyer Quant
Saya justru lebih penasaran dengan sisi caching
Tertulis bahwa “harga cache hit input di semua model diturunkan menjadi 1/10 dari harga peluncuran, dan penyesuaian harga ini berlaku mulai 2026/4/26 12:15 UTC”

Tidak ada tanggal berakhir
Saat ini DeepSeek V4 Flash berada di 2% dari harga input, dan dengan harga V4 Pro yang sekarang angkanya 0,8%, sangat rendah dibanding pesaing dan cukup berdampak pada unit economics, jadi saya kira awalnya ini cuma sementara

Untuk V4 Pro, biaya efektifnya jika memperhitungkan caching adalah sekitar $0.04 per 1 juta token input (berdasarkan metrik OpenRouter: https://openrouter.ai/deepseek/deepseek-v4-pro)
Jauh lebih murah bahkan dibanding model kecil dari pesaing
- KV cache DeepSeek V4 sangat efisien berkat arsitektur sparse attention yang dikompresi kuat
  DeepSeek V3.2 yang hanya memakai DSA memang model yang lebih kecil, tetapi pada context window 1 juta, model itu memakai memori 10x lebih banyak daripada DS V4 Pro
  
  Selain itu, API DeepSeek punya cache hit rate yang sangat bagus
  Untuk beban kerja yang sama, penyedia inferensi Barat utama yang menawarkan model open weight punya KV cache hit rate sekitar 50%, sedangkan API DS sekitar 80%
- Poin besar dari DeepSeek V4 adalah ukuran KV cache yang jauh lebih kecil
- Flash sendiri bukan model yang sangat kompetitif, dan harganya juga masih berada di kisaran yang mirip dengan model lain di pasar
  Pesaing paling langsung untuk model Flash mungkin kira-kira seperti ini
  
  GPT 5.4 mini
  
  Cache Read
  $0.075
  /M tokens
  
  Gemini 3 flash:
  
  Cache Read
  $0.05
  /M tokens
  
  Jadi bukan sesuatu yang ajaib atau revolusioner
- Sonnet:
  Cache Read
  $0.30
  
  Gemini 3.5 flash:
  Cache Read
  $0.15
Ini value for money yang luar biasa
Sudah beberapa waktu saya memakai GLM 5.1 dengan GLM Coding Plan Max, dan juga menguji DeepSeek V4 Pro sekitar 3 minggu; untuk tugas coding yang kompleks, menurut saya model ini lebih baik daripada GLM 5.1
Saya memakai 65 juta token, dan dengan harga seperti ini tagihannya cuma 1,5 dolar, benar-benar murah
- DeepSeek tampaknya memakai token jauh lebih banyak dibanding model lain
Luar biasa
Dengan ini DeepSeek V4 Pro jadi sangat murah dibanding model lain bahkan dalam kategori yang sama
Jika melihat harga per 1 juta token output, angkanya seperti berikut

DeepSeek V4 Pro: $0.87

Qwen 3.7 Max: $7.50

Grok 4.3: $2.50

GLM 1.5: $3.08

Opus 4.7: $25.00

GPT-5.5: $30.00
- Kalau memasukkan biaya cache read, sebenarnya jadi lebih murah lagi
  Dalam workflow agent, biaya ini bisa jadi yang dominan, dan biaya cache read DeepSeek sangat rendah sampai sulit dibandingkan
  Hanya $0.003626 per 1 juta token, sedangkan yang termurah berikutnya di daftar itu tetap di atas $0.2 per 1 juta token
  Selisihnya hampir di skala 100x
- Lain kali ada yang bilang “jangan mengeluh soal batas penggunaan, perusahaan rugi karena langgananmu”, saya akan kasih tautan ke komentar ini
  Artinya inferensi yang efisien itu memang mungkin, asalkan mereka tidak sekadar membiarkan orang membakar uang tanpa batas
- Dan mereka juga tidak membuat modelnya jadi lebih buruk setelah kita berlangganan
  Kalau dua bulan setelah langganan Opus dibuat lebih jelek daripada GPT-3 demi menekan biaya, sebagus apa pun Opus tetap jadi tidak ada artinya
- Itu GLM 5.1
Bahkan dengan diskon V4 Pro, V4 Flash masih punya performa per dolar terbaik, dan untuk tugas agentic serta pekerjaan yang banyak memakai tool, performa totalnya juga lebih baik
V4 Pro memang lebih pintar untuk inferensi sekali jalan, tetapi perbedaan kecepatannya besar
Jika menggabungkan performa, biaya, dan kecepatan, V4 Flash saat ini jelas model flash terbaik menurut tolok ukur kami

Datanya ada di https://gertlabs.com/rankings
- Untuk use case saya, terutama ringkasan besar dan ekstraksi ide, hasilnya jauh lebih buruk dibanding Pro
Arsitektur MLA mereka mengurangi KV cache sekitar 5–13x dibanding attention standar
Jadi ini bukan sekadar perang harga untuk merebut pangsa pasar, biaya menjalankan inferensinya memang sungguh lebih rendah
- Ini juga game changer untuk inferensi lokal
  Context panjang, inferensi batch, dan penyimpanan KV cache ke disk jadi memungkinkan di platform konsumen biasa
- Betul
  Diskon kali ini mungkin adalah eksperimen pasar pasca-rilis untuk melihat seefisien apa caching bekerja pada generasi model baru
Saya lebih khawatir soal kebocoran data yang tidak disengaja pada model yang di-host di Tiongkok dibanding model yang di-host di AS
Misalnya kalau agent membaca file env
Apakah salah kalau saya curiga pemerintah Tiongkok lebih mungkin memindai semua percakapan dan menyimpan informasi yang berguna dibanding pemerintah atau perusahaan AS?

Saya bahkan ragu menulis komentar ini karena terdengar bias dan xenofobik
Saya berharap ada yang bisa meyakinkan saya bahwa saya salah
Apakah ada yang tahu perusahaan seperti apa yang berada di balik hosting DeepSeek, dan apakah mereka punya rekam jejak menghormati privasi data?
- Ini bukan kekhawatiran yang tidak masuk akal
  Itulah kenapa kebanyakan perusahaan AS lebih memilih AWS Bedrock atau lab AI, dan biasanya meminta kontrak tanpa retensi data
  Tetapi kekhawatiran kebocoran tetap ada di mana pun hosting-nya, yang berubah hanyalah struktur insentifnya
  
  Misalnya, lab-lab itu juga memindai semua percakapan dan melatih model dengan data yang tidak dilindungi kontrak enterprise ZDR
  Penegak hukum bisa meminta akses ke semua data pengguna dengan surat perintah yang sah atau dalam keadaan darurat 1
  
  Jika Anda ingin memakai DeepSeek V4 secara privat, Anda bisa mencoba Tinfoil(tinfoil.sh)
  Mereka meng-host semua model di secure hardware enclave yang bisa diverifikasi, sehingga inferensinya privat secara end-to-end
  Sebagai pengungkapan, saya salah satu co-founder-nya
  
  1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
- Tinggal pakai lewat Azure
  Mereka meng-host seluruh modelnya dan menyediakannya dari AS
  Kemungkinan ada penyedia lain juga
  
  Kami memakainya begitu dan hasilnya sangat baik
- Saya tidak akan terlalu kaget kalau mereka melakukannya
  Saya juga tidak akan terlalu kaget kalau model yang berbasis di AS melakukan hal yang sama untuk pemerintah lain
  Soal kerahasiaan data, ekspektasi saya memang tidak tinggi
  Microsoft memang mencentang semua kotak enterprise, tetapi Azure pun kadang tetap dibobol
- Saya rasa kemungkinannya bukan nol
  Beijing bisa saja sewaktu-waktu memutuskan bahwa DeepSeek terlalu kuat atau sudah menjadi ekspor utama, lalu ikut campur
  Bahkan tidak ada jaminan mereka belum melakukannya
  
  Ada banyak laporan bahwa aktor asing, dan ini tidak terbatas pada Tiongkok, sudah menyusup besar-besaran ke jaringan penting di banyak industri AS dan menunggu saat yang tepat untuk mengeksploitasinya
  Model terdepan hanyalah vektor serangan lain, dan kalau dipikir-pikir malah bisa dieksploitasi dengan jauh lebih mudah
  
  Faktanya, untuk model yang di-host di cloud, kemungkinan seperti ini ada di mana-mana
  Entah perusahaannya memang berniat begitu atau ada aktor jahat yang mengeksploitasi kerentanan
- Saya bukan orang yang cukup penting sampai ada orang di Tiongkok yang repot-repot menyerang saya
  Dan DeepSeek juga harus menjaga kepercayaan yang cukup agar pengguna terus memakai platformnya
  Kalau mereka bertindak seperti keylogger yang menyerang dompet kripto semua orang, kepercayaan itu akan runtuh
  
  Kalau saya mengerjakan sesuatu yang dianggap strategis penting oleh pemerintah Tiongkok, tentu saya akan khawatir, tetapi saya tidak bekerja di area seperti itu
  
  Justru saya lebih khawatir para tech billionaire di negeri ini memakai LLM untuk memprofilkan saya secara luas, lalu membangun sesuatu di negara ini yang jauh lebih distopis daripada sistem kredit sosial Tiongkok yang nyata maupun imajiner
  Orang-orang yang berusaha meyakinkan Anda, sebagai individu di AS, bahwa pemerintah Tiongkok adalah pihak yang harus Anda takutkan, justru kemungkinan besar adalah orang yang benar-benar perlu Anda waspadai
Kalau ada yang ingin menyambungkannya ke copilot, saya dulu pernah membuat skrip proxy untuk menangani koneksinya, dan mungkin berguna: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...

DeepSeek Permanenkan Diskon Harga V4 Pro

Dasar penagihan

Model dan harga

Model yang didukung

Endpoint dan fitur

Konteks dan batas output

Harga per 1 juta token

Penyesuaian diskon DeepSeek-V4-Pro

Penurunan harga cache hit

Batas konkurensi

Bacaan terkait

3 komentar

Komentar Hacker News