1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Harga API DeepSeek-V4-Pro secara resmi tetap dipertahankan di level 1/4 dari harga sebelumnya bahkan setelah promosi diskon 75% berakhir
  • Penagihan didasarkan pada harga per 1 juta token, dan penggunaan token input serta token output langsung dipotong dari saldo sesuai pemakaian
  • Model yang didukung adalah DeepSeek-V4-Flash dan DeepSeek-V4-Pro, dan keduanya mendukung mode non-thinking dan mode thinking, dengan default mode thinking
  • Kedua model sama-sama memiliki panjang konteks 1M, output maksimum 384K, tetapi batas konkurensinya berbeda: Flash 2500, Pro 500
  • Harga cache hit input untuk semua model diturunkan menjadi 1/10 dari harga saat peluncuran, dan penyesuaian ini berlaku mulai 26 April 2026 12:15 UTC

Dasar penagihan

  • Satuan harga adalah biaya per 1 juta token, dan token adalah unit teks terkecil yang dikenali model, bisa berupa kata, angka, atau tanda baca
  • Dasar penagihan adalah total token input dan token output model
  • Biaya dihitung dengan jumlah token × harga, lalu langsung dipotong dari saldo isi ulang atau saldo pembayaran
  • Jika saldo isi ulang dan saldo pembayaran sama-sama tersedia, saldo pembayaran akan digunakan lebih dahulu
  • Harga produk dapat berubah, dan DeepSeek memiliki hak untuk menyesuaikan harga
  • Disarankan mengisi saldo sesuai penggunaan aktual dan memeriksa harga terbaru secara berkala di halaman ini

Model dan harga

  • Model yang didukung

    • Tersedia DeepSeek-V4-Flash dan DeepSeek-V4-Pro
    • Kedua model mendukung mode non-thinking dan mode thinking, dengan default mode thinking
    • Nama model deepseek-chat dan deepseek-reasoner akan dihentikan pada masa mendatang
    • Untuk kompatibilitas, deepseek-chat masing-masing dipetakan ke mode non-thinking deepseek-v4-flash, dan deepseek-reasoner ke mode thinking deepseek-v4-flash
  • Endpoint dan fitur

  • Konteks dan batas output

    • Panjang konteks adalah 1M
    • Output maksimum adalah 384K

Harga per 1 juta token

Item DeepSeek-V4-Flash DeepSeek-V4-Pro
Token input, cache hit $0.0028 $0.003625
Token input, cache miss $0.14 $0.435
Token output $0.28 $0.87
Batas konkurensi 2500 500
  • Penyesuaian diskon DeepSeek-V4-Pro

    • Harga DeepSeek-V4-Pro ditampilkan sebagai harga diskon 75%
    • Harga token input cache hit turun dari $0.0145 menjadi $0.003625
    • Harga token input cache miss turun dari $1.74 menjadi $0.435
    • Harga token output turun dari $3.48 menjadi $0.87
    • Bahkan setelah promosi diskon 75% berakhir pada 31 Mei 2026 15:59 UTC, harga API DeepSeek-V4-Pro secara resmi disesuaikan menjadi 1/4 dari harga sebelumnya
  • Penurunan harga cache hit

    • Harga cache hit input untuk semua model diturunkan menjadi 1/10 dari harga saat peluncuran
    • Penyesuaian harga ini berlaku mulai 26 April 2026 12:15 UTC
  • Batas konkurensi

    • Batas konkurensi DeepSeek-V4-Flash adalah 2500
    • Batas konkurensi DeepSeek-V4-Pro adalah 500
    • Detail lebih lanjut tentang batas konkurensi dapat dilihat di Rate Limit & Isolation

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Kalau mereka merilis coding agent sendiri, saya mungkin akan mulai memakai model DeepSeek sebagai andalan
    Mereka tampaknya terus melakukan hal-hal yang “benar”, seperti membuka model ke open source, merilis riset, dan menjaga harga tetap rendah

    • Bisa memakai V4 Pro di Claude Code 1
      Saya sudah mencobanya sendiri dan cukup terkesan

    • Juga sangat cocok dengan OpenCode
      Tim kami sering mentok kena batas 5 jam dari layanan langganan lain, jadi punya DeepSeek sebagai cadangan cukup enak
      Saya cuma isi saldo 50 dolar, dan rasanya tidak akan pernah habis

      Memang belum sampai bisa sepenuhnya menggantikan model terdepan, tapi sebagai cadangan jelas sangat bagus

    • Saya juga tidak yakin DeepSeek perlu sampai menyediakan coding agent sendiri
      Tinggal sambungkan modelnya ke coding agent yang sudah ada saja
      Secara pribadi saya lebih suka Pi, tapi ya pakai saja yang paling cocok buat masing-masing

    • Saya mulai menguji model-model Tiongkok di codebase saya sejak awal minggu ini
      Sejauh ini saya lebih melihat klasifikasi issue, perbaikan bug otomatis, analisis log, dan semacamnya ketimbang coding interaktif; saya membandingkan DeepSeek, Kimi, GLM, Qwen, dan MiMO dengan GPT-5.5 high, semuanya dijalankan di harness Pi tanpa instalasi

      Sampai sekarang Kimi dan MiMO terlihat paling menjanjikan
      Ini memang belum diuji secara sangat ketat, tapi kesan awal saya adalah untuk pekerjaan harian umum di dunia nyata, model-model ini mungkin tidak setertinggal yang dibayangkan orang

      Hanya saja mereka lebih cenderung “bekerja keras ketimbang bekerja cerdas”, jadi mencapai hasil serupa dengan lebih lambat dan memakai lebih banyak token, tetapi harganya jauh lebih murah

    • Saya lebih suka coding agent yang cukup independen dari penyedia model
      Penyedia terlalu sering mengubah kualitas, fitur, dan harga, jadi saya tidak ingin harus ganti agent juga setiap kali itu terjadi

      Saya berharap situasi ini sedikit melambat dan menjadi lebih stabil
      Bukan berarti harus begitu sekarang juga, tapi akan bagus kalau pada akhirnya sampai ke titik itu

  • Kalau Anda belum mencoba DeepSeek V4, Anda benar-benar melewatkan sesuatu
    Model ini sangat bagus sampai sulit dipercaya untuk harganya

    Rantai penalaran DeepSeek sangat menarik untuk dibaca
    OpenCode tidak menampilkannya, tetapi kalau dibaca langsung Anda mungkin akan kaget betapa diremehkannya model ini

    Pemakaian model saya sangat kecil, tetapi saya rutin membayar DeepSeek secara langsung sebagai bentuk terima kasih karena mereka membuka modelnya sebagai open source, sekaligus dukungan terhadap arah yang menurut saya merupakan kebaikan sosial secara umum

    • Bagus dan murah, tetapi kalau Anda mulai membahas politik, semacam aturan sensor bisa aktif
      Saya sedang melihat proses berpikirnya, lalu tiba-tiba semuanya dihapus dan model itu menyarankan mengganti topik tanpa penjelasan apa pun
      Pernah juga keluar pesan umum ala media berita tentang melayani rakyat

      Dua-duanya bukan permintaan sensitif, ilegal, atau subversif, jadi cukup mengejutkan
      Tetapi topiknya sedikit politis, dan itu ternyata sudah cukup
      Sensor ala Barat biasanya lebih halus, jadi ini terasa menyeramkan sekaligus agak menyegarkan

    • Betul, modelnya memang sangat bagus
      Di kantor saya pakai Claude dan untuk pribadi saya pakai DeepSeek, dan ini satu-satunya model yang tidak berusaha membuat saya bangkrut

    • Untuk tugas tertentu saya suka V4 Pro, tetapi untuk coding V4 Flash cukup mengesankan
      Jawabannya ringkas, tepat sasaran, cenderung lebih sedikit salah, dan cukup cepat

    • Di CLI opencode jejak penalarannya terlihat
      Mungkin ini cuma masalah konfigurasi

    • Di opencode Anda bisa menyalakan dan mematikan tampilan penalaran

  • Harga ini mencurigakan murah
    Jika model yang sama di-host oleh penyedia lain, harganya jauh lebih mahal 0
    Jadi entah DeepSeek bisa meng-host jauh lebih murah daripada yang lain, atau model bisnisnya memang berbeda, dan saya rasa yang kedua lebih mungkin
    Terutama karena di kebijakan privasi 1 mereka tertulis bahwa data pribadi, termasuk “User Input”, bisa dipakai untuk “peningkatan dan pengembangan layanan, pelatihan dan peningkatan teknologi”

    • Mungkin ini pertanyaan bodoh, tapi kalau lihat OpenRouter, apa benar hampir tidak ada yang menyediakan DeepSeek selain di AS, Singapura, dan Tiongkok?
      Rasanya ini produk yang terlalu jelas untuk tidak ditawarkan oleh penyedia Eropa atau Barat lainnya
      Saya yakin ini akan jadi lompatan yang jauh lebih besar daripada Mistral

      Saya ingin mencoba model-model ini, tetapi saya ingin menghindari penyedia yang melatih atau menyimpan data saya melebihi persyaratan hukum standar

    • Ada banyak faktor yang bermain
      Dari sisi efisiensi stack inferensi, banyak penyedia cuma mengambil sglang / vllm / trtllm yang sudah ada dan berharap hasil terbaik, sementara tim DeepSeek dikenal mendorong batas optimisasi

      sglang dan vllm adalah software yang hebat, tetapi jika melihat sparse attention milik DeepSeek (DSA), itu diperkenalkan 1,5 tahun lalu (https://arxiv.org/abs/2512.02556) dan dipakai di DeepSeek 3.2, GLM 5, dan DeepSeek V4
      Baru sekarang optimisasinya perlahan mulai masuk ke mesin inferensi utama: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 dll.)
      Tentu saja DS V4 menambahkan optimisasi arsitektur model di atas DSA, dan butuh waktu lebih lama lagi sebelum mesin inferensi open source bisa memanfaatkannya sepenuhnya

      Dari sisi privasi, ada taruhan bahwa orang bersedia membayar ekstra untuk inferensi yang di-host di luar Tiongkok
      Ini terutama berlaku karena DeepSeek secara transparan menyatakan bahwa mereka memakai data API untuk peningkatan model

      Selain itu ada faktor skala, yang sangat penting di MoE, reliabilitas, dan lock-in pelanggan enterprise yang terasa lebih mulus

      Ada juga kemungkinan besar terjadi kolusi implisit
      Kalau melihat harga GLM 5 dan GLM 5.1, biaya menjalankannya sama, tetapi 5.1 adalah model yang jauh lebih baik, dan karena Z.AI juga menaikkan harga, para penyedia pun memasang harga lebih mahal untuk 5.1

    • Jelas mereka sedang jual rugi
      Tapi kenapa tidak?
      Merugi demi merebut pangsa pasar bukan hak paten eksklusif Amerika

    • Mungkin Anda belum cukup tahu tentang pendiri DeepSeek, Liang Wenfeng
      Dia juga pendiri High-Flyer Quant

  • Saya justru lebih penasaran dengan sisi caching
    Tertulis bahwa “harga cache hit input di semua model diturunkan menjadi 1/10 dari harga peluncuran, dan penyesuaian harga ini berlaku mulai 2026/4/26 12:15 UTC”

    Tidak ada tanggal berakhir
    Saat ini DeepSeek V4 Flash berada di 2% dari harga input, dan dengan harga V4 Pro yang sekarang angkanya 0,8%, sangat rendah dibanding pesaing dan cukup berdampak pada unit economics, jadi saya kira awalnya ini cuma sementara

    Untuk V4 Pro, biaya efektifnya jika memperhitungkan caching adalah sekitar $0.04 per 1 juta token input (berdasarkan metrik OpenRouter: https://openrouter.ai/deepseek/deepseek-v4-pro)
    Jauh lebih murah bahkan dibanding model kecil dari pesaing

    • KV cache DeepSeek V4 sangat efisien berkat arsitektur sparse attention yang dikompresi kuat
      DeepSeek V3.2 yang hanya memakai DSA memang model yang lebih kecil, tetapi pada context window 1 juta, model itu memakai memori 10x lebih banyak daripada DS V4 Pro

      Selain itu, API DeepSeek punya cache hit rate yang sangat bagus
      Untuk beban kerja yang sama, penyedia inferensi Barat utama yang menawarkan model open weight punya KV cache hit rate sekitar 50%, sedangkan API DS sekitar 80%

    • Poin besar dari DeepSeek V4 adalah ukuran KV cache yang jauh lebih kecil

    • Flash sendiri bukan model yang sangat kompetitif, dan harganya juga masih berada di kisaran yang mirip dengan model lain di pasar
      Pesaing paling langsung untuk model Flash mungkin kira-kira seperti ini

      GPT 5.4 mini

      Cache Read
      $0.075
      /M tokens

      Gemini 3 flash:

      Cache Read
      $0.05
      /M tokens

      Jadi bukan sesuatu yang ajaib atau revolusioner

    • Sonnet:
      Cache Read
      $0.30

      Gemini 3.5 flash:
      Cache Read
      $0.15

  • Ini value for money yang luar biasa
    Sudah beberapa waktu saya memakai GLM 5.1 dengan GLM Coding Plan Max, dan juga menguji DeepSeek V4 Pro sekitar 3 minggu; untuk tugas coding yang kompleks, menurut saya model ini lebih baik daripada GLM 5.1
    Saya memakai 65 juta token, dan dengan harga seperti ini tagihannya cuma 1,5 dolar, benar-benar murah

    • DeepSeek tampaknya memakai token jauh lebih banyak dibanding model lain
  • Luar biasa
    Dengan ini DeepSeek V4 Pro jadi sangat murah dibanding model lain bahkan dalam kategori yang sama
    Jika melihat harga per 1 juta token output, angkanya seperti berikut

    DeepSeek V4 Pro: $0.87

    Qwen 3.7 Max: $7.50

    Grok 4.3: $2.50

    GLM 1.5: $3.08

    Opus 4.7: $25.00

    GPT-5.5: $30.00

    • Kalau memasukkan biaya cache read, sebenarnya jadi lebih murah lagi
      Dalam workflow agent, biaya ini bisa jadi yang dominan, dan biaya cache read DeepSeek sangat rendah sampai sulit dibandingkan
      Hanya $0.003626 per 1 juta token, sedangkan yang termurah berikutnya di daftar itu tetap di atas $0.2 per 1 juta token
      Selisihnya hampir di skala 100x
    • Lain kali ada yang bilang “jangan mengeluh soal batas penggunaan, perusahaan rugi karena langgananmu”, saya akan kasih tautan ke komentar ini
      Artinya inferensi yang efisien itu memang mungkin, asalkan mereka tidak sekadar membiarkan orang membakar uang tanpa batas
    • Dan mereka juga tidak membuat modelnya jadi lebih buruk setelah kita berlangganan
      Kalau dua bulan setelah langganan Opus dibuat lebih jelek daripada GPT-3 demi menekan biaya, sebagus apa pun Opus tetap jadi tidak ada artinya
    • Itu GLM 5.1
  • Bahkan dengan diskon V4 Pro, V4 Flash masih punya performa per dolar terbaik, dan untuk tugas agentic serta pekerjaan yang banyak memakai tool, performa totalnya juga lebih baik
    V4 Pro memang lebih pintar untuk inferensi sekali jalan, tetapi perbedaan kecepatannya besar
    Jika menggabungkan performa, biaya, dan kecepatan, V4 Flash saat ini jelas model flash terbaik menurut tolok ukur kami

    Datanya ada di https://gertlabs.com/rankings

    • Untuk use case saya, terutama ringkasan besar dan ekstraksi ide, hasilnya jauh lebih buruk dibanding Pro
  • Arsitektur MLA mereka mengurangi KV cache sekitar 5–13x dibanding attention standar
    Jadi ini bukan sekadar perang harga untuk merebut pangsa pasar, biaya menjalankan inferensinya memang sungguh lebih rendah

    • Ini juga game changer untuk inferensi lokal
      Context panjang, inferensi batch, dan penyimpanan KV cache ke disk jadi memungkinkan di platform konsumen biasa
    • Betul
      Diskon kali ini mungkin adalah eksperimen pasar pasca-rilis untuk melihat seefisien apa caching bekerja pada generasi model baru
  • Saya lebih khawatir soal kebocoran data yang tidak disengaja pada model yang di-host di Tiongkok dibanding model yang di-host di AS
    Misalnya kalau agent membaca file env
    Apakah salah kalau saya curiga pemerintah Tiongkok lebih mungkin memindai semua percakapan dan menyimpan informasi yang berguna dibanding pemerintah atau perusahaan AS?

    Saya bahkan ragu menulis komentar ini karena terdengar bias dan xenofobik
    Saya berharap ada yang bisa meyakinkan saya bahwa saya salah
    Apakah ada yang tahu perusahaan seperti apa yang berada di balik hosting DeepSeek, dan apakah mereka punya rekam jejak menghormati privasi data?

    • Ini bukan kekhawatiran yang tidak masuk akal
      Itulah kenapa kebanyakan perusahaan AS lebih memilih AWS Bedrock atau lab AI, dan biasanya meminta kontrak tanpa retensi data
      Tetapi kekhawatiran kebocoran tetap ada di mana pun hosting-nya, yang berubah hanyalah struktur insentifnya

      Misalnya, lab-lab itu juga memindai semua percakapan dan melatih model dengan data yang tidak dilindungi kontrak enterprise ZDR
      Penegak hukum bisa meminta akses ke semua data pengguna dengan surat perintah yang sah atau dalam keadaan darurat 1

      Jika Anda ingin memakai DeepSeek V4 secara privat, Anda bisa mencoba Tinfoil(tinfoil.sh)
      Mereka meng-host semua model di secure hardware enclave yang bisa diverifikasi, sehingga inferensinya privat secara end-to-end
      Sebagai pengungkapan, saya salah satu co-founder-nya

      1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...

    • Tinggal pakai lewat Azure
      Mereka meng-host seluruh modelnya dan menyediakannya dari AS
      Kemungkinan ada penyedia lain juga

      Kami memakainya begitu dan hasilnya sangat baik

    • Saya tidak akan terlalu kaget kalau mereka melakukannya
      Saya juga tidak akan terlalu kaget kalau model yang berbasis di AS melakukan hal yang sama untuk pemerintah lain
      Soal kerahasiaan data, ekspektasi saya memang tidak tinggi
      Microsoft memang mencentang semua kotak enterprise, tetapi Azure pun kadang tetap dibobol

    • Saya rasa kemungkinannya bukan nol
      Beijing bisa saja sewaktu-waktu memutuskan bahwa DeepSeek terlalu kuat atau sudah menjadi ekspor utama, lalu ikut campur
      Bahkan tidak ada jaminan mereka belum melakukannya

      Ada banyak laporan bahwa aktor asing, dan ini tidak terbatas pada Tiongkok, sudah menyusup besar-besaran ke jaringan penting di banyak industri AS dan menunggu saat yang tepat untuk mengeksploitasinya
      Model terdepan hanyalah vektor serangan lain, dan kalau dipikir-pikir malah bisa dieksploitasi dengan jauh lebih mudah

      Faktanya, untuk model yang di-host di cloud, kemungkinan seperti ini ada di mana-mana
      Entah perusahaannya memang berniat begitu atau ada aktor jahat yang mengeksploitasi kerentanan

    • Saya bukan orang yang cukup penting sampai ada orang di Tiongkok yang repot-repot menyerang saya
      Dan DeepSeek juga harus menjaga kepercayaan yang cukup agar pengguna terus memakai platformnya
      Kalau mereka bertindak seperti keylogger yang menyerang dompet kripto semua orang, kepercayaan itu akan runtuh

      Kalau saya mengerjakan sesuatu yang dianggap strategis penting oleh pemerintah Tiongkok, tentu saya akan khawatir, tetapi saya tidak bekerja di area seperti itu

      Justru saya lebih khawatir para tech billionaire di negeri ini memakai LLM untuk memprofilkan saya secara luas, lalu membangun sesuatu di negara ini yang jauh lebih distopis daripada sistem kredit sosial Tiongkok yang nyata maupun imajiner
      Orang-orang yang berusaha meyakinkan Anda, sebagai individu di AS, bahwa pemerintah Tiongkok adalah pihak yang harus Anda takutkan, justru kemungkinan besar adalah orang yang benar-benar perlu Anda waspadai

  • Kalau ada yang ingin menyambungkannya ke copilot, saya dulu pernah membuat skrip proxy untuk menangani koneksinya, dan mungkin berguna: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...