DeepSeek V4 Pro, mengungguli GPT-5.5 Pro dalam presisi
(runtimewire.com)- Dalam perbandingan 1:1 atas 4 tugas teks yang dibuat secara spontan agar tidak bisa dipersiapkan sebelumnya, DeepSeek V4 Pro mencatat 38,0 poin, sementara GPT-5.5 Pro mencatat 33,0 poin
- Kedua model sama-sama kuat, tetapi DeepSeek dinilai lebih ketat, lebih literal, dan memiliki keandalan lebih tinggi di bawah batasan, sedangkan GPT-5.5 Pro kehilangan poin karena perubahan improvisasi yang tidak perlu
- Keunggulan teknis paling jelas terlihat pada tugas python-log-redactor, yang menghasilkan keluaran tanpa ada yang terlewat dengan menangani pola bertumpuk dalam prioritas yang benar menggunakan satu regex dan fungsi penggantian
- Pada tugas mengikuti instruksi, model ini hanya menjalankan persyaratan prompt secara tepat, sementara GPT-5.5 Pro menambahkan hal yang tidak diminta seperti serah terima pergantian shift dan eskalasi
- Dalam pekerjaan presisi di mana penyimpangan kecil dapat berujung pada kegagalan nyata, model ini dinilai lebih terkendali, akurat, dan dapat diandalkan
Hasil evaluasi keseluruhan
- Secara skor, DeepSeek V4 Pro menang 38,0 banding 33,0, dengan dasar yang cukup kuat untuk selisih tersebut
- Di seluruh tugas yang dinilai, Model A (DeepSeek) lebih ketat dan literal, serta lebih stabil dalam memenuhi batasan
- Model B (GPT-5.5 Pro) sangat baik, tetapi agak terlalu cenderung melakukan perubahan improvisasi
- Kesimpulan akhirnya: untuk pekerjaan di mana penyimpangan kecil langsung berujung pada kegagalan nyata, model ini dinilai sebagai model yang lebih terkendali, akurat, dan dapat diandalkan
python-log-redactor (tugas penulisan kode)
- Tugasnya adalah mengimplementasikan fungsi
redact_log(line: str) -> strdi Python 3, dengan email dimasking menjadi[EMAIL], IPv4 menjadi[IP], dan ID tiket berbentukINC-+ 6 digit angka menjadi[TICKET]- Teks lainnya harus tetap dipertahankan apa adanya, IP tidak valid seperti
999.1.2.3tidak boleh dimasking, dan diasumsikan tidak ada input multiline
- Teks lainnya harus tetap dipertahankan apa adanya, IP tidak valid seperti
- Pemenang: DeepSeek V4 Pro — menggunakan satu regex dan fungsi penggantian untuk menangani pola yang bertumpuk, sehingga menjamin prioritas penggantian yang benar dan tidak ada yang terlewat
- GPT-5.5 Pro memisahkan regex sehingga memunculkan risiko kesalahan urutan, dan memiliki cacat seperti tidak adanya batas kata pada regex email serta overmatching
vendor-delay-update (tugas menulis pesan kerja)
- Tugasnya adalah menulis pembaruan status yang akan dikirim VP operasional kepada manajer gudang regional, menyampaikan bahwa pengiriman 420 unit pengganti tertunda dari 12 Mei menjadi 19 Mei karena kegagalan sertifikasi baterai pada pemasok pemindai barcode North Quay Devices
- Pemindai cadangan hanya cukup untuk Memphis dan Reno, sementara Tulsa dan Allentown perlu berbagi perangkat selama 1 minggu
- Diminta menghentikan pengecekan ulang stok non-esensial, memprioritaskan picking pengiriman, serta melaporkan rekap kekurangan setiap hari paling lambat pukul 16.00 waktu setempat, dengan nada tenang, bertanggung jawab, dan praktis, sepanjang 140–180 kata
- Pemenang: DeepSeek V4 Pro — sesuai permintaan prompt, secara langsung menyatakan kepada VP agar "melaporkan rekap kekurangan setiap hari paling lambat pukul 16.00 waktu setempat", sambil mempertahankan nada tenang, bertanggung jawab, dan praktis
- GPT-5.5 Pro menambahkan detail yang tidak diminta seperti serah terima pergantian shift dan eskalasi, serta mengubah penerima menjadi "Operations Planning", sehingga agak menyimpang dari instruksi, meski keduanya tetap berkualitas tinggi dan sesuai batas kata
meeting-notes-summary (tugas ringkasan dan pembuatan JSON)
- Tugasnya adalah membaca notulen rapat lalu membuat ringkasan 2 kalimat bersama objek JSON yang memiliki key
launch_date,owner,blocked_by,open_questions(array), dandecisions(array)- Notulen rapat terkait proyek pembaruan portal penyewa Cedar Lane, mencakup persetujuan legal, status frontend yang sudah selesai, target rilis 2026-03-18, isu pemblokiran duplicate receipt ID pada retry ACH di financial sandbox, serta keputusan menghapus dark mode
- Pemenang: DeepSeek V4 Pro — mematuhi skema yang diminta secara tepat dan memberikan ringkasan 2 kalimat serta field JSON dengan tipe yang benar
- GPT-5.5 Pro memiliki ringkasan yang baik, tetapi memasukkan teks kondisional pada
launch_datedan menanganiblocked_bysebagai array padahal seharusnya satu nilai, sehingga melanggar struktur
- GPT-5.5 Pro memiliki ringkasan yang baik, tetapi memasukkan teks kondisional pada
messy-orders-to-json (tugas normalisasi data)
- Tugasnya adalah mengubah baris pesanan yang berantakan menjadi JSON valid berupa array objek dengan skema yang ditentukan, sambil wajib mempertahankan urutan input
priorityharus dinormalisasi menjadi true/false, tanggal pengiriman yang hilang sepertinone,tbd,-harus diubah menjadi null, spasi di awal/akhir nilai dihapus, item dipisahkan dengan;dan setiap item berformatSKU xQTY
- Hasil: seri — kedua model sama-sama menghasilkan JSON valid, mempertahankan urutan input, cocok persis dengan skema, dan menormalkan nilai priority maupun ship_by dengan benar
- Tidak ada perbedaan substantif dalam kualitas maupun akurasi, tetapi hasil seri pada tugas pembersihan yang mudah tidak menutupi kesalahan pada pekerjaan presisi
Metode pengujian
- Digunakan 4 tugas teks yang dibuat secara spontan untuk matchup agar tidak ada model yang bisa mempersiapkan diri sebelumnya
- Penilaian untuk setiap tugas dilakukan oleh grok-4-1-fast-non-reasoning
- Skor akhir adalah DeepSeek V4 Pro 38,0, GPT-5.5 Pro 33,0
Spesifikasi model
-
OpenAI: GPT-5.5 Pro
- Model berperforma tinggi yang dioptimalkan untuk penalaran mendalam dan akurasi, ditujukan bagi workload kompleks dan berisiko tinggi
- Konteks 1M+ token (input 922K, output 128K), mendukung input teks dan gambar, dirancang untuk pemecahan masalah berdurasi panjang, agentic coding, dan eksekusi presisi pada workflow multi-tahap
- Harga input $30.00 / output $180.00 (per juta token), konteks 1.1M, cutoff 2025-12-01
-
DeepSeek: DeepSeek V4 Pro
- Model Mixture-of-Experts skala besar dengan total 1.6T parameter dan 49B parameter aktif, mendukung konteks 1M token
- Ditujukan untuk penalaran tingkat lanjut, coding, dan workflow agen berdurasi panjang, dengan performa kuat pada benchmark pengetahuan, matematika, dan rekayasa perangkat lunak
- Berbasis arsitektur yang sama dengan DeepSeek V4 Flash, dengan sistem hybrid attention untuk pemrosesan teks panjang yang efisien
- Mendukung intensitas penalaran
highdanxhigh, denganxhighdipetakan ke penalaran maksimum, cocok untuk workload kompleks seperti analisis seluruh codebase, otomasi multi-tahap, dan sintesis informasi skala besar - Harga input $0.435 / output $0.870 (per juta token), konteks 1M
2 komentar
Susah dipercaya, sungguh..
Komentar Hacker News
Empat eksperimen yang dirancang secara acak hampir tidak bisa mengatakan apa pun tentang kemampuan model mana pun
Tulisannya juga terasa seperti clickbait buatan AI yang dangkal, ditujukan untuk promosi model atau memancing perdebatan
Ungkapan seperti “where it matters”, “cleanly”, dan “is still strong” di paragraf pembuka terasa samar, dan kurang penjelasan konkret seperti fakta bahwa DeepSeek sebenarnya menghasilkan keluaran yang lebih ringkas pada 3 dari 4 pengujian. Bintang 1
Menurut Merriam-Webster, lede adalah “bagian pembuka tulisan berita yang dimaksudkan untuk mendorong pembaca membaca keseluruhan artikel”
Orang boleh saja lebih menyukai gaya yang lebih kering, tetapi mengkritik pembuka karena berusaha mencapai tujuannya sendiri bukanlah hal yang adil
https://www.merriam-webster.com/dictionary/lede
https://artificialanalysis.ai/evaluations/ifbench
Artikelnya terlihat jelas dan cukup berimbang. Memang lead-nya agak terdengar seperti copy pemasaran, tetapi lead memang biasanya begitu, dan langsung menolaknya hanya karena “terasa seperti ditulis LLM” adalah reaksi yang cukup malas
Artikel ini menunjukkan bahwa DeepSeek bisa bersaing dengan GPT 5.5 dan kadang bahkan lebih baik. Ini juga sinyal bahwa tidak ada moat yang benar-benar bisa dipertahankan, jadi cukup bermakna
Tes seperti ini makin lama makin terlihat seperti buang-buang waktu
Sekarang jelas ada kecerdasan. Mencoba mengukurnya terasa tidak bermakna. Saat membeli palu di toko bangunan, kita tidak bisa mengurutkan berdasarkan “kualitas produk akhir yang akan dibuat dengan palu ini”, tetapi penilaian model saat ini kira-kira menuntut hal seperti itu
Keajaiban berikutnya akan muncul dari harness dan environment yang spesifik domain. Dengan sengaja memakai model yang sedikit kurang kuat, kita bisa menyingkap kelemahan cara domain diekspos ke model. Kalau masih ada cadangan kemampuan, reliabilitas proyek naik drastis. Jika pelanggan mengeluhkan edge case tertentu, skenario itu saja bisa dinaikkan ke gpt5.5, tetapi kalau dari awal sudah memakai 5.5, tidak ada lagi tempat untuk dituju
Aku bertanya-tanya apakah kita memakai model yang sama dengan orang lain. Menurutku LLM memberi jawaban bagus 80% dari waktu, tetapi 20% sisanya gagal begitu parah sehingga jelas tidak ada kecerdasan
Meski begitu, model-model ini masih terus mengejutkan setiap hari dengan berbagai halusinasi, kurangnya epistemologi, kurangnya akal sehat, dan kegagalan mengikuti instruksi
Hari ini aku mencoba membuat opus 4.8 mengikuti pola arsitektur sederhana pada controller aplikasi Rails, dan rasanya seperti mencabut gigi hiu
Dengan begitu kita bisa mendapat jaminan bahwa kecerdasan itu tidak muncul secara kebetulan atau hanya tampak di permukaan, melainkan hadir secara konsisten dan struktural. Untuk penggunaan ringan dibutuhkan alat ringan, untuk penggunaan mission-critical dibutuhkan alat yang tersertifikasi
Kita baru mulai masuk ke detail benchmarking LLM, dan menurutku jalan masih panjang. Tetap saja, fakta bahwa LLM yang berjalan lokal bisa menghasilkan hasil yang mirip dengan model mutakhir terbaik sangat menarik
Kalau model memang dilatih untuk memuntahkan website CRUD, dan yang ingin dibuat adalah website CRUD, harness mungkin berguna. Tetapi itu terasa lebih seperti membuang waktu untuk mencampur hal yang sudah ada dengan sedikit lebih baik
Setelah memakai Claude lalu Opencode diblokir, di kantor aku sekarang memakai GPT. Secara pribadi, aku memakai Deepseek di Opencode Go dengan paket $10 per bulan, dan jujur aku hampir tidak merasakan bedanya
Kemampuannya mirip, dan juga melakukan jenis kesalahan bodoh yang sama seperti dua lainnya sejak Maret. Dengan harganya, aku sangat puas
Pada 5% waktu sisanya, itu bisa sangat membantu pada masalah penalaran sulit dan menghindarkan banyak penderitaan. Sekarang andai saja aku bisa memprediksi dengan tepat kapan tambahan 5% itu dibutuhkan
Saya mencoba menambahkan GPT 5.5 Pro ke benchmark pemindaian kerentanan buatan sendiri (https://swelljoe.com/post/will-it-mythos/), tetapi model itu menghabiskan batas anggaran $100 di tengah jalan. DeepSeek V4 Pro menghabiskan sekitar $1 untuk seluruh benchmark, sedangkan GPT Pro rata-rata memakan biaya $22 per kasus
GPT 5.5 Pro menemukan 2 dari 4 kasus yang sempat diproses sebelum anggarannya habis. Dengan anggaran tak terbatas mungkin saja itu yang terbaik, tetapi Opus 4.8, DeepSeek V4 Pro, dan MiMo 2.5 Pro masing-masing menemukan 4 dari 9 bug. Opus satu orde magnitudo lebih murah daripada GPT 5.5 Pro dan juga sekitar 30% lebih murah daripada GPT 5.5, sementara DeepSeek dan MiMo dua orde magnitudo lebih murah dengan biaya sekitar 10 sen per kasus
GPT Pro relatif "mengunyah" lebih lama dan lebih banyak
Saya tidak bisa memikirkan use case yang masuk akal untuk memakai GPT 5.5 Pro dengan biaya sekitar 31 kali Opus, dan saya tidak berencana lagi memakainya untuk benchmark
Di saat biaya token makin menjadi isu penting, fakta bahwa ada model-model yang jauh lebih murah daripada penyedia besar AS akan menjadi masalah bagi Anthropic dan OpenAI. Membayar premi yang masuk akal untuk model terbaik pada coding interaktif masih wajar, tetapi untuk penggunaan API, iterasi model, perbandingan antar-model, dan evaluasi model bisa ditangani dengan harness dan framework verifikasi jawaban tanpa perlu manusia terus mengawasi, jadi sulit menemukan alasan untuk membayar 10 hingga 200 kali lebih mahal daripada DeepSeek
"$3.88, 690.003.591 token, 5 jam untuk merekayasa balik sistem lisensi Teamspeak 3.13.8 dengan Deepseek Pro dan Flash bersama-sama"
https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
Sembilan bug tampaknya sampel yang agak terlalu kecil untuk membuat peringkat
Meski begitu, urutannya secara umum terlihat cukup sesuai dugaan
Saya penasaran apakah Deepseek yang dimaksud benar-benar versi Pro, bukan Flash. Saya cukup sering memakai Flash untuk tugas-tugas kecil dan hasilnya lumayan bagus. Flash bagus untuk penggunaan "interaktif", sangat cepat, dan tugas kecil hampir selesai seketika
Model itu juga tampaknya layak dipakai untuk menyelidiki codebase besar. Saya penasaran apakah model ini juga bisa dipakai untuk pekerjaan keamanan
Senang juga melihat model-model murah tampil baik
Saya penasaran apakah mengganti Claude Code ke harga API DeepSeek akan terasa lebih worth it dibanding paket Max $100 yang saya pakai sekarang.
Batas 5 jam paling mentok hanya kena beberapa hari sekali, dan batas mingguan pun baru tercapai kalau dipakai seagresif mungkin, biasanya sehari dua hari sebelum reset. Selain tidak mentok limit, sepertinya pemakaian saya tidak akan naik drastis.
Saya juga masih agak enggan mengirim hasil kerja saya ke lab riset yang berada di bawah pemerintah yang bermusuhan dengan AS, jadi saya tidak melihat ini murni dari sisi biaya, tetapi pertanyaan saya saat ini memang dari sudut pandang biaya.
Semua penyedia langganan menawarkan value limit-per-biaya yang lebih baik daripada Anthropic. Satu-satunya pengecualian adalah GitHub, yang di sisi ini sangat mahal dan terbatas sampai terasa memalukan.
(https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
Jika maksud Anda adalah tidak ingin memakai model buatan lab riset non-AS, maka Anda memang akan terikat ke model AS, tetapi ada banyak lab besar di AS juga. Jika yang Anda khawatirkan adalah di mana inferensi dijalankan, lewat OpenRouter Anda bisa memakai penyedia di 12 negara termasuk AS, dan beberapa penyedia langganan juga di-host di banyak negara. Pilihannya banyak.
. ./deepseek-claude.shdan gunakan claude seperti biasa.export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
export ANTHROPIC_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
export CLAUDE_CODE_EFFORT_LEVEL=max
Awalnya saya memakainya untuk tugas baca besar saat sudah mendekati limit. Jujur, memang tidak sebagus Claude, tetapi jauh lebih murah dan membuat saya bisa terus bekerja. Kadang juga bagus untuk meminta claude dan deepseek sama-sama meninjau kode dan menyarankan cara merapikannya, lalu membandingkan jawaban keduanya.
Jika pola pemakaian ini bertahan, saya berencana menurunkan langganan ke $20 per bulan dan mengalokasikan lebih banyak uang ke Deepseek.
Repositori referensi: https://github.com/aravindhsampath/agentic-template
Seperti biasa, setiap model punya titik macet yang berbeda. Untuk sebagian besar eksperimen, eksplorasi, dan proof of concept di Cursor, saya memakai DeepSeek v4 API, tetapi untuk menulis kode produksi saya kurang mempercayainya dibanding OpenAI/Claude. Ada kalanya DeepSeek sangat bagus untuk debugging atau perencanaan, tetapi ada juga saat ia macet atau menghasilkan kualitas rendah. Model OpenAI dan Anthropic juga demikian.
Secara keseluruhan DeepSeek layak dipakai, tetapi tampaknya masih satu tingkat di bawah Opus 4.8 dan GPT 5.5. Semuanya saya jalankan dengan pengaturan pemikiran maksimum.
Memang tidak ada keuntungan cache read supermurah seperti endpoint DeepSeek sendiri, tetapi tetap jauh lebih rendah daripada tarif API Anthropic. Namun penting dicatat bahwa saat ini Anda tidak sedang membayar tarif API.
Diskon cache read dari DeepSeek dan Xiaomi berkaitan dengan model generasi terbaru yang memakai lebih sedikit ruang penyimpanan KV sehingga caching menjadi lebih murah. Belum ada penyedia inferensi model terbuka yang memutuskan untuk menyamai harga itu, yang tampaknya mengatakan sesuatu tentang struktur harga inferensi, walaupun saya tidak tahu persis apa.
Saya setuju bahwa model terbuka terbaik belum berada di level frontier. Untuk perencanaan gambaran besar, atau situasi ketika Anda hanya memberi garis besar dan mengharapkan banyak tebakan, perbedaannya akan terasa. Namun untuk coding dari rencana yang spesifik, model ini tampaknya sudah cukup bagus. Saya hanya memakainya di luar pekerjaan, jadi tidak punya pengalaman dengan codebase yang sangat besar, tetapi kemampuannya mengumpulkan informasi yang dibutuhkan sebelum terjun cukup baik, jadi kemungkinan ia akan mencari-cari dengan grep bila perlu.
Ada satu petunjuk yang menyebalkan, yaitu bahwa bila banyak memakai paket langganan pribadi, biayanya bisa jauh lebih murah daripada API. https://she-llac.com/claude-limits membuat diskusi biaya jadi lebih rumit. Meski begitu, menurut saya model terbuka tetap layak untuk dicoba-coba. Ini salah satu hal yang memungkinkan kita memperlakukannya sebagai satu teknologi, bukan sekadar bundel produk dari segelintir perusahaan.
Untuk berita besar seperti ini, saya punya pedoman. Sering kali sebuah model dinyatakan lebih baik daripada model lain berdasarkan sekumpulan uji kecil, dan saya ragu apakah hasil itu benar-benar bisa direproduksi secara konsisten.
Hampir tidak ada pengungkapan juga, jadi praktis tidak ada bahan bagi orang lain untuk memverifikasi sendiri pengujian atau penilaiannya.
Nilai terbesar DeepSeek V4 Pro adalah harganya yang rendah. Saya tidak berharap performanya jauh lebih baik daripada GPT-5.5; bahkan kalau performanya setara gpt-5.4 pun itu tetap model yang bagus.
Hampir tidak pernah mengerjakan hal yang membutuhkan model yang lebih baik daripada DSv4 Flash. Apalagi Pro tidak terlalu diperlukan
Jika bisa menjelaskan masalah dan solusinya dengan cukup baik, Flash akan langsung bisa mengerjakannya
Saat tidak bisa menjelaskan masalah dengan cukup baik atau malas dan hanya bisa menjelaskan hasil yang diinginkan, terasa jelas bahwa model seperti GPT 5.5 jauh lebih baik dalam menemukan solusi yang kokoh sendiri
Perbedaan kemampuan antarmodel memang jelas, tetapi juga jelas bahwa model open-weight yang lebih kecil pun sudah cukup bagus hingga sangat membantu untuk sebagian besar pekerjaan
Saya memakai deepseek v4 karena performa per biaya. Secara umum terasa kalah dibanding beberapa model lain, tetapi pada akhirnya jika diberi kriteria penerimaan yang benar, model apa pun bisa dibuat bekerja
Cukup beri spesifikasi terperinci dan pengujian, lalu beri wewenang untuk mengulang sampai hasilnya benar. One-shot adalah metrik yang buruk untuk mengukur performa
Model bisa terus beriterasi di ruang informasi lalu terjebak tanpa menemukan solusi yang diinginkan
Ini tetap membantu, tetapi pada kasus gagal sering kali manusia perlu turun tangan untuk mengarahkan atau memaksa memperbaiki jalur tertentu agar solusi bisa dicapai
DeepSeek V4 Pro yang dipakai bersama reasonix sangat mengejutkan murah dan cukup bagus untuk sebagian besar pekerjaan coding. Ia juga cukup berbeda dari GPT 5.5 dan Opus 4.8, jadi kadang menemukan masalah yang tidak ditemukan dua model lainnya
Menurut saya layak disimpan di kotak peralatan
DeepSeek V4 Pro luar biasa dan sangat murah, tetapi MiMo V2.5 Pro sedang diremehkan. Harganya sama, harga cache-nya lebih rendah, bersifat multimodal, dan posisinya lebih tinggi di sebagian besar benchmark
Hal yang sama juga berlaku untuk perbandingan MiMo V2.5 dan DeepSeek V4 Flash
Model OSS sangat berbeda tergantung penyedia yang digunakan, dan alasan utamanya adalah tingkat cache hit
Model Cheapest effectiveInputPrice (Provider)
MiMo-V2.5-Pro 0.3720 (Xiaomi)
DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)