3 poin oleh GN⁺ 4 jam lalu | 2 komentar | Bagikan ke WhatsApp
  • Dalam perbandingan 1:1 atas 4 tugas teks yang dibuat secara spontan agar tidak bisa dipersiapkan sebelumnya, DeepSeek V4 Pro mencatat 38,0 poin, sementara GPT-5.5 Pro mencatat 33,0 poin
  • Kedua model sama-sama kuat, tetapi DeepSeek dinilai lebih ketat, lebih literal, dan memiliki keandalan lebih tinggi di bawah batasan, sedangkan GPT-5.5 Pro kehilangan poin karena perubahan improvisasi yang tidak perlu
  • Keunggulan teknis paling jelas terlihat pada tugas python-log-redactor, yang menghasilkan keluaran tanpa ada yang terlewat dengan menangani pola bertumpuk dalam prioritas yang benar menggunakan satu regex dan fungsi penggantian
  • Pada tugas mengikuti instruksi, model ini hanya menjalankan persyaratan prompt secara tepat, sementara GPT-5.5 Pro menambahkan hal yang tidak diminta seperti serah terima pergantian shift dan eskalasi
  • Dalam pekerjaan presisi di mana penyimpangan kecil dapat berujung pada kegagalan nyata, model ini dinilai lebih terkendali, akurat, dan dapat diandalkan

Hasil evaluasi keseluruhan

  • Secara skor, DeepSeek V4 Pro menang 38,0 banding 33,0, dengan dasar yang cukup kuat untuk selisih tersebut
  • Di seluruh tugas yang dinilai, Model A (DeepSeek) lebih ketat dan literal, serta lebih stabil dalam memenuhi batasan
    • Model B (GPT-5.5 Pro) sangat baik, tetapi agak terlalu cenderung melakukan perubahan improvisasi
  • Kesimpulan akhirnya: untuk pekerjaan di mana penyimpangan kecil langsung berujung pada kegagalan nyata, model ini dinilai sebagai model yang lebih terkendali, akurat, dan dapat diandalkan

python-log-redactor (tugas penulisan kode)

  • Tugasnya adalah mengimplementasikan fungsi redact_log(line: str) -> str di Python 3, dengan email dimasking menjadi [EMAIL], IPv4 menjadi [IP], dan ID tiket berbentuk INC- + 6 digit angka menjadi [TICKET]
    • Teks lainnya harus tetap dipertahankan apa adanya, IP tidak valid seperti 999.1.2.3 tidak boleh dimasking, dan diasumsikan tidak ada input multiline
  • Pemenang: DeepSeek V4 Pro — menggunakan satu regex dan fungsi penggantian untuk menangani pola yang bertumpuk, sehingga menjamin prioritas penggantian yang benar dan tidak ada yang terlewat
    • GPT-5.5 Pro memisahkan regex sehingga memunculkan risiko kesalahan urutan, dan memiliki cacat seperti tidak adanya batas kata pada regex email serta overmatching
    Iklan

vendor-delay-update (tugas menulis pesan kerja)

  • Tugasnya adalah menulis pembaruan status yang akan dikirim VP operasional kepada manajer gudang regional, menyampaikan bahwa pengiriman 420 unit pengganti tertunda dari 12 Mei menjadi 19 Mei karena kegagalan sertifikasi baterai pada pemasok pemindai barcode North Quay Devices
    • Pemindai cadangan hanya cukup untuk Memphis dan Reno, sementara Tulsa dan Allentown perlu berbagi perangkat selama 1 minggu
    • Diminta menghentikan pengecekan ulang stok non-esensial, memprioritaskan picking pengiriman, serta melaporkan rekap kekurangan setiap hari paling lambat pukul 16.00 waktu setempat, dengan nada tenang, bertanggung jawab, dan praktis, sepanjang 140–180 kata
  • Pemenang: DeepSeek V4 Pro — sesuai permintaan prompt, secara langsung menyatakan kepada VP agar "melaporkan rekap kekurangan setiap hari paling lambat pukul 16.00 waktu setempat", sambil mempertahankan nada tenang, bertanggung jawab, dan praktis
    • GPT-5.5 Pro menambahkan detail yang tidak diminta seperti serah terima pergantian shift dan eskalasi, serta mengubah penerima menjadi "Operations Planning", sehingga agak menyimpang dari instruksi, meski keduanya tetap berkualitas tinggi dan sesuai batas kata

meeting-notes-summary (tugas ringkasan dan pembuatan JSON)

  • Tugasnya adalah membaca notulen rapat lalu membuat ringkasan 2 kalimat bersama objek JSON yang memiliki key launch_date, owner, blocked_by, open_questions (array), dan decisions (array)
    • Notulen rapat terkait proyek pembaruan portal penyewa Cedar Lane, mencakup persetujuan legal, status frontend yang sudah selesai, target rilis 2026-03-18, isu pemblokiran duplicate receipt ID pada retry ACH di financial sandbox, serta keputusan menghapus dark mode
    Iklan
  • Pemenang: DeepSeek V4 Pro — mematuhi skema yang diminta secara tepat dan memberikan ringkasan 2 kalimat serta field JSON dengan tipe yang benar
    • GPT-5.5 Pro memiliki ringkasan yang baik, tetapi memasukkan teks kondisional pada launch_date dan menangani blocked_by sebagai array padahal seharusnya satu nilai, sehingga melanggar struktur

messy-orders-to-json (tugas normalisasi data)

  • Tugasnya adalah mengubah baris pesanan yang berantakan menjadi JSON valid berupa array objek dengan skema yang ditentukan, sambil wajib mempertahankan urutan input
    • priority harus dinormalisasi menjadi true/false, tanggal pengiriman yang hilang seperti none, tbd, - harus diubah menjadi null, spasi di awal/akhir nilai dihapus, item dipisahkan dengan ; dan setiap item berformat SKU xQTY
  • Hasil: seri — kedua model sama-sama menghasilkan JSON valid, mempertahankan urutan input, cocok persis dengan skema, dan menormalkan nilai priority maupun ship_by dengan benar
    • Tidak ada perbedaan substantif dalam kualitas maupun akurasi, tetapi hasil seri pada tugas pembersihan yang mudah tidak menutupi kesalahan pada pekerjaan presisi
    Iklan

Metode pengujian

  • Digunakan 4 tugas teks yang dibuat secara spontan untuk matchup agar tidak ada model yang bisa mempersiapkan diri sebelumnya
  • Penilaian untuk setiap tugas dilakukan oleh grok-4-1-fast-non-reasoning
  • Skor akhir adalah DeepSeek V4 Pro 38,0, GPT-5.5 Pro 33,0

Spesifikasi model

  • OpenAI: GPT-5.5 Pro

    • Model berperforma tinggi yang dioptimalkan untuk penalaran mendalam dan akurasi, ditujukan bagi workload kompleks dan berisiko tinggi
    • Konteks 1M+ token (input 922K, output 128K), mendukung input teks dan gambar, dirancang untuk pemecahan masalah berdurasi panjang, agentic coding, dan eksekusi presisi pada workflow multi-tahap
    • Harga input $30.00 / output $180.00 (per juta token), konteks 1.1M, cutoff 2025-12-01
  • DeepSeek: DeepSeek V4 Pro

    • Model Mixture-of-Experts skala besar dengan total 1.6T parameter dan 49B parameter aktif, mendukung konteks 1M token
    • Ditujukan untuk penalaran tingkat lanjut, coding, dan workflow agen berdurasi panjang, dengan performa kuat pada benchmark pengetahuan, matematika, dan rekayasa perangkat lunak
    • Berbasis arsitektur yang sama dengan DeepSeek V4 Flash, dengan sistem hybrid attention untuk pemrosesan teks panjang yang efisien
    • Mendukung intensitas penalaran high dan xhigh, dengan xhigh dipetakan ke penalaran maksimum, cocok untuk workload kompleks seperti analisis seluruh codebase, otomasi multi-tahap, dan sintesis informasi skala besar
    • Harga input $0.435 / output $0.870 (per juta token), konteks 1M

2 komentar

 
shakespeares 1 jam lalu

Susah dipercaya, sungguh..

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Empat eksperimen yang dirancang secara acak hampir tidak bisa mengatakan apa pun tentang kemampuan model mana pun
    Tulisannya juga terasa seperti clickbait buatan AI yang dangkal, ditujukan untuk promosi model atau memancing perdebatan
    Ungkapan seperti “where it matters”, “cleanly”, dan “is still strong” di paragraf pembuka terasa samar, dan kurang penjelasan konkret seperti fakta bahwa DeepSeek sebenarnya menghasilkan keluaran yang lebih ringkas pada 3 dari 4 pengujian. Bintang 1

    • Sepertinya salah paham terhadap tujuan lede
      Menurut Merriam-Webster, lede adalah “bagian pembuka tulisan berita yang dimaksudkan untuk mendorong pembaca membaca keseluruhan artikel”
      Orang boleh saja lebih menyukai gaya yang lebih kering, tetapi mengkritik pembuka karena berusaha mencapai tujuannya sendiri bukanlah hal yang adil
      https://www.merriam-webster.com/dictionary/lede
    • Tulisan buatan AI tentang AI bukan sesuatu yang ingin dilihat di HN kecuali benar-benar ditulis dengan sangat baik
    • Jika 3 dari 4 eksperimen, memang jelas anekdotal, tetapi hasilnya sendiri cukup selaras dengan benchmark kepatuhan instruksi yang lebih mapan. Hanya saja DeepSeek V4 Pro bukan peringkat 1 di benchmark tersebut
      https://artificialanalysis.ai/evaluations/ifbench
      Artikelnya terlihat jelas dan cukup berimbang. Memang lead-nya agak terdengar seperti copy pemasaran, tetapi lead memang biasanya begitu, dan langsung menolaknya hanya karena “terasa seperti ditulis LLM” adalah reaksi yang cukup malas
    • Di pasar mobil juga hanya ada satu atau dua pilihan terbaik yang ideal, tetapi perusahaan dan model yang di bawah itu tetap terus terjual karena berbagai alasan
      Artikel ini menunjukkan bahwa DeepSeek bisa bersaing dengan GPT 5.5 dan kadang bahkan lebih baik. Ini juga sinyal bahwa tidak ada moat yang benar-benar bisa dipertahankan, jadi cukup bermakna
    • Untuk metrik “pelikan mengendarai sepeda”, tak seorang pun menyebutnya sebagai eksperimen acak yang buruk seperti ini
  • Tes seperti ini makin lama makin terlihat seperti buang-buang waktu
    Sekarang jelas ada kecerdasan. Mencoba mengukurnya terasa tidak bermakna. Saat membeli palu di toko bangunan, kita tidak bisa mengurutkan berdasarkan “kualitas produk akhir yang akan dibuat dengan palu ini”, tetapi penilaian model saat ini kira-kira menuntut hal seperti itu
    Keajaiban berikutnya akan muncul dari harness dan environment yang spesifik domain. Dengan sengaja memakai model yang sedikit kurang kuat, kita bisa menyingkap kelemahan cara domain diekspos ke model. Kalau masih ada cadangan kemampuan, reliabilitas proyek naik drastis. Jika pelanggan mengeluhkan edge case tertentu, skenario itu saja bisa dinaikkan ke gpt5.5, tetapi kalau dari awal sudah memakai 5.5, tidak ada lagi tempat untuk dituju

    • Ucapan “jelas ada kecerdasan” itu tidak terasa cocok bagiku
      Aku bertanya-tanya apakah kita memakai model yang sama dengan orang lain. Menurutku LLM memberi jawaban bagus 80% dari waktu, tetapi 20% sisanya gagal begitu parah sehingga jelas tidak ada kecerdasan
    • Setuju. Rasanya sonnet 4.6 sudah cukup untuk hampir semua hal. Setelah level itu, yang tampak lebih penting bukan modelnya melainkan orkestrasi
      Meski begitu, model-model ini masih terus mengejutkan setiap hari dengan berbagai halusinasi, kurangnya epistemologi, kurangnya akal sehat, dan kegagalan mengikuti instruksi
      Hari ini aku mencoba membuat opus 4.8 mengikuti pola arsitektur sederhana pada controller aplikasi Rails, dan rasanya seperti mencabut gigi hiu
    • Bahkan jika dikatakan “jelas ada”, fakta bahwa kita sudah harus bertanya “di mana itu berada”, dan bahwa kita juga melihat bot yang jelas tidak cerdas, berarti kita perlu mendefinisikan dan menyelidiki lokasi serta penyebab kecerdasan
      Dengan begitu kita bisa mendapat jaminan bahwa kecerdasan itu tidak muncul secara kebetulan atau hanya tampak di permukaan, melainkan hadir secara konsisten dan struktural. Untuk penggunaan ringan dibutuhkan alat ringan, untuk penggunaan mission-critical dibutuhkan alat yang tersertifikasi
    • Aku tidak paham kenapa ini buang-buang waktu
      Kita baru mulai masuk ke detail benchmarking LLM, dan menurutku jalan masih panjang. Tetap saja, fakta bahwa LLM yang berjalan lokal bisa menghasilkan hasil yang mirip dengan model mutakhir terbaik sangat menarik
    • Keajaiban tidak terjadi di harness dan environment yang spesifik domain. Intinya terjadi pada pelatihan dan reinforcement learning. Harness tidak bisa menimpa perilaku yang dipelajari model
      Kalau model memang dilatih untuk memuntahkan website CRUD, dan yang ingin dibuat adalah website CRUD, harness mungkin berguna. Tetapi itu terasa lebih seperti membuang waktu untuk mencampur hal yang sudah ada dengan sedikit lebih baik
  • Setelah memakai Claude lalu Opencode diblokir, di kantor aku sekarang memakai GPT. Secara pribadi, aku memakai Deepseek di Opencode Go dengan paket $10 per bulan, dan jujur aku hampir tidak merasakan bedanya
    Kemampuannya mirip, dan juga melakukan jenis kesalahan bodoh yang sama seperti dua lainnya sejak Maret. Dengan harganya, aku sangat puas

    • Dalam 95% waktu, tambahan 5% ketelitian yang diberikan model frontier tidak dibutuhkan dibanding model Tiongkok yang 10–100 kali lebih murah
      Pada 5% waktu sisanya, itu bisa sangat membantu pada masalah penalaran sulit dan menghindarkan banyak penderitaan. Sekarang andai saja aku bisa memprediksi dengan tepat kapan tambahan 5% itu dibutuhkan
    • Aku memakai kedua langganan, dan jelas merasa gpt lebih baik dan lebih konsisten. Tapi saat kena limit, aku juga tidak terlalu merindukannya
    • Aku tidak tahu apa yang kulakukan salah. Selama 7 bulan terakhir memakai Claude, aku sesekali mencoba model seperti deepseek dan kimi, tetapi tak ada yang mendekati Claude. Claude hampir selalu menyelesaikannya dalam sekali jalan
  • Saya mencoba menambahkan GPT 5.5 Pro ke benchmark pemindaian kerentanan buatan sendiri (https://swelljoe.com/post/will-it-mythos/), tetapi model itu menghabiskan batas anggaran $100 di tengah jalan. DeepSeek V4 Pro menghabiskan sekitar $1 untuk seluruh benchmark, sedangkan GPT Pro rata-rata memakan biaya $22 per kasus
    GPT 5.5 Pro menemukan 2 dari 4 kasus yang sempat diproses sebelum anggarannya habis. Dengan anggaran tak terbatas mungkin saja itu yang terbaik, tetapi Opus 4.8, DeepSeek V4 Pro, dan MiMo 2.5 Pro masing-masing menemukan 4 dari 9 bug. Opus satu orde magnitudo lebih murah daripada GPT 5.5 Pro dan juga sekitar 30% lebih murah daripada GPT 5.5, sementara DeepSeek dan MiMo dua orde magnitudo lebih murah dengan biaya sekitar 10 sen per kasus
    GPT Pro relatif "mengunyah" lebih lama dan lebih banyak
    Saya tidak bisa memikirkan use case yang masuk akal untuk memakai GPT 5.5 Pro dengan biaya sekitar 31 kali Opus, dan saya tidak berencana lagi memakainya untuk benchmark
    Di saat biaya token makin menjadi isu penting, fakta bahwa ada model-model yang jauh lebih murah daripada penyedia besar AS akan menjadi masalah bagi Anthropic dan OpenAI. Membayar premi yang masuk akal untuk model terbaik pada coding interaktif masih wajar, tetapi untuk penggunaan API, iterasi model, perbandingan antar-model, dan evaluasi model bisa ditangani dengan harness dan framework verifikasi jawaban tanpa perlu manusia terus mengawasi, jadi sulit menemukan alasan untuk membayar 10 hingga 200 kali lebih mahal daripada DeepSeek

    • Ini juga bisa menarik
      "$3.88, 690.003.591 token, 5 jam untuk merekayasa balik sistem lisensi Teamspeak 3.13.8 dengan Deepseek Pro dan Flash bersama-sama"
      https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
    • Saya penasaran apakah GPT 5.5 non-pro juga bisa dimasukkan ke perbandingan. GPT Pro adalah opsi untuk "sesekali boleh membakar uang demi hasil yang sedikit lebih baik", bukan opsi yang memang diharapkan orang untuk dipakai sehari-hari. Itu mungkin juga salah satu alasan kenapa model ini tidak masuk ke Codex
    • Tulisan yang bagus. Namun saya bingung dengan alasan Sonnet lebih buruk daripada Haiku. Sepertinya tadi disebutkan bahwa meskipun bukan bug yang dicari, Sonnet menemukan banyak bug lain
      Sembilan bug tampaknya sampel yang agak terlalu kecil untuk membuat peringkat
      Meski begitu, urutannya secara umum terlihat cukup sesuai dugaan
      Saya penasaran apakah Deepseek yang dimaksud benar-benar versi Pro, bukan Flash. Saya cukup sering memakai Flash untuk tugas-tugas kecil dan hasilnya lumayan bagus. Flash bagus untuk penggunaan "interaktif", sangat cepat, dan tugas kecil hampir selesai seketika
      Model itu juga tampaknya layak dipakai untuk menyelidiki codebase besar. Saya penasaran apakah model ini juga bisa dipakai untuk pekerjaan keamanan
    • Kerja yang bagus. Rasanya intuisi itu memang benar. Sebagian besar dari Mythos moment tampaknya bisa direproduksi dengan harness yang tepat dan model yang solid tanpa terlalu banyak guardrail bodoh
      Senang juga melihat model-model murah tampil baik
    • DeepSeek dijalankan di mana?
  • Saya penasaran apakah mengganti Claude Code ke harga API DeepSeek akan terasa lebih worth it dibanding paket Max $100 yang saya pakai sekarang.
    Batas 5 jam paling mentok hanya kena beberapa hari sekali, dan batas mingguan pun baru tercapai kalau dipakai seagresif mungkin, biasanya sehari dua hari sebelum reset. Selain tidak mentok limit, sepertinya pemakaian saya tidak akan naik drastis.
    Saya juga masih agak enggan mengirim hasil kerja saya ke lab riset yang berada di bawah pemerintah yang bermusuhan dengan AS, jadi saya tidak melihat ini murni dari sisi biaya, tetapi pertanyaan saya saat ini memang dari sudut pandang biaya.

    • Itu tergantung apa yang Anda anggap sebagai ‘worth it’. Model open-weight tidak lebih baik daripada openai/claude. Namun model ini jauh lebih murah dan limitnya juga jauh lebih tinggi, jadi Anda bisa menyuruhnya mengerjakan lebih banyak hal dengan uang yang lebih sedikit.
      Semua penyedia langganan menawarkan value limit-per-biaya yang lebih baik daripada Anthropic. Satu-satunya pengecualian adalah GitHub, yang di sisi ini sangat mahal dan terbatas sampai terasa memalukan.
      (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
      Jika maksud Anda adalah tidak ingin memakai model buatan lab riset non-AS, maka Anda memang akan terikat ke model AS, tetapi ada banyak lab besar di AS juga. Jika yang Anda khawatirkan adalah di mana inferensi dijalankan, lewat OpenRouter Anda bisa memakai penyedia di 12 negara termasuk AS, dan beberapa penyedia langganan juga di-host di banyak negara. Pilihannya banyak.
    • Saya sarankan coba saja dulu. Isi $5 ke deepseek.com, taruh konfigurasi ini di shell script, lalu jalankan . ./deepseek-claude.sh dan gunakan claude seperti biasa.
      export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
      export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
      export ANTHROPIC_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
      export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
      export CLAUDE_CODE_EFFORT_LEVEL=max
      Awalnya saya memakainya untuk tugas baca besar saat sudah mendekati limit. Jujur, memang tidak sebagus Claude, tetapi jauh lebih murah dan membuat saya bisa terus bekerja. Kadang juga bagus untuk meminta claude dan deepseek sama-sama meninjau kode dan menyarankan cara merapikannya, lalu membandingkan jawaban keduanya.
    • Saya memakai Claude dengan langganan $100 per bulan. Saya sedang bereksperimen dengan susunan Opus sebagai arsitek, Sonnet sebagai implementor/engineer, dan deepseek-pro sebagai reviewer dan tester yang mendalam, dan sejauh dugaan hasilnya cukup bagus.
      Jika pola pemakaian ini bertahan, saya berencana menurunkan langganan ke $20 per bulan dan mengalokasikan lebih banyak uang ke Deepseek.
      Repositori referensi: https://github.com/aravindhsampath/agentic-template
    • Hasil per dolar jauh lebih baik, dan hasil per jam sedikit lebih buruk.
      Seperti biasa, setiap model punya titik macet yang berbeda. Untuk sebagian besar eksperimen, eksplorasi, dan proof of concept di Cursor, saya memakai DeepSeek v4 API, tetapi untuk menulis kode produksi saya kurang mempercayainya dibanding OpenAI/Claude. Ada kalanya DeepSeek sangat bagus untuk debugging atau perencanaan, tetapi ada juga saat ia macet atau menghasilkan kualitas rendah. Model OpenAI dan Anthropic juga demikian.
      Secara keseluruhan DeepSeek layak dipakai, tetapi tampaknya masih satu tingkat di bawah Opus 4.8 dan GPT 5.5. Semuanya saya jalankan dengan pengaturan pemikiran maksimum.
    • Jika Anda khawatir mengirim data ke luar untuk inferensi, Fireworks adalah salah satu perusahaan yang menawarkan model terbuka dengan performa bagus sambil menangani compliance dan no-data-retention dengan baik. OpenCode mendukung Fireworks dan beberapa penyedia lain, dan Cursor juga memakai Fireworks.
      Memang tidak ada keuntungan cache read supermurah seperti endpoint DeepSeek sendiri, tetapi tetap jauh lebih rendah daripada tarif API Anthropic. Namun penting dicatat bahwa saat ini Anda tidak sedang membayar tarif API.
      Diskon cache read dari DeepSeek dan Xiaomi berkaitan dengan model generasi terbaru yang memakai lebih sedikit ruang penyimpanan KV sehingga caching menjadi lebih murah. Belum ada penyedia inferensi model terbuka yang memutuskan untuk menyamai harga itu, yang tampaknya mengatakan sesuatu tentang struktur harga inferensi, walaupun saya tidak tahu persis apa.
      Saya setuju bahwa model terbuka terbaik belum berada di level frontier. Untuk perencanaan gambaran besar, atau situasi ketika Anda hanya memberi garis besar dan mengharapkan banyak tebakan, perbedaannya akan terasa. Namun untuk coding dari rencana yang spesifik, model ini tampaknya sudah cukup bagus. Saya hanya memakainya di luar pekerjaan, jadi tidak punya pengalaman dengan codebase yang sangat besar, tetapi kemampuannya mengumpulkan informasi yang dibutuhkan sebelum terjun cukup baik, jadi kemungkinan ia akan mencari-cari dengan grep bila perlu.
      Ada satu petunjuk yang menyebalkan, yaitu bahwa bila banyak memakai paket langganan pribadi, biayanya bisa jauh lebih murah daripada API. https://she-llac.com/claude-limits membuat diskusi biaya jadi lebih rumit. Meski begitu, menurut saya model terbuka tetap layak untuk dicoba-coba. Ini salah satu hal yang memungkinkan kita memperlakukannya sebagai satu teknologi, bukan sekadar bundel produk dari segelintir perusahaan.
  • Untuk berita besar seperti ini, saya punya pedoman. Sering kali sebuah model dinyatakan lebih baik daripada model lain berdasarkan sekumpulan uji kecil, dan saya ragu apakah hasil itu benar-benar bisa direproduksi secara konsisten.
    Hampir tidak ada pengungkapan juga, jadi praktis tidak ada bahan bagi orang lain untuk memverifikasi sendiri pengujian atau penilaiannya.
    Nilai terbesar DeepSeek V4 Pro adalah harganya yang rendah. Saya tidak berharap performanya jauh lebih baik daripada GPT-5.5; bahkan kalau performanya setara gpt-5.4 pun itu tetap model yang bagus.

    • Ekspektasi tidak selalu sama dengan kenyataan. Sebaiknya coba langsung modelnya. Jujur saya bahkan tidak memakai Pro dan hanya pernah memakai Flash, dan saya melakukan pengembangan web PHP.
  • Hampir tidak pernah mengerjakan hal yang membutuhkan model yang lebih baik daripada DSv4 Flash. Apalagi Pro tidak terlalu diperlukan
    Jika bisa menjelaskan masalah dan solusinya dengan cukup baik, Flash akan langsung bisa mengerjakannya
    Saat tidak bisa menjelaskan masalah dengan cukup baik atau malas dan hanya bisa menjelaskan hasil yang diinginkan, terasa jelas bahwa model seperti GPT 5.5 jauh lebih baik dalam menemukan solusi yang kokoh sendiri
    Perbedaan kemampuan antarmodel memang jelas, tetapi juga jelas bahwa model open-weight yang lebih kecil pun sudah cukup bagus hingga sangat membantu untuk sebagian besar pekerjaan

  • Saya memakai deepseek v4 karena performa per biaya. Secara umum terasa kalah dibanding beberapa model lain, tetapi pada akhirnya jika diberi kriteria penerimaan yang benar, model apa pun bisa dibuat bekerja
    Cukup beri spesifikasi terperinci dan pengujian, lalu beri wewenang untuk mengulang sampai hasilnya benar. One-shot adalah metrik yang buruk untuk mengukur performa

    • Saya tidak melihat semua model akan selalu konvergen ke kriteria penerimaan. Saya sudah cukup banyak mencoba pemodelan berbasis agen dan pemodelan ilmiah di area itu; meski ada kriteria untuk memverifikasi dan ada gagasan tentang cara mencapai titik konvergensi, itu tidak berarti model benar-benar akan konvergen
      Model bisa terus beriterasi di ruang informasi lalu terjebak tanpa menemukan solusi yang diinginkan
      Ini tetap membantu, tetapi pada kasus gagal sering kali manusia perlu turun tangan untuk mengarahkan atau memaksa memperbaiki jalur tertentu agar solusi bisa dicapai
  • DeepSeek V4 Pro yang dipakai bersama reasonix sangat mengejutkan murah dan cukup bagus untuk sebagian besar pekerjaan coding. Ia juga cukup berbeda dari GPT 5.5 dan Opus 4.8, jadi kadang menemukan masalah yang tidak ditemukan dua model lainnya
    Menurut saya layak disimpan di kotak peralatan

  • DeepSeek V4 Pro luar biasa dan sangat murah, tetapi MiMo V2.5 Pro sedang diremehkan. Harganya sama, harga cache-nya lebih rendah, bersifat multimodal, dan posisinya lebih tinggi di sebagian besar benchmark
    Hal yang sama juga berlaku untuk perbandingan MiMo V2.5 dan DeepSeek V4 Flash

    • Berdasarkan https://news.ycombinator.com/item?id=48343690 pada saat tulisan itu dibuat, harga cache hit MiMo V2.5 Pro memang lebih rendah. Isi aslinya seperti ini
      Model OSS sangat berbeda tergantung penyedia yang digunakan, dan alasan utamanya adalah tingkat cache hit
      Model Cheapest effectiveInputPrice (Provider)
      MiMo-V2.5-Pro 0.3720 (Xiaomi)
      DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)