5 poin oleh GN⁺ 2026-04-26 | 2 komentar | Bagikan ke WhatsApp
  • GPT-5.5 telah dirilis di Chat Completions API dan Responses API, dan GPT-5.5 pro untuk masalah sulit yang diuntungkan oleh komputasi lebih besar juga ditambahkan ke permintaan Responses API
  • GPT-5.5 mendukung jendela konteks 1 juta token, input gambar, structured output, function calling, prompt caching, Batch, tool search, computer use bawaan, hosted shell, apply patch, Skills, MCP, pencarian web
  • Nilai default reasoning effort ditetapkan ke medium, dan saat image_detail tidak disetel atau bernilai auto, perilaku sebelumnya tetap dipertahankan
  • Caching GPT-5.5 hanya berfungsi pada extended prompt caching dan tidak mendukung in-memory prompt caching: behavioral changes
  • Perubahan pada 21 April
    • GPT Image 2 telah dirilis sebagai model generasi gambar terbaru untuk pembuatan dan pengeditan gambar
    • GPT Image 2 mencakup ukuran gambar yang fleksibel, input gambar fidelitas tinggi, penagihan gambar berbasis token, serta dukungan Batch API dengan diskon 50%

2 komentar

 
ragingwind 2026-04-26

Mulai 5.4, versi pro tampaknya sudah tidak lagi menyediakan Chat Completions API.

 
GN⁺ 2026-04-26
Pendapat Hacker News
  • Aku langsung mencobanya karena ada isu produksi, dan GPT-5.5 melakukan hal yang biasanya tidak dilakukan Claude dengan cara seperti ini
    Setelah troubleshooting, model menyuruhku menulis pernyataan update, lalu ketika aku bilang, "oke, mari bungkus ini dengan transaction dan tambahkan rollback," hasilnya malah gaya lama seperti ini
    BEGIN TRAN;
    -- put the query here
    commit;
    Hanya memberi seperti itu
    Sudah cukup lama aku tidak perlu mendorong model lagi agar benar-benar melakukan tugas yang diminta, jadi ini cukup mengejutkan
    Aku paham kalau mereka ingin memakai token lebih sedikit, tapi kalau aku membayar untuk model state-of-the-art lalu hasilnya malas seperti ini, rasanya menyebalkan
    Aku cuma mencobanya karena model ini muncul di pemilih model di Cursor

    • Setelah gpt-5.3-codex, 2–3 generasi terakhir terasa bukan benar-benar jauh lebih baik, melainkan lebih seperti mengubah berbagai hal dan menghasilkan tradeoff yang berbeda-beda
    • Mungkin aku salah paham, tapi aku penasaran apa tepatnya masalahnya
      Jika masalahnya adalah jawaban itu hanya menaruh -- put the query here dan tidak mengulangi query-nya lagi, aku tidak yakin itu benar-benar masalah
      Kalau tujuan nyatanya adalah mendapatkan query yang bisa dijalankan dan kamu bilang "mari lakukan ini dalam transaction," cukup masuk akal kalau model hanya memberi tahu bahwa kamu tinggal menambahkan begin di depan
      Jika query-nya panjang, itu juga menghemat token, mirip seperti ketika muncul permission denied lalu alih-alih menulis ulang seluruh perintah, cukup diberi tahu untuk menambahkan sudo di depannya
      Sebaliknya, kalau kamu memang mengharapkan model benar-benar menjalankan query itu lalu jawabannya malah seperti "ini dia, kamu sendiri yang jalankan," itu jelas malas dan wajar kalau bikin heran
    • OpenAI tampaknya akhirnya menjadi perusahaan pertama yang mencapai tingkat kecerdasan yang membuat pengguna mengerjakan tugasnya
      Lucu juga melihat emergent behavior muncul seperti ini
      Bercanda aside, optimasi OpenAI yang begitu obsesif pada intelligence per token mengingatkanku pada era MacBook Apple sebelum M1 saat mereka terlalu memaksakan bodi supertipis
      Rasanya seperti mengejar satu metrik sampai habis sambil mengorbankan semua hal lain
      GPT-5.3+ jelas termasuk model yang paling pintar, tetapi sering terasa terlalu malas sehingga sulit diajak bekerja sama
    • Aku kurang yakin ini contoh yang bagus atau buruk
    • Untuk satu hal, GPT-5.5 tampaknya sanggup menghancurkan benchmark soal kepercayaan kepada pengguna
  • Barusan aku menjalankannya dengan benchmark Wordpress+GravityForms milikku, dan dari sisi performa pun hasilnya ada di papan bawah leaderboard, sementara value for money-nya paling buruk: https://github.com/guilamu/llms-wordpress-plugin-benchmark
    Aku tahu ini cuma satu benchmark, tapi tetap saja sulit paham bagaimana hasilnya bisa seburuk itu

    • Rasanya seperti junior yang masih minim pengalaman di bidang ini, ngoprek sesuatu di garasi, lalu membuat pengujian yang longgar dan menyebutnya benchmark
      Belakangan ini makna kata-kata terlalu mudah runtuh, jadi hal seperti ini sering terjadi
      Bahkan forum yang dulu banyak diisi orang yang benar-benar bekerja secara teknis sekarang terasa makin dipenuhi massa vibe researcher; begitu melewati ambang popularitas, memang biasanya jadi begini
      HN mungkin masih salah satu benteng terakhir tempat penyelidikan serius masih tersisa, tapi dari komentar awal saja terlihat bahwa tempat itu pun tidak sepenuhnya kebal
    • Di benchmark-mu, gemma4-e4b hasilnya 50% lebih baik daripada gemma4-26b; sepertinya ada yang salah di situ
    • Di benchmark-mu, Opus 4.7 hasilnya jauh lebih buruk daripada Sonnet 4.6; bahkan kalau itu benar untuk benchmark tersebut, itu tetap tidak mewakili performa model secara keseluruhan
    • Kamu seperti melakukan perjalanan waktu untuk membawa benchmark ini ke sini
      Aku cukup suka benchmarking seperti ini
      Aku penasaran bagaimana judge benchmark dinilai, dan aku juga ingin menyusun benchmark serupa sendiri
    • Ini kelihatannya lebih dekat ke benchmark untuk mengukur seberapa baik model melakukan vibe coding
      Prompt-nya sangat tipis, tapi item penilaiannya sangat banyak
  • Harga berdasarkan panjang konteks ternyata seperti ini
    Input: sampai 272K $5/M, di atas itu $10/M
    Output: sampai 272K $30/M, di atas itu $45/M
    Cache read: sampai 272K $0.50/M, di atas itu $1/M
    Setelah melewati 272K, harganya jelas lebih mahal daripada Opus 4.7, dan setidaknya untuk pekerjaanku, efisiensi token-nya tidak terlihat cukup baik untuk menutupi selisih itu
    Tidak cukup untuk mengimbangi perbedaan harga tersebut
    GPT-5.4 punya keunggulan pada konteks 400k dan compaction yang dapat diandalkan, tetapi keduanya sekarang tampak agak mundur
    Meski begitu, masih terlalu dini untuk memastikan apakah keandalan compaction memang benar-benar menurun
    Output frontend-nya juga masih cenderung jatuh ke template bernuansa biru dengan banyak kartu yang sangat mencolok itu
    Gaya ini sudah terlihat mencurigakan sejak masa Horizon Alpha/Beta sebelum rilis GPT-5, tetapi waktu itu task adherence-nya sangat baik sehingga satu kekurangan besar itu masih bisa ditoleransi dan tetap berguna
    Tapi kalau GPT-5.5 benar-benar foundation yang sepenuhnya baru, agak aneh bagian itu masih tetap sebegitu terbatas

  • Hasil benchmark penalaran coding umum untuk GPT 5.5 sudah diunggah ke https://gertlabs.com/
    Evaluasi live decision dan eval agentic yang lebih berat juga akan terus ditambahkan selama 24 jam ke depan, tetapi sepertinya peringkat leaderboard sudah tidak akan berubah lagi
    GPT 5.5 adalah model paling cerdas di antara model publik, dan jelas lebih cepat daripada pendahulunya

  • Kemarin mereka bilang begini

    API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
    Tapi hari ini langsung jadi begini
    Sehari memang masih bisa dibilang "very soon," tapi aku penasaran apa tepatnya yang dimaksud dengan safeguards dan security requirements itu

    • Kalau ada yang bilang sesuatu tertunda karena safeguards, biasanya artinya mereka cuma belum punya kapasitas komputasi penuh untuk merilisnya sekarang juga
    • GPT-5.5 sebenarnya sudah ada di API khusus Codex, dan mereka bahkan secara eksplisit bilang bahwa itu boleh dipakai untuk kegunaan lain juga
      https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
      Jadi ada kemungkinan fakta itu ikut mempercepat rilis kali ini
    • Ada orang yang sudah berkali-kali berbohong seterang-terangan soal isu safety seperti itu dan masih tetap memimpin perusahaan, jadi aku tidak terlalu paham kenapa orang berharap ke depannya akan berbeda
      Sudah ada contoh sebelumnya

      In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
      Altman berkali-kali tidak sepenuhnya jujur soal seberapa penting safety di OpenAI
      https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)

  • Mungkin cuma perasaanku, tapi setiap ada berita seperti ini rasanya OpenAI menjalankan komentator bayaran atau bot untuk menjatuhkan Claude dan mendorong narasi bahwa Codex jauh lebih baik
    Jumlahnya terlalu banyak, dan kalau kamu memakai Claude setiap hari, ada cukup banyak klaim yang rasanya tidak masuk akal

    • Iya, memang terasa aneh
      Mirip dengan suasana ketika orang-orang tampak melupakan bahwa OpenAI mengkhianati demokrasi dengan memutuskan bekerja sama dalam senjata otonom tanpa pengawasan dan pengawasan domestik skala besar
    • Menurutku juga itu terlihat cukup terang-terangan
      Setidaknya, secara kasat mata mulai muncul setelah hype Opus 4.6
    • Tentu saja hal seperti itu memang terjadi
      Zaman sekarang perusahaan-perusahaan yang mendorong produknya sendiri kurang lebih semua begitu
  • Aku pengguna Enterprise, tapi sampai sekarang masih hanya melihat 5.4
    Di pengumuman kemarin dibilang rollout ke semua orang akan memakan beberapa jam, tapi OpenAI perlu lebih baik dalam GTM untuk mengelola ekspektasi

    • Barusan aku refresh dan 5.5 sudah muncul
      Bagus juga dirilis cepat
      Berarti lain kali aku harus mengeluh lebih cepat
  • Ini model kedua yang mendapat 25/25 di benchmark milikku
    Yang pertama adalah Opus 4.7, dan hasilnya ada di sini: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
    Lebih murah daripada Opus dan lebih lambat

  • Di halaman API, knowledge cutoff tertulis 2025-12-01, tetapi kalau ditanya langsung ke model, jawabannya 2024 Juni
    Knowledge cutoff: 2024-06
    Current date: 2026-04-24
    You are an AI assistant accessed via an API.

    • Aku tidak paham kenapa topik ini terus muncul
      Bertanya ke model itu sendiri untuk mengecek tanggal cutoff memang sejak dulu adalah cara yang paling tidak bisa diandalkan
      Bahkan bisa saja model sudah belajar dari komentar seperti ini
      Tanyakan saja satu peristiwa yang terjadi tepat sebelum 2025-12-01
      Kalau bisa, pilih pertandingan olahraga
    • Aku juga ragu bisa benar-benar percaya pada apa yang dikatakan model
      Di halaman API model-model lama pun sering tertulis cutoff Juni 2024, jadi bisa saja model hanya mengulang itu
    • Model tidak tahu cutoff date-nya sendiri kecuali diberi tahu lewat system prompt
      Cara yang benar untuk memeriksa cutoff yang sebenarnya adalah dengan menanyakan sesuatu yang belum ada atau belum terjadi sebelum tanggal itu
      Dari beberapa percobaan kasar yang kulakukan, cutoff pengetahuan umum 5.5 tampaknya masih sekitar awal 2025
    • Kalau begitu, bisakah diuji dengan melihat siapa yang memenangkan pilpres AS 2024
  • Kombinasi GPT 5.5 + Codex benar-benar bagus
    Entah untuk bertanya, menyusun rencana, atau mengimplementasikan kode, sekarang aku hampir menyerahkannya tanpa ragu
    Opus 4.7 justru membuatku terus ingin melakukan double-check
    Instruksi CLAUDE.md sering tidak dipatuhi, halusinasinya juga banyak, dan kalau tidak menemukan jawaban, model itu cenderung mengarang begitu saja; itu dampaknya cukup besar
    Tahun lalu orang-orang sangat cepat bilang OpenAI tertinggal, code red, tetapi sekarang kalau dilihat lagi, situasinya sudah berubah total