OpenAI merilis GPT-5.5 dan GPT-5.5 Pro di API
(developers.openai.com)- GPT-5.5 telah dirilis di Chat Completions API dan Responses API, dan GPT-5.5 pro untuk masalah sulit yang diuntungkan oleh komputasi lebih besar juga ditambahkan ke permintaan Responses API
- GPT-5.5 mendukung jendela konteks 1 juta token, input gambar, structured output, function calling, prompt caching, Batch, tool search, computer use bawaan, hosted shell, apply patch, Skills, MCP, pencarian web
- Nilai default reasoning effort ditetapkan ke
medium, dan saatimage_detailtidak disetel atau bernilaiauto, perilaku sebelumnya tetap dipertahankan - Caching GPT-5.5 hanya berfungsi pada extended prompt caching dan tidak mendukung in-memory prompt caching: behavioral changes
- Perubahan pada 21 April
- GPT Image 2 telah dirilis sebagai model generasi gambar terbaru untuk pembuatan dan pengeditan gambar
- GPT Image 2 mencakup ukuran gambar yang fleksibel, input gambar fidelitas tinggi, penagihan gambar berbasis token, serta dukungan Batch API dengan diskon 50%
2 komentar
Mulai 5.4, versi pro tampaknya sudah tidak lagi menyediakan Chat Completions API.
Pendapat Hacker News
Aku langsung mencobanya karena ada isu produksi, dan GPT-5.5 melakukan hal yang biasanya tidak dilakukan Claude dengan cara seperti ini
Setelah troubleshooting, model menyuruhku menulis pernyataan update, lalu ketika aku bilang, "oke, mari bungkus ini dengan transaction dan tambahkan rollback," hasilnya malah gaya lama seperti ini
BEGIN TRAN;-- put the query herecommit;Hanya memberi seperti itu
Sudah cukup lama aku tidak perlu mendorong model lagi agar benar-benar melakukan tugas yang diminta, jadi ini cukup mengejutkan
Aku paham kalau mereka ingin memakai token lebih sedikit, tapi kalau aku membayar untuk model state-of-the-art lalu hasilnya malas seperti ini, rasanya menyebalkan
Aku cuma mencobanya karena model ini muncul di pemilih model di Cursor
Jika masalahnya adalah jawaban itu hanya menaruh
-- put the query heredan tidak mengulangi query-nya lagi, aku tidak yakin itu benar-benar masalahKalau tujuan nyatanya adalah mendapatkan query yang bisa dijalankan dan kamu bilang "mari lakukan ini dalam transaction," cukup masuk akal kalau model hanya memberi tahu bahwa kamu tinggal menambahkan
begindi depanJika query-nya panjang, itu juga menghemat token, mirip seperti ketika muncul
permission deniedlalu alih-alih menulis ulang seluruh perintah, cukup diberi tahu untuk menambahkansudodi depannyaSebaliknya, kalau kamu memang mengharapkan model benar-benar menjalankan query itu lalu jawabannya malah seperti "ini dia, kamu sendiri yang jalankan," itu jelas malas dan wajar kalau bikin heran
Lucu juga melihat emergent behavior muncul seperti ini
Bercanda aside, optimasi OpenAI yang begitu obsesif pada intelligence per token mengingatkanku pada era MacBook Apple sebelum M1 saat mereka terlalu memaksakan bodi supertipis
Rasanya seperti mengejar satu metrik sampai habis sambil mengorbankan semua hal lain
GPT-5.3+ jelas termasuk model yang paling pintar, tetapi sering terasa terlalu malas sehingga sulit diajak bekerja sama
Barusan aku menjalankannya dengan benchmark Wordpress+GravityForms milikku, dan dari sisi performa pun hasilnya ada di papan bawah leaderboard, sementara value for money-nya paling buruk: https://github.com/guilamu/llms-wordpress-plugin-benchmark
Aku tahu ini cuma satu benchmark, tapi tetap saja sulit paham bagaimana hasilnya bisa seburuk itu
Belakangan ini makna kata-kata terlalu mudah runtuh, jadi hal seperti ini sering terjadi
Bahkan forum yang dulu banyak diisi orang yang benar-benar bekerja secara teknis sekarang terasa makin dipenuhi massa vibe researcher; begitu melewati ambang popularitas, memang biasanya jadi begini
HN mungkin masih salah satu benteng terakhir tempat penyelidikan serius masih tersisa, tapi dari komentar awal saja terlihat bahwa tempat itu pun tidak sepenuhnya kebal
Aku cukup suka benchmarking seperti ini
Aku penasaran bagaimana judge benchmark dinilai, dan aku juga ingin menyusun benchmark serupa sendiri
Prompt-nya sangat tipis, tapi item penilaiannya sangat banyak
Harga berdasarkan panjang konteks ternyata seperti ini
Input: sampai 272K $5/M, di atas itu $10/M
Output: sampai 272K $30/M, di atas itu $45/M
Cache read: sampai 272K $0.50/M, di atas itu $1/M
Setelah melewati 272K, harganya jelas lebih mahal daripada Opus 4.7, dan setidaknya untuk pekerjaanku, efisiensi token-nya tidak terlihat cukup baik untuk menutupi selisih itu
Tidak cukup untuk mengimbangi perbedaan harga tersebut
GPT-5.4 punya keunggulan pada konteks 400k dan compaction yang dapat diandalkan, tetapi keduanya sekarang tampak agak mundur
Meski begitu, masih terlalu dini untuk memastikan apakah keandalan compaction memang benar-benar menurun
Output frontend-nya juga masih cenderung jatuh ke template bernuansa biru dengan banyak kartu yang sangat mencolok itu
Gaya ini sudah terlihat mencurigakan sejak masa Horizon Alpha/Beta sebelum rilis GPT-5, tetapi waktu itu task adherence-nya sangat baik sehingga satu kekurangan besar itu masih bisa ditoleransi dan tetap berguna
Tapi kalau GPT-5.5 benar-benar foundation yang sepenuhnya baru, agak aneh bagian itu masih tetap sebegitu terbatas
Hasil benchmark penalaran coding umum untuk GPT 5.5 sudah diunggah ke https://gertlabs.com/
Evaluasi live decision dan eval agentic yang lebih berat juga akan terus ditambahkan selama 24 jam ke depan, tetapi sepertinya peringkat leaderboard sudah tidak akan berubah lagi
GPT 5.5 adalah model paling cerdas di antara model publik, dan jelas lebih cepat daripada pendahulunya
Kemarin mereka bilang begini
https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
Jadi ada kemungkinan fakta itu ikut mempercepat rilis kali ini
Sudah ada contoh sebelumnya
Mungkin cuma perasaanku, tapi setiap ada berita seperti ini rasanya OpenAI menjalankan komentator bayaran atau bot untuk menjatuhkan Claude dan mendorong narasi bahwa Codex jauh lebih baik
Jumlahnya terlalu banyak, dan kalau kamu memakai Claude setiap hari, ada cukup banyak klaim yang rasanya tidak masuk akal
Mirip dengan suasana ketika orang-orang tampak melupakan bahwa OpenAI mengkhianati demokrasi dengan memutuskan bekerja sama dalam senjata otonom tanpa pengawasan dan pengawasan domestik skala besar
Setidaknya, secara kasat mata mulai muncul setelah hype Opus 4.6
Zaman sekarang perusahaan-perusahaan yang mendorong produknya sendiri kurang lebih semua begitu
Aku pengguna Enterprise, tapi sampai sekarang masih hanya melihat 5.4
Di pengumuman kemarin dibilang rollout ke semua orang akan memakan beberapa jam, tapi OpenAI perlu lebih baik dalam GTM untuk mengelola ekspektasi
Bagus juga dirilis cepat
Berarti lain kali aku harus mengeluh lebih cepat
Ini model kedua yang mendapat 25/25 di benchmark milikku
Yang pertama adalah Opus 4.7, dan hasilnya ada di sini: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
Lebih murah daripada Opus dan lebih lambat
Di halaman API, knowledge cutoff tertulis 2025-12-01, tetapi kalau ditanya langsung ke model, jawabannya 2024 Juni
Knowledge cutoff: 2024-06Current date: 2026-04-24You are an AI assistant accessed via an API.Bertanya ke model itu sendiri untuk mengecek tanggal cutoff memang sejak dulu adalah cara yang paling tidak bisa diandalkan
Bahkan bisa saja model sudah belajar dari komentar seperti ini
Tanyakan saja satu peristiwa yang terjadi tepat sebelum 2025-12-01
Kalau bisa, pilih pertandingan olahraga
Di halaman API model-model lama pun sering tertulis cutoff Juni 2024, jadi bisa saja model hanya mengulang itu
Cara yang benar untuk memeriksa cutoff yang sebenarnya adalah dengan menanyakan sesuatu yang belum ada atau belum terjadi sebelum tanggal itu
Dari beberapa percobaan kasar yang kulakukan, cutoff pengetahuan umum 5.5 tampaknya masih sekitar awal 2025
Kombinasi GPT 5.5 + Codex benar-benar bagus
Entah untuk bertanya, menyusun rencana, atau mengimplementasikan kode, sekarang aku hampir menyerahkannya tanpa ragu
Opus 4.7 justru membuatku terus ingin melakukan double-check
Instruksi
CLAUDE.mdsering tidak dipatuhi, halusinasinya juga banyak, dan kalau tidak menemukan jawaban, model itu cenderung mengarang begitu saja; itu dampaknya cukup besarTahun lalu orang-orang sangat cepat bilang OpenAI tertinggal, code red, tetapi sekarang kalau dilihat lagi, situasinya sudah berubah total