- Model agen yang dapat merencanakan tugas kompleks sendiri, menggabungkan berbagai alat, dan menuntaskannya hingga selesai, dengan cakupan luas mulai dari penulisan kode dan debugging hingga riset web, analisis data, pembuatan dokumen·spreadsheet, serta pengoperasian software
- Sambil mempertahankan per-token latency setara GPT-5.4, performanya meningkat dalam coding, computer use, pekerjaan berbasis pengetahuan, dan riset ilmiah tahap awal, serta efisiensinya juga naik karena dapat menyelesaikan tugas Codex yang sama dengan token lebih sedikit
- Dalam software engineering, model ini mencatat Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, dan SWE-Bench Pro 58.6%, dengan kekuatan yang terlihat pada implementasi, refactoring, debugging, testing, verifikasi, serta mempertahankan konteks codebase besar
- Dalam alur kerja umum dan riset, peningkatan juga terlihat pada rangkaian proses dari pembuatan dokumen·spreadsheet·slide, computer use berbasis manipulasi layar, analisis data multilangkah, verifikasi hipotesis, hingga interpretasi hasil, sementara GPT-5.5 Pro ditujukan untuk akurasi dan cakupan yang lebih tinggi
- Sebelum dirilis, model ini melewati pengamanan yang diperkuat serta pengujian internal dan eksternal, dan kini sedang diluncurkan bertahap di ChatGPT dan Codex terutama untuk pengguna Plus, Pro, Business, dan Enterprise, sehingga tampak sebagai langkah yang memperluas cakupan pemanfaatan AI untuk pekerjaan praktis
Gambaran model dan cakupan peluncuran
- GPT-5.5 diperkenalkan sebagai model yang lebih cepat memahami maksud, dapat merencanakan sendiri pekerjaan yang terjalin dalam banyak tahap, lalu menggunakan alat untuk mendorongnya sampai tuntas
- Model ini dapat menangani penulisan kode dan debugging, riset web, analisis data, pembuatan dokumen dan spreadsheet, pengoperasian software, serta pekerjaan yang berpindah-pindah antaralat
- Alih-alih mengelola setiap tahap secara rinci, model ini dirancang untuk menerima tugas kompleks dan tidak terstruktur sekaligus, lalu melanjutkan hingga perencanaan, penggunaan alat, verifikasi, dan penanganan ambiguitas
- Peningkatan pada pekerjaan agentic sangat ditekankan, dengan performa kuat pada coding, computer use, knowledge work, dan riset ilmiah tahap awal
- Meski model yang lebih besar sering kali menjadi lebih lambat, per-token latency pada layanan nyata tetap dipertahankan sama seperti GPT-5.4
- Efisiensi juga meningkat karena tugas Codex yang sama dapat diselesaikan dengan token lebih sedikit
- Sebelum peluncuran, pengamanannya diperkuat, disertai pengujian red team internal dan eksternal, uji tambahan atas kemampuan cybersecurity dan biology tingkat lanjut, serta masukan penggunaan awal dari sekitar 200 mitra tepercaya
- Saat ini model tersebut diluncurkan bertahap di ChatGPT dan Codex untuk pengguna Plus, Pro, Business, Enterprise, sementara GPT-5.5 Pro tersedia untuk pengguna Pro, Business, dan Enterprise di ChatGPT
- API sedang menyesuaikan persyaratan keamanan terpisah dan akan segera menyediakan GPT-5.5 serta GPT-5.5 Pro
Software engineering dan coding agentic
- OpenAI sedang membangun infrastruktur agentic AI, dan selama setahun terakhir AI telah sangat mempercepat software engineering
- Dengan GPT-5.5 masuk ke Codex dan ChatGPT, perubahan ini mulai meluas ke riset ilmiah dan pekerjaan komputer yang lebih umum
- Berdasarkan Artificial Analysis Coding Index, model ini menawarkan kecerdasan tingkat teratas dengan biaya setengah dari model coding frontier pesaing
- GPT-5.5 diperkenalkan sebagai model agentic coding terkuat menurut standar OpenAI
- Di Terminal-Bench 2.0, model ini mencatat 82.7%, dengan evaluasi yang berfokus pada workflow command line kompleks yang membutuhkan perencanaan, iterasi, dan kombinasi alat
- Di SWE-Bench Pro, model ini mencatat 58.6%, dan mampu menyelesaikan lebih banyak tugas end-to-end dalam satu lintasan dibanding model sebelumnya pada penyelesaian isu GitHub nyata
- Dalam evaluasi internal Expert-SWE pun, GPT-5.5 melampaui GPT-5.4
- Di seluruh tiga evaluasi coding tersebut, model ini meraih skor lebih tinggi sambil menggunakan token lebih sedikit daripada GPT-5.4
- Kekuatan di Codex terlihat pada implementasi, refactoring, debugging, testing, dan verifikasi secara menyeluruh
- Model ini menjadi lebih kuat dalam perilaku engineering nyata seperti menjaga konteks sistem besar, melacak penyebab kegagalan yang ambigu, memeriksa asumsi melalui alat, dan menerapkan perubahan di seluruh codebase
Contoh penggunaan coding dan pengujian awal
- Contoh prompt yang disertakan mencakup implementasi aplikasi WebGL + Vite menggunakan data nyata Artemis II
- Aplikasi tersebut merender lintasan Orion, Moon, dan Sun menggunakan data vektor NASA/JPL Horizons
- Skala tampilan diterapkan demi keterbacaan
- Para penguji awal menilai GPT-5.5 lebih baik dalam memahami struktur sistem
- Model ini lebih akurat menunjukkan apa yang gagal dan mengapa, di mana perbaikannya harus dilakukan, serta dampaknya pada bagian lain dari codebase
- Dan Shipper menguji apakah model bisa membangun ulang redesign pada tingkat yang sama setelah gangguan pascapeluncuran diputar balik, dan hasilnya GPT-5.4 gagal sedangkan GPT-5.5 berhasil
- Pietro Schirano menggabungkan branch yang berisi ratusan perubahan frontend dan refactor ke main branch yang sudah banyak berubah dalam sekali jalan hanya sekitar 20 menit
- Dalam pengujian oleh engineer senior, reasoning dan autonomy model ini lebih menonjol dibanding GPT-5.4 dan Claude Opus 4.7
- Bahkan tanpa prompt eksplisit, model ini lebih dulu menangkap masalah dan memperkirakan perlunya testing serta review
- Saat diminta mendesain ulang comment system pada collaborative markdown editor, model ini menghasilkan 12-diff stack yang hampir selesai
- Perbaikan implementasi yang dibutuhkan lebih sedikit dari perkiraan, dan tingkat kepercayaan pada rencananya juga lebih tinggi daripada GPT-5.4
- Dalam kutipan Michael Truell dari Cursor, terlihat karakteristik bahwa model ini dapat bekerja lebih lama secara berkelanjutan, dan lebih cocok untuk tugas kompleks yang berjalan lama tanpa berhenti terlalu cepat
Pekerjaan pengetahuan umum dan penggunaan komputer
- Kekuatan yang terlihat di coding juga berlanjut langsung ke pekerjaan komputer sehari-hari
- Karena lebih memahami maksud, model ini lebih alami dalam menjalankan seluruh proses mulai dari menelusuri informasi, memilih informasi penting, menggunakan alat, memverifikasi hasil, hingga mengubah bahan mentah menjadi output yang berguna
- Di Codex, GPT-5.5 lebih kuat daripada GPT-5.4 dalam pembuatan dokumen, spreadsheet, dan slide
- Para alpha tester menyatakan model ini lebih baik daripada model sebelumnya untuk riset operasional, pemodelan spreadsheet, dan mengubah input bisnis yang tidak terstruktur menjadi rencana
- Jika digabungkan dengan kemampuan computer use di Codex, model ini dapat melihat layar, mengklik, mengetik, menavigasi antarmuka, dan berpindah dengan presisi antarberbagai alat
- Di internal OpenAI sendiri, model ini sudah digunakan dalam workflow nyata, dan saat ini lebih dari 85% karyawan menggunakan Codex setiap minggu
- Pemanfaatannya mencakup software engineering, keuangan, komunikasi, pemasaran, data science, dan product management
- Tim komunikasi menganalisis data speaking request selama 6 bulan untuk membangun framework penilaian·risiko, lalu memvalidasi Slack agent yang memproses otomatis permintaan berisiko rendah dan menyerahkan permintaan berisiko tinggi untuk ditinjau manusia
- Tim Finance meninjau 24,771 formulir pajak K-1, total 71,637 halaman, dan melalui workflow yang mengecualikan informasi pribadi, pekerjaan itu selesai 2 minggu lebih cepat dibanding tahun sebelumnya
- Di tim Go-to-Market, otomatisasi pembuatan laporan bisnis mingguan menghemat 5~10 jam per minggu
GPT-5.5 Thinking dan GPT-5.5 Pro di ChatGPT
- GPT-5.5 Thinking di ChatGPT dirancang untuk menjawab masalah yang lebih sulit dengan lebih cepat, serta membuat pekerjaan kompleks berjalan lebih efisien dengan jawaban yang lebih cerdas dan ringkas
- unggul dalam coding, research, sintesis dan analisis informasi, serta pekerjaan yang berpusat pada dokumen, dan особенно menguntungkan saat menggunakan plugin
- GPT-5.5 Pro menargetkan tugas yang lebih sulit dan kualitas yang lebih tinggi, dengan latensi yang berkurang sehingga lebih layak diterapkan di pekerjaan nyata
- dibandingkan GPT-5.4 Pro, responsnya menjadi lebih komprehensif, lebih terstruktur, lebih akurat, lebih relevan, dan lebih berguna
- sangat kuat terutama di business, legal, education, dan data science
- Model ini juga menunjukkan angka tinggi pada benchmark yang mendekati pekerjaan profesional
- mencatat GDPval 84.9%, OSWorld-Verified 78.7%, dan Tau2-bench Telecom 98.0%
- Tau2-bench Telecom dijalankan tanpa prompt tuning
- FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, dan OfficeQA Pro 54.1% juga turut disajikan
- Dalam kutipan Justin Boitano dari NVIDIA, dijelaskan alur di mana model ini disediakan di atas sistem NVIDIA GB200 NVL72, menghadirkan kemampuan end-to-end melalui prompt bahasa alami, mengurangi waktu debugging dari hitungan hari menjadi beberapa jam, dan mengubah eksperimen yang biasanya memakan waktu berminggu-minggu menjadi pekerjaan semalam
Riset sains dan alur kerja riset teknologi
- GPT-5.5 juga menunjukkan peningkatan performa dalam alur kerja riset sains dan teknologi
- melampaui sekadar menjawab pertanyaan sulit, model ini lebih mampu mempertahankan loop yang berlanjut dari eksplorasi ide, pengumpulan bukti, verifikasi hipotesis, interpretasi hasil, hingga penentuan eksperimen berikutnya
- Di GeneBench, model ini menunjukkan peningkatan yang jelas dibanding GPT-5.4
- ini adalah evaluasi baru yang ditujukan pada analisis data multilangkah di genetics dan quantitative biology
- mencakup data yang ambigu atau mengandung kesalahan, confounder tersembunyi, kegagalan QC, serta implementasi dan interpretasi teknik statistik modern
- tugas-tugas di sini setara dengan proyek beberapa hari bahkan bagi pakar sains
- Di BixBench, model ini juga mencatat performa terdepan di antara model-model dengan skor publik
- benchmark ini diperkenalkan sebagai tolok ukur yang mencerminkan bioinformatics dan analisis data dunia nyata
- menunjukkan potensi percepatan setingkat co-scientist di garis depan biomedical research
- Versi internal GPT-5.5 dan custom harness juga digunakan untuk menemukan bukti baru terkait Ramsey numbers
- tautan bukti baru
- model ini menemukan bukti atas fakta asimtotik pada off-diagonal Ramsey numbers yang telah lama ada di combinatorics, lalu memverifikasinya dengan Lean
- kontribusinya melampaui kode atau penjelasan, hingga ke argumen matematis yang berguna di bidang riset inti
- Para penguji awal memanfaatkan GPT-5.5 Pro lebih sebagai mitra riset daripada mesin jawaban sekali pakai
- model ini meninjau draf secara kritis beberapa kali, melakukan stress test pada argumen teknis, mengusulkan analisis, dan bekerja bersama konteks kode, catatan, serta PDF
- model ini lebih baik dalam membantu alur dari pertanyaan ke eksperimen hingga hasil akhir
Studi kasus riset
- Derya Unutmaz dari Jackson Laboratory for Genomic Medicine menganalisis dataset gene-expression dengan 62 sampel dan sekitar 28.000 gen menggunakan GPT-5.5 Pro
- model ini menghasilkan laporan riset yang terperinci, mengungkap bukan hanya ringkasan hasil tetapi juga pertanyaan dan insight utama
- pekerjaan tersebut berskala yang akan memakan waktu berbulan-bulan jika dikerjakan timnya
- Bartosz Naskręcki dari Adam Mickiewicz University membuat aplikasi algebraic-geometry dengan Codex dalam 11 menit dari satu prompt
- aplikasi itu memvisualisasikan perpotongan dua quadratic surface dan mengubah kurva hasilnya ke model Weierstrass
- setelah itu ia membuat visualisasi singularity lebih stabil dan bahkan menambahkan exact coefficients yang bisa dipakai ulang untuk pekerjaan lanjutan
- Codex juga membantu mewujudkan visualisasi matematika kustom dan alur kerja computer-algebra yang sebelumnya memerlukan alat khusus
- Credit: Bartosz Naskręcki
- Dalam kutipan Brandon White dari Axiom Bio, dijelaskan bahwa model ini menalar biochemical dataset yang sangat besar untuk memprediksi human drug outcomes, dan menunjukkan peningkatan akurasi yang bermakna pada evaluasi drug discovery yang paling sulit
Infrastruktur inferensi dan optimasi performa
- Untuk menyajikan GPT-5.5 dengan latensi setara GPT-5.4, inferensi harus didesain ulang sebagai sistem terintegrasi, bukan sekadar kumpulan optimasi terpisah
- GPT-5.5 dirancang bersama, dilatih, dan disajikan dengan asumsi sistem NVIDIA GB200 dan GB300 NVL72
- Codex dan GPT-5.5 sendiri berkontribusi langsung dalam mencapai target performa
- Codex digunakan untuk dengan cepat mengubah ide menjadi implementasi yang bisa dibenchmark, membuat sketsa pendekatan, menghubungkan eksperimen, dan menemukan optimasi yang membutuhkan investasi lebih dalam
- GPT-5.5 membantu menemukan lalu mengimplementasikan perbaikan inti di dalam stack
- pada akhirnya, model ini juga berkontribusi pada peningkatan infrastruktur yang digunakan untuk melayani dirinya sendiri
- Sebagai contoh perbaikan representatif, diperkenalkan load balancing dan partitioning heuristics
- sebelumnya, request di atas accelerator dibagi menjadi jumlah chunk tetap sehingga request besar dan kecil berjalan pada GPU yang sama
- namun jumlah chunk yang statis tidak optimal untuk semua bentuk traffic
- Codex menganalisis pola production traffic selama beberapa minggu dan menulis algoritme heuristic kustom untuk membagi serta menyeimbangkan pekerjaan secara optimal
- pekerjaan ini meningkatkan token generation speed sebesar lebih dari 20%
Keamanan siber dan perlindungan
- Menyiapkan model yang andal dalam mendeteksi kerentanan dan melakukan patching ke dunia nyata lebih mirip olahraga tim, dan membutuhkan ketahanan seluruh ekosistem untuk era pertahanan siber berikutnya
- Kapabilitas cybersecurity model frontier terus menguat, dan karena kemampuan ini akan tersebar luas, jalur untuk memanfaatkannya guna mempercepat pertahanan siber dan memperkuat ekosistem menjadi semakin penting
- GPT-5.5 diposisikan sebagai langkah bertahap tetapi penting menuju AI yang dapat menyelesaikan masalah sulit seperti cybersecurity
- Pada GPT-5.2, cyber safeguards sudah diterapkan lebih dulu untuk membatasi potensi penyalahgunaan cyber
- Di GPT-5.5, classifier yang lebih ketat untuk potensi cyber risk telah diterapkan, dan pada awalnya hal ini bisa terasa mengganggu bagi sebagian pengguna
- Selama bertahun-tahun, OpenAI telah menangani cybersecurity sebagai kategori terpisah dalam Preparedness Framework, sambil berulang kali menyesuaikan mitigasi seiring peningkatan kapabilitas
- Safeguards tingkat terdepan di industri diterapkan sesuai dengan tingkat cyber capability ini
- Safeguard khusus cyber pertama kali diperkenalkan di GPT-5.2, lalu diuji, disempurnakan, dan diperluas pada setiap peluncuran berikutnya
- Di GPT-5.5, perlindungan terhadap aktivitas berisiko tinggi, permintaan cyber sensitif, dan penyalahgunaan berulang semakin diperkuat
- Pendekatan akses yang luas dimungkinkan berkat investasi pada keamanan model, penggunaan terverifikasi, dan pemantauan penggunaan yang tidak diizinkan
- Selama berbulan-bulan, robustness dikembangkan, diuji, dan ditingkatkan bersama para ahli eksternal
- Sambil memudahkan developer melindungi kode mereka, kontrol yang lebih kuat diterapkan pada workflow cyber yang dapat memudahkan pelaku jahat menimbulkan kerugian
- Perluasan akses untuk tujuan defensif juga berjalan bersamaan
- Melalui Trusted Access for Cyber, akses ke model yang cyber-permissive disediakan, dengan titik awalnya Codex
- Bagi pengguna terverifikasi yang memenuhi trust signals tertentu, fitur cybersecurity lanjutan GPT-5.5 disediakan dengan lebih sedikit pembatasan
- Organisasi yang bertanggung jawab atas pertahanan critical infrastructure dapat mengajukan akses ke model cyber-permissive seperti GPT-5.4-Cyber
- Tujuannya adalah memberikan alat untuk pekerjaan keamanan yang sah kepada pihak pertahanan terverifikasi dengan hambatan yang lebih rendah
- Tautan pendaftaran: chatgpt.com/cyber
- Termasuk juga kolaborasi dengan mitra pemerintah
- Mereka sedang bersama-sama mengeksplorasi bagaimana AI canggih dapat mendukung pejabat publik yang melindungi infrastruktur penting seperti sistem digital untuk perlindungan data pajak, jaringan listrik, dan pasokan air bersih masyarakat setempat
- Kapabilitas biological/chemical dan cybersecurity GPT-5.5 diklasifikasikan sebagai High dalam Preparedness Framework
- Meskipun belum mencapai tingkat cybersecurity capability Critical, evaluasi dan pengujian menunjukkan kapabilitas cyber GPT-5.5 satu tingkat lebih tinggi daripada GPT-5.4
- Sebelum peluncuran, model ini menjalani seluruh safety and governance process
- Ini mencakup evaluasi preparedness, pengujian per bidang, evaluasi target baru untuk biology dan cybersecurity tingkat lanjut, serta pengujian ketahanan yang ketat bersama para ahli eksternal
- Rincian lebih lanjut tersedia di GPT-5.5 system card
- Pendekatan ini adalah bagian dari strategi AI resilience yang dibutuhkan di era model yang lebih kuat
- AI yang kuat juga harus tersedia bagi orang-orang yang melindungi sistem, institusi, dan publik, dengan akses berbasis kepercayaan, safeguards yang diperkuat sebanding dengan kapabilitas, serta kemampuan operasional untuk mendeteksi dan merespons penyalahgunaan serius sebagai jalur utama yang diajukan
Paket yang tersedia dan harga
- Saat ini di ChatGPT dan Codex, GPT-5.5 sedang diluncurkan untuk pengguna Plus, Pro, Business, dan Enterprise, sementara GPT-5.5 Pro tersedia di ChatGPT untuk Pro, Business, dan Enterprise
- Di ChatGPT, GPT-5.5 Thinking tersedia untuk Plus, Pro, Business, dan Enterprise
- GPT-5.5 Pro ditujukan untuk pertanyaan yang lebih sulit dan akurasi yang lebih tinggi, dan tersedia di Pro, Business, dan Enterprise
- Di Codex, GPT-5.5 tersedia untuk paket Plus, Pro, Business, Enterprise, Edu, Go, dan memiliki 400K context window
- Fast mode juga tersedia, dengan kecepatan pembuatan token 1,5 kali lebih cepat dan biaya 2,5 kali lipat
- gpt-5.5 untuk developer API akan segera tersedia di Responses API dan Chat Completions API
- Harganya tercantum sebagai 5 dolar per 1M token input, 30 dolar per 1M token output, dengan 1M context window
- Harga Batch dan Flex adalah setengah dari tarif API standar, sedangkan Priority processing tersedia dengan tarif 2,5 kali lipat
- gpt-5.5-pro juga akan dirilis di API, dengan target akurasi yang lebih tinggi
- Harganya tercantum sebagai 30 dolar per 1M token input dan 180 dolar per 1M token output
- Informasi harga lengkap ditautkan ke pricing page
- GPT-5.5 lebih mahal daripada GPT-5.4, tetapi juga memiliki kecerdasan dan efisiensi token yang lebih tinggi
- Di Codex, pengalaman disesuaikan agar bagi sebagian besar pengguna dapat memberikan hasil yang lebih baik dengan token lebih sedikit dibanding GPT-5.4
- Penggunaan yang longgar tetap disediakan di seluruh tingkatan langganan
Benchmark detail
-
Coding
- Pada SWE-Bench Pro (Public), GPT-5.5 mencatat 58.6%, GPT-5.4 57.7%, Claude Opus 4.7 64.3%, dan Gemini 3.1 Pro 54.2%
- Terminal-Bench 2.0 mencatat GPT-5.5 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, dan Gemini 3.1 Pro 68.5%
- Expert-SWE (Internal) menunjukkan GPT-5.5 73.1% dan GPT-5.4 68.5%
-
Tugas profesional
- GDPval (wins or ties) mencatat GPT-5.5 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, dan Gemini 3.1 Pro 67.3%
- FinanceAgent v1.1 mencatat GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, dan Gemini 3.1 Pro 59.7%
- Investment Banking Modeling Tasks (Internal) mencatat GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, dan GPT-5.4 Pro 83.6%
- OfficeQA Pro mencatat GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, dan Gemini 3.1 Pro 18.1%
-
Penggunaan komputer dan vision
- OSWorld-Verified mencatat GPT-5.5 78.7%, GPT-5.4 75.0%, dan Claude Opus 4.7 78.0%
- MMMU Pro (no tools) menunjukkan GPT-5.5 dan GPT-5.4 sama-sama 81.2%, sementara Gemini 3.1 Pro 80.5%
- MMMU Pro (with tools) mencatat GPT-5.5 83.2% dan GPT-5.4 82.1%
-
Penggunaan alat
- BrowseComp mencatat GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, dan Gemini 3.1 Pro 85.9%
- MCP Atlas mencatat GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, dan Gemini 3.1 Pro 78.2%
- Toolathlon mencatat GPT-5.5 55.6%, GPT-5.4 54.6%, dan Gemini 3.1 Pro 48.8%
- Tau2-bench Telecom berdasarkan prompt asli mencatat GPT-5.5 98.0% dan GPT-5.4 92.8%
- Catatan untuk MCP Atlas menyebutkan bahwa ini adalah hasil setelah pembaruan terbaru Scale AI pada April 2026
- Catatan untuk Tau2-bench Telecom menegaskan bahwa hasil ini dievaluasi tanpa prompt adjustment, dan hasil prompt adjustment dari lab lain tidak disertakan
-
Akademik
- GeneBench mencatat GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, dan GPT-5.4 Pro 25.6%
- FrontierMath Tier 1–3 mencatat GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, dan Gemini 3.1 Pro 36.9%
- FrontierMath Tier 4 mencatat GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, dan Gemini 3.1 Pro 16.7%
- BixBench mencatat GPT-5.5 80.5% dan GPT-5.4 74.0%
- GPQA Diamond mencatat GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, dan Gemini 3.1 Pro 94.3%
- Humanity's Last Exam (no tools) mencatat GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, dan Gemini 3.1 Pro 44.4%
- Humanity's Last Exam (with tools) mencatat GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, dan Gemini 3.1 Pro 51.4%
-
Keamanan siber
- Capture-the-Flags challenge tasks (Internal) mencatat GPT-5.5 88.1% dan GPT-5.4 83.7%
- CyberGym mencatat GPT-5.5 81.8%, GPT-5.4 79.0%, dan Claude Opus 4.7 73.1%
- Catatan menyebutkan bahwa hasil ini berasal dari perluasan CTF tersulit yang tertulis di system card serta penambahan challenge berkesulitan tinggi lainnya
-
Konteks panjang
- Graphwalks BFS 256k f1 mencatat GPT-5.5 73.7%, GPT-5.4 62.5%, dan Claude Opus 4.7 76.9%
- Graphwalks BFS 1mil f1 mencatat GPT-5.5 45.4%, GPT-5.4 9.4%, dan Claude Opus 4.6 41.2%
- Graphwalks parents 256k f1 mencatat GPT-5.5 90.1%, GPT-5.4 82.8%, dan Claude Opus 4.7 93.6%
- Graphwalks parents 1mil f1 mencatat GPT-5.5 58.5%, GPT-5.4 44.4%, dan Claude Opus 4.6 72.0%
- OpenAI MRCR v2 8-needle disajikan menurut panjang konteks: 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, dan 512K-1M 74.0%
- Pada item yang sama, GPT-5.4 masing-masing mencatat 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, dan 36.6%
- Pada rentang 128K-256K tercantum Claude Opus 4.7 59.2%, dan pada rentang 512K-1M tercantum Claude Opus 4.7 32.2%
-
Penalaran abstrak
- ARC-AGI-1 (Verified) mencatat GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, dan Gemini 3.1 Pro 98.0%
- ARC-AGI-2 (Verified) mencatat GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, dan Gemini 3.1 Pro 77.1%
- Disebutkan bahwa evaluasi seri GPT dilakukan dalam lingkungan riset dengan reasoning effort disetel ke xhigh, dan dalam beberapa kasus output-nya mungkin sedikit berbeda dari ChatGPT produksi
1 komentar
Komentar Hacker News
Ungkapan bahwa kehilangan akses GPT-5.5 di NVIDIA terasa seperti kehilangan lengan dan kaki terdengar jauh lebih mengerikan daripada yang mungkin dimaksudkan
Rasanya ini berlaku untuk ketergantungan pada model coding frontier secara umum, dan makin bagus performanya, makin cepat orang bersandar padanya saat ngoding
Setelah mengalaminya sendiri, rasa tidak nyamannya cukup besar. Sekarang, alih-alih sabar menulis kode manual, menyelesaikannya sekaligus dengan model terasa sekitar 10 kali lebih cepat, dan peranku pun berubah
Luar biasa bahwa kita bisa membuat banyak hal berjalan, tetapi kalau token habis, pada dasarnya pekerjaan juga berhenti
Saat Claude mati, kadang jalan-jalan justru memberi leverage lebih besar daripada memaksa diri menulis kode. Jika satu jam kemudian Claude hidup lagi, kemajuannya lebih besar daripada kelelahan mencoba memecahkan masalah secara manual sambil bergulat dengan kode buatan LLM
Bagaimanapun juga, kondisi seperti ini tetap terasa agak mengkhawatirkan
Pasar saat ini berdiri di atas asumsi bahwa tenaga kerja teratomisasi dan daya tawarnya lemah, sehingga modal punya daya tawar jauh lebih besar dan pada praktiknya menentukan harga tenaga kerja
Tapi bagaimana kalau tenaga kerja itu disediakan oleh perusahaan lain yang lebih besar, dan tidak seperti tenaga kerja tradisional, suplai tenaga kerja itu bisa diputus tanpa batas waktu
Kini tenaga kerja telah menjadi bentuk lain dari modal, dan modal tidak perlu makan
Perusahaan yang tidak memakai model sendiri tampaknya akan merasakan akibatnya secara langsung
Membangun jadi lebih cepat, jumlah kode yang ditulis langsung berkurang, dan pengelolaan state internal atau memori ditangani oleh library
Sebagian orang mungkin tidak nyaman bergantung pada pemanggilan library alih-alih memanipulasi pointer dan
malloc()secara langsung, tetapi bagi yang lain ini terasa membebaskan karena memungkinkan fokus pada arsitektur tingkat lebih tinggi tanpa tenggelam dalam perpindahan konteks level rendahSaya sering meminta dibuatkan CLI atau alat mandiri, bukan jawaban jadi terlebih dahulu
Saya juga menanyakan bagaimana model sampai pada kesimpulan itu agar sudut pandang saya meluas, dan memintanya menjelaskan cara klasifikasinya di level metadata internalnya sendiri
Terutama pada codebase besar yang kesulitannya bukan pada konsepnya melainkan pada ukuran graf referensi, saya mencoba memakainya ke arah yang benar-benar meningkatkan kemampuan saya memecahkan masalah
Sebab meski model hosted hilang atau jadi terlalu mahal, yang hilang hanya sedikit selisih performa itu
Tentu saja, kedua asumsi ini sama sekali tidak jelas akan terjadi, jadi ini lebih seperti harapan saja
Dan terus terang masih sulit mempercayai slogan produktivitas 10x yang terus diulang
GPT-5.5 dirilis hari ini, tetapi penerapannya di ChatGPT dan Codex dilakukan bertahap selama beberapa jam
Demi stabilitas layanan, seperti rilis sebelumnya, akses dibuka secara bertahap, biasanya dimulai dari Pro/Enterprise lalu turun ke Plus
Jadi kalau belum langsung terlihat, diminta untuk cek lagi nanti
Menunggu secara acak memang bisa menjengkelkan, tetapi katanya itu dilakukan demi stabilitas
Mengaku bekerja di OpenAI
Saya mencoba memakainya sebagai pengganti setelah OAuthgate Anthropic, tetapi bahkan sub-tugas yang cepat, aman, dan tidak berbahaya pun tidak bisa diselesaikan
Percakapannya hanya berakhir dengan permintaan maaf tanpa henti seperti “seharusnya saya melakukan X di sini” “benar, saya gagal” “kalau begitu lakukan sekarang” “harusnya begitu, tapi tidak saya lakukan”
Belakangan GLM, Kimi, Minimax bisa menyelesaikannya tanpa masalah, jadi rasanya makin absurd dan akhirnya OpenAI langsung saya tinggalkan
Lebih bagus lagi kalau UI menunjukkan bahwa modelnya memang ada, tetapi belum dibuka untuk akun saya
Kalau sampai ada ETA tentu ideal, walau saat rollout berjalan masalah bisa saja muncul sehingga sulit diprediksi
Saya penasaran apakah Images 2.0 juga dirilis bersama di dalam ChatGPT, atau untuk sementara masih tetap menjadi fitur khusus API/Playground
Memang belum ada akses API resmi, tetapi belakangan OpenAI tampak pada dasarnya membiarkan backdoor Codex API yang dipakai OpenClaw
https://twitter.com/steipete/status/2046775849769148838 dan https://twitter.com/romainhuet/status/2038699202834841962
Backdoor API itu juga sudah mencakup GPT-5.5
Jadi saya mencoba contoh pelikan, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
dengan plugin baru untuk LLM https://github.com/simonw/llm-openai-via-codex
Setelah reasoning effort dinaikkan ke xhigh, hasil pelikannya jauh lebih baik
https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...
Meski begitu, yang ini lucu juga karena posisinya menyilangkan kaki
Sudah sampai versi 5.5, masa masih tidak bisa menggambar satu rangka sepeda dasar dengan benar
Roda depannya tidak punya struktur yang memungkinkan berbelok ke samping, tetapi gambarnya gagal menangkap itu
Saya tidak tahu pasti apa itu reasoning token, tetapi jumlah tokennya tetap tampak sangat sedikit
Setahu saya Anthropic sangat tidak suka penggunaan model seperti ini
Bahkan model lokal open-weight seperti Qwen yang diunggah kemarin terlihat lebih baik
Semua orang membicarakan gating Mythos milik Anthropic dan marketing CyberGym 83%, sementara OpenAI begitu saja merilis GPT-5.5 dan skornya 82%
Fakta bahwa semua orang bisa langsung mencobanya jauh lebih penting
Kalau bekerja di bidang keamanan siber ofensif/defensif, menurut saya lebih tepat menyentuh langsung model yang benar-benar dirilis seperti ini daripada terpancing promosi berlebihan
Tidak pernah terpikir saya akan berkata begini, tetapi sekarang OpenAI justru terlihat seperti pilihan yang lebih terbuka lagi
Itu sebabnya industri keamanan ketakutan, karena mereka merasa hanya punya kira-kira dua minggu untuk menutup zero-day baru, lalu setelah itu bisa masuk open season di mana para black hat menemukannya massal dan mengeksploitasinya
Anthropic tidak pernah merilis model publik, tidak pernah secara sukarela membuka source Claude Code, dan bahkan tokenizer pun tidak dirilis
Di dokumentasinya juga tertulis bahwa pekerjaan terkait keamanan siber bisa fallback ke GPT-5.2 jika terkena deteksi otomatis
https://developers.openai.com/codex/concepts/cyber-safety
https://chatgpt.com/cyber
Bagi saya Anthropic hampir terasa seperti perwujudan bualan
Setelah dulu membaca Cialdini, pertunjukan gaya Anthropic jadi terasa membosankan
Sebaliknya OpenAI sangat cerdas. Setelah Claude naik daun, mereka sempat menghilang dari headline, tetapi sekarang berkat basis pengguna yang masif, cukup mengikuti siklus rilis Anthropic saja sudah cukup untuk membuat lawannya tampak konyol
Dari sudut pandang Anthropic, sepertinya setiap ada versi GPT baru, situasinya akan makin menyedihkan, dan ujungnya tampak seperti OpenAI akan menguasai semuanya
Saya ingin orang melihat bagian harga/batas penggunaan di halaman ini
https://developers.openai.com/codex/pricing?codex-usage-limi...
Lihat perbedaan Local Messages antara 5.3, 5.4, dan 5.5
Saya memang membaca klaim bahwa 5.5 lebih efisien sehingga titik impasnya mirip dengan 5.4, tetapi bagaimanapun terlihat seperti batas makin ketat dan harga makin naik
Pelajaran yang tampaknya dipetik dari kasus Anthropic adalah bahwa developer sangat cepat bergantung, bahkan kecanduan, pada coding agent, jadi untuk peningkatan kecil pun mereka akan mau membayar sebanyak itu
Prototipe arena dungeon 3D yang dibuat dengan Codex dan GPT terlihat cukup meyakinkan
Codex menangani arsitektur game, implementasi TypeScript/Three.js, sistem pertarungan, encounter musuh, dan feedback HUD, sementara tekstur lingkungan dibuat oleh GPT, dan model karakter serta animasinya dibuat dengan alat pembuat aset pihak ketiga
Kemungkinan besar alasan visualnya terlihat cukup baik juga karena mesh-nya bukan dibuat langsung oleh GPT-5.5, melainkan oleh alat terpisah
Melihat ini, rasanya kita sedang menuju masa seperti era Flash dulu, ketika gamer atau developer hobi bisa cepat membuat konsep game lalu langsung memublikasikannya di web
Khususnya Three.js bahkan bukan game engine, tetapi mulai terasa seperti alat inti de facto untuk merancang game dengan AI
Kalau khusus Three.js, itu adalah loncatan generasi tunggal terbesar, terutama pada shader GLSL, dan juga membaik dalam menyusun scene yang terpecah ke banyak halaman/komponen
Membuat shader utuh dari nol masih sulit, tetapi kemampuan memodifikasi shader yang sudah ada sekarang cukup berguna
Di 5.2 ke bawah, model benar-benar buruk dalam pola one canvas, multiple page untuk mempertahankan satu canvas latar di banyak route, tetapi 5.4, walau masih perlu sedikit dibimbing, jauh lebih responsif terhadap prompt refactor dan optimasi
Saya antusias untuk menguji seperti apa 5.5 dalam praktik
Visualisasi jam aneh yang saya buat juga sangat bergantung pada ini
Ini memang bukan game engine, tetapi untuk WebGL 3D di web, secara praktis sudah menjadi standar, dan karena sudah lama ada, data latihnya juga sangat besar
Sebelum era LLM, saya lebih bergantung pada Babylon.js yang punya fitur level lebih tinggi
Dulu namanya Spielwerk, dan ini aplikasi iOS untuk membuat dan membagikan game
Semuanya berbasis web, jadi mudah dibagikan
https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
Saya belum mencoba GPT, tetapi dengan Claude, sekeras apa pun prompt engineering, tetap tidak bisa menyelesaikan Rubik's Cube, dan bahkan Opus 4.6 hanya bisa benar sekitar 70% dari puzzle sebelum mentok
Satu percobaan bisa menelan biaya 20 dolar, jadi biayanya juga sulit ditanggung
Kalau penalaran tiga dimensi benar-benar bisa dibuat berjalan, pendekatan yang sama mungkin bisa diperluas ke soal-soal matematika yang sekarang belum bisa diselesaikan
Saya sedang mempertimbangkan untuk membuka server MCP Rubik's Cube saya agar orang bisa menantang diri, apakah ada yang bisa menyelesaikan kubus hanya dengan prompt
Dalam pengumuman kali ini, bagian yang lebih menarik daripada benchmark adalah bahwa Codex menganalisis pola trafik nyata selama beberapa minggu untuk meningkatkan utilisasi GPU, lalu menulis algoritma heuristik kustom untuk pembagian dan penyeimbangan pekerjaan sehingga kecepatan generasi token naik lebih dari 20%
Area di mana LLM agentik bisa melakukan optimasi efisiensi komputasi seperti ini tampaknya berdampak besar, tetapi diuji jauh lebih sedikit dibanding benchmark
Dari pengalaman saya, di bagian ini Opus masih lebih baik daripada GPT/Codex, tetapi karena OpenAI sedang mendapat manfaat nyata dari maksimalisasi performa seperti ini di bawah tekanan biaya dan kapasitas, mereka tampaknya akan terus mendorong ke arah ini
Saya teringat optimasi code golf FizzBuzz Intel yang dulu terkenal, lalu saya memberi gemini pro kode saya sambil meminta “tolong usulkan optimasi cerdas seperti itu”, dan sarannya benar-benar keren
LLM terus mengejutkan saya setiap hari
Dan karena tiap perusahaan juga tahu bahwa optimasi infrastruktur dan model mereka sendiri adalah jalur utama untuk menang dalam kompetisi, saya yakin bagian ini sedang mereka garap dengan sangat serius
Menyenangkan melihat hal-hal di luar benchmark tradisional seperti MMLU, tetapi tanpa eksperimen terkontrol yang layak, angka-angka seperti ini tidak terlalu membantu
Kalau melihat angkanya, Mythos vs GPT-5.5 masih terpaut jauh di SWE-bench Pro, tetapi selain itu tampak cukup mirip
SWE-bench Pro 77.8% vs 58.6%
Terminal-bench-2.0 82.0% vs 82.7%
GPQA Diamond 94.6% vs 93.6%
H. Last Exam 56.8% vs 41.4%
H. Last Exam (tools) 64.7% vs 52.2%
BrowseComp 86.9% vs 84.4%, Pro 90.1%
OSWorld-Verified 79.6% vs 78.7%
Sumber angka Mythos adalah https://www.anthropic.com/glasswing
Saat memakai Opus 4.7 sekarang, otonominya terasa sangat di-nerf, dan karena apa yang disebut keamanan, pembatasannya berat
Jadi saya tidak begitu yakin hasil nyatanya akan sehebat yang diiklankan Anthropic
Ada di sini
https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
Saya mengambil submission resmi di https://github.com/SWE-bench/experiments/tree/main/evaluatio..., menyaring model sejak Sonnet 4, lalu menjumlahkan seluruh 500 soal; tingkat penyelesaian gabungannya tepat 93%
Tetapi kalau Mythos mencetak 93.7%, itu berarti ia menyelesaikan soal-soal yang tidak bisa dipecahkan model lain mana pun, dan ketika saya melihat soal-soal itu langsung, rasanya makin mencurigakan
Sisa 7% soal tampak hampir mustahil diselesaikan tanpa lebih dulu melihat test patch, dan solusi nyatanya berjalan sangat berbeda dari deskripsi masalah hingga terasa seperti sedang menyelesaikan masalah lain sama sekali
Saya tidak ingin langsung menuduh Mythos curang, tetapi mungkin saja ia mengingat terlalu banyak status repository sehingga dari diff di memorinya ia bisa melakukan reverse inference atas pernyataan masalah yang sebenarnya
Kalau bukan begitu, sulit menjelaskan bagaimana ia bisa menafsirkan deskripsi masalah yang begitu ambigu dengan sangat tepat
Setiap benchmark memang selalu memunculkan hasil aneh
Tetap saja mengecewakan bahwa tingkat halusinasi 86% masih setinggi itu
Sebagai pembanding, Opus ada di sekitar 36%
Sumbernya https://artificialanalysis.ai/models?omniscience=omniscience...
Tergantung pertanyaannya, halusinasi justru terasa lebih dekat ke 100%, jadi benchmark ini secara intuitif sulit diterima
Orang yang bertanya kemungkinan besar tidak sepenuhnya memahami persoalannya, jadi apa pun hasilnya, mereka tampaknya tetap lebih menyukai jawaban yang terdengar penuh percaya diri
Tujuannya seolah menjual kesan terlihat kompeten alih-alih kemampuan teknologi yang sebenarnya
LLM bisa menghancurkan produk, jadi kalau ada yang percaya mesin pikiran miliarder bisa menggantikan karyawan dan menyuruhmu menghabiskan 75% anggaran tenaga kerja untuk itu, ya silakan saja tertipu dengan senang hati
Model ini sangat kuat untuk tugas jangka panjang, dan Codex sekarang juga punya heartbeats sehingga statusnya bisa terus dipantau
Katanya kalau diberi masalah sulit yang memakan waktu berjam-jam tetapi punya kendala yang bisa diverifikasi, baru akan terlihat seberapa bagus model ini
Mengaku bekerja di OpenAI
Belakangan saya lelah karena model lain, terutama Opus, sering berhenti sendiri di tengah pekerjaan
Selamat atas peluncurannya