- Model agen yang dapat merencanakan tugas kompleks sendiri, menggabungkan berbagai alat, dan menuntaskannya hingga selesai, dengan cakupan luas mulai dari penulisan kode dan debugging hingga riset web, analisis data, pembuatan dokumen·spreadsheet, serta pengoperasian software
- Sambil mempertahankan per-token latency setara GPT-5.4, performanya meningkat dalam coding, computer use, pekerjaan berbasis pengetahuan, dan riset ilmiah tahap awal, serta efisiensinya juga naik karena dapat menyelesaikan tugas Codex yang sama dengan token lebih sedikit
- Dalam software engineering, model ini mencatat Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, dan SWE-Bench Pro 58.6%, dengan kekuatan yang terlihat pada implementasi, refactoring, debugging, testing, verifikasi, serta mempertahankan konteks codebase besar
- Dalam alur kerja umum dan riset, peningkatan juga terlihat pada rangkaian proses dari pembuatan dokumen·spreadsheet·slide, computer use berbasis manipulasi layar, analisis data multilangkah, verifikasi hipotesis, hingga interpretasi hasil, sementara GPT-5.5 Pro ditujukan untuk akurasi dan cakupan yang lebih tinggi
- Sebelum dirilis, model ini melewati pengamanan yang diperkuat serta pengujian internal dan eksternal, dan kini sedang diluncurkan bertahap di ChatGPT dan Codex terutama untuk pengguna Plus, Pro, Business, dan Enterprise, sehingga tampak sebagai langkah yang memperluas cakupan pemanfaatan AI untuk pekerjaan praktis
Gambaran model dan cakupan peluncuran
- GPT-5.5 diperkenalkan sebagai model yang lebih cepat memahami maksud, dapat merencanakan sendiri pekerjaan yang terjalin dalam banyak tahap, lalu menggunakan alat untuk mendorongnya sampai tuntas
- Model ini dapat menangani penulisan kode dan debugging, riset web, analisis data, pembuatan dokumen dan spreadsheet, pengoperasian software, serta pekerjaan yang berpindah-pindah antaralat
- Alih-alih mengelola setiap tahap secara rinci, model ini dirancang untuk menerima tugas kompleks dan tidak terstruktur sekaligus, lalu melanjutkan hingga perencanaan, penggunaan alat, verifikasi, dan penanganan ambiguitas
- Peningkatan pada pekerjaan agentic sangat ditekankan, dengan performa kuat pada coding, computer use, knowledge work, dan riset ilmiah tahap awal
- Meski model yang lebih besar sering kali menjadi lebih lambat, per-token latency pada layanan nyata tetap dipertahankan sama seperti GPT-5.4
- Efisiensi juga meningkat karena tugas Codex yang sama dapat diselesaikan dengan token lebih sedikit
- Sebelum peluncuran, pengamanannya diperkuat, disertai pengujian red team internal dan eksternal, uji tambahan atas kemampuan cybersecurity dan biology tingkat lanjut, serta masukan penggunaan awal dari sekitar 200 mitra tepercaya
- Saat ini model tersebut diluncurkan bertahap di ChatGPT dan Codex untuk pengguna Plus, Pro, Business, Enterprise, sementara GPT-5.5 Pro tersedia untuk pengguna Pro, Business, dan Enterprise di ChatGPT
- API sedang menyesuaikan persyaratan keamanan terpisah dan akan segera menyediakan GPT-5.5 serta GPT-5.5 Pro
Software engineering dan coding agentic
- OpenAI sedang membangun infrastruktur agentic AI, dan selama setahun terakhir AI telah sangat mempercepat software engineering
- Dengan GPT-5.5 masuk ke Codex dan ChatGPT, perubahan ini mulai meluas ke riset ilmiah dan pekerjaan komputer yang lebih umum
- Berdasarkan Artificial Analysis Coding Index, model ini menawarkan kecerdasan tingkat teratas dengan biaya setengah dari model coding frontier pesaing
- GPT-5.5 diperkenalkan sebagai model agentic coding terkuat menurut standar OpenAI
- Di Terminal-Bench 2.0, model ini mencatat 82.7%, dengan evaluasi yang berfokus pada workflow command line kompleks yang membutuhkan perencanaan, iterasi, dan kombinasi alat
- Di SWE-Bench Pro, model ini mencatat 58.6%, dan mampu menyelesaikan lebih banyak tugas end-to-end dalam satu lintasan dibanding model sebelumnya pada penyelesaian isu GitHub nyata
- Dalam evaluasi internal Expert-SWE pun, GPT-5.5 melampaui GPT-5.4
- Di seluruh tiga evaluasi coding tersebut, model ini meraih skor lebih tinggi sambil menggunakan token lebih sedikit daripada GPT-5.4
- Kekuatan di Codex terlihat pada implementasi, refactoring, debugging, testing, dan verifikasi secara menyeluruh
- Model ini menjadi lebih kuat dalam perilaku engineering nyata seperti menjaga konteks sistem besar, melacak penyebab kegagalan yang ambigu, memeriksa asumsi melalui alat, dan menerapkan perubahan di seluruh codebase
Contoh penggunaan coding dan pengujian awal
- Contoh prompt yang disertakan mencakup implementasi aplikasi WebGL + Vite menggunakan data nyata Artemis II
- Aplikasi tersebut merender lintasan Orion, Moon, dan Sun menggunakan data vektor NASA/JPL Horizons
- Skala tampilan diterapkan demi keterbacaan
- Para penguji awal menilai GPT-5.5 lebih baik dalam memahami struktur sistem
- Model ini lebih akurat menunjukkan apa yang gagal dan mengapa, di mana perbaikannya harus dilakukan, serta dampaknya pada bagian lain dari codebase
- Dan Shipper menguji apakah model bisa membangun ulang redesign pada tingkat yang sama setelah gangguan pascapeluncuran diputar balik, dan hasilnya GPT-5.4 gagal sedangkan GPT-5.5 berhasil
- Pietro Schirano menggabungkan branch yang berisi ratusan perubahan frontend dan refactor ke main branch yang sudah banyak berubah dalam sekali jalan hanya sekitar 20 menit
- Dalam pengujian oleh engineer senior, reasoning dan autonomy model ini lebih menonjol dibanding GPT-5.4 dan Claude Opus 4.7
- Bahkan tanpa prompt eksplisit, model ini lebih dulu menangkap masalah dan memperkirakan perlunya testing serta review
- Saat diminta mendesain ulang comment system pada collaborative markdown editor, model ini menghasilkan 12-diff stack yang hampir selesai
- Perbaikan implementasi yang dibutuhkan lebih sedikit dari perkiraan, dan tingkat kepercayaan pada rencananya juga lebih tinggi daripada GPT-5.4
- Dalam kutipan Michael Truell dari Cursor, terlihat karakteristik bahwa model ini dapat bekerja lebih lama secara berkelanjutan, dan lebih cocok untuk tugas kompleks yang berjalan lama tanpa berhenti terlalu cepat
Pekerjaan pengetahuan umum dan penggunaan komputer
- Kekuatan yang terlihat di coding juga berlanjut langsung ke pekerjaan komputer sehari-hari
- Karena lebih memahami maksud, model ini lebih alami dalam menjalankan seluruh proses mulai dari menelusuri informasi, memilih informasi penting, menggunakan alat, memverifikasi hasil, hingga mengubah bahan mentah menjadi output yang berguna
- Di Codex, GPT-5.5 lebih kuat daripada GPT-5.4 dalam pembuatan dokumen, spreadsheet, dan slide
- Para alpha tester menyatakan model ini lebih baik daripada model sebelumnya untuk riset operasional, pemodelan spreadsheet, dan mengubah input bisnis yang tidak terstruktur menjadi rencana
- Jika digabungkan dengan kemampuan computer use di Codex, model ini dapat melihat layar, mengklik, mengetik, menavigasi antarmuka, dan berpindah dengan presisi antarberbagai alat
- Di internal OpenAI sendiri, model ini sudah digunakan dalam workflow nyata, dan saat ini lebih dari 85% karyawan menggunakan Codex setiap minggu
- Pemanfaatannya mencakup software engineering, keuangan, komunikasi, pemasaran, data science, dan product management
- Tim komunikasi menganalisis data speaking request selama 6 bulan untuk membangun framework penilaian·risiko, lalu memvalidasi Slack agent yang memproses otomatis permintaan berisiko rendah dan menyerahkan permintaan berisiko tinggi untuk ditinjau manusia
- Tim Finance meninjau 24,771 formulir pajak K-1, total 71,637 halaman, dan melalui workflow yang mengecualikan informasi pribadi, pekerjaan itu selesai 2 minggu lebih cepat dibanding tahun sebelumnya
- Di tim Go-to-Market, otomatisasi pembuatan laporan bisnis mingguan menghemat 5~10 jam per minggu
GPT-5.5 Thinking dan GPT-5.5 Pro di ChatGPT
- GPT-5.5 Thinking di ChatGPT dirancang untuk menjawab masalah yang lebih sulit dengan lebih cepat, serta membuat pekerjaan kompleks berjalan lebih efisien dengan jawaban yang lebih cerdas dan ringkas
- unggul dalam coding, research, sintesis dan analisis informasi, serta pekerjaan yang berpusat pada dokumen, dan особенно menguntungkan saat menggunakan plugin
- GPT-5.5 Pro menargetkan tugas yang lebih sulit dan kualitas yang lebih tinggi, dengan latensi yang berkurang sehingga lebih layak diterapkan di pekerjaan nyata
- dibandingkan GPT-5.4 Pro, responsnya menjadi lebih komprehensif, lebih terstruktur, lebih akurat, lebih relevan, dan lebih berguna
- sangat kuat terutama di business, legal, education, dan data science
- Model ini juga menunjukkan angka tinggi pada benchmark yang mendekati pekerjaan profesional
- mencatat GDPval 84.9%, OSWorld-Verified 78.7%, dan Tau2-bench Telecom 98.0%
- Tau2-bench Telecom dijalankan tanpa prompt tuning
- FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, dan OfficeQA Pro 54.1% juga turut disajikan
- Dalam kutipan Justin Boitano dari NVIDIA, dijelaskan alur di mana model ini disediakan di atas sistem NVIDIA GB200 NVL72, menghadirkan kemampuan end-to-end melalui prompt bahasa alami, mengurangi waktu debugging dari hitungan hari menjadi beberapa jam, dan mengubah eksperimen yang biasanya memakan waktu berminggu-minggu menjadi pekerjaan semalam
Riset sains dan alur kerja riset teknologi
- GPT-5.5 juga menunjukkan peningkatan performa dalam alur kerja riset sains dan teknologi
- melampaui sekadar menjawab pertanyaan sulit, model ini lebih mampu mempertahankan loop yang berlanjut dari eksplorasi ide, pengumpulan bukti, verifikasi hipotesis, interpretasi hasil, hingga penentuan eksperimen berikutnya
- Di GeneBench, model ini menunjukkan peningkatan yang jelas dibanding GPT-5.4
- ini adalah evaluasi baru yang ditujukan pada analisis data multilangkah di genetics dan quantitative biology
- mencakup data yang ambigu atau mengandung kesalahan, confounder tersembunyi, kegagalan QC, serta implementasi dan interpretasi teknik statistik modern
- tugas-tugas di sini setara dengan proyek beberapa hari bahkan bagi pakar sains
- Di BixBench, model ini juga mencatat performa terdepan di antara model-model dengan skor publik
- benchmark ini diperkenalkan sebagai tolok ukur yang mencerminkan bioinformatics dan analisis data dunia nyata
- menunjukkan potensi percepatan setingkat co-scientist di garis depan biomedical research
- Versi internal GPT-5.5 dan custom harness juga digunakan untuk menemukan bukti baru terkait Ramsey numbers
- tautan bukti baru
- model ini menemukan bukti atas fakta asimtotik pada off-diagonal Ramsey numbers yang telah lama ada di combinatorics, lalu memverifikasinya dengan Lean
- kontribusinya melampaui kode atau penjelasan, hingga ke argumen matematis yang berguna di bidang riset inti
- Para penguji awal memanfaatkan GPT-5.5 Pro lebih sebagai mitra riset daripada mesin jawaban sekali pakai
- model ini meninjau draf secara kritis beberapa kali, melakukan stress test pada argumen teknis, mengusulkan analisis, dan bekerja bersama konteks kode, catatan, serta PDF
- model ini lebih baik dalam membantu alur dari pertanyaan ke eksperimen hingga hasil akhir
Studi kasus riset
- Derya Unutmaz dari Jackson Laboratory for Genomic Medicine menganalisis dataset gene-expression dengan 62 sampel dan sekitar 28.000 gen menggunakan GPT-5.5 Pro
- model ini menghasilkan laporan riset yang terperinci, mengungkap bukan hanya ringkasan hasil tetapi juga pertanyaan dan insight utama
- pekerjaan tersebut berskala yang akan memakan waktu berbulan-bulan jika dikerjakan timnya
- Bartosz Naskręcki dari Adam Mickiewicz University membuat aplikasi algebraic-geometry dengan Codex dalam 11 menit dari satu prompt
- aplikasi itu memvisualisasikan perpotongan dua quadratic surface dan mengubah kurva hasilnya ke model Weierstrass
- setelah itu ia membuat visualisasi singularity lebih stabil dan bahkan menambahkan exact coefficients yang bisa dipakai ulang untuk pekerjaan lanjutan
- Codex juga membantu mewujudkan visualisasi matematika kustom dan alur kerja computer-algebra yang sebelumnya memerlukan alat khusus
- Credit: Bartosz Naskręcki
- Dalam kutipan Brandon White dari Axiom Bio, dijelaskan bahwa model ini menalar biochemical dataset yang sangat besar untuk memprediksi human drug outcomes, dan menunjukkan peningkatan akurasi yang bermakna pada evaluasi drug discovery yang paling sulit
Infrastruktur inferensi dan optimasi performa
- Untuk menyajikan GPT-5.5 dengan latensi setara GPT-5.4, inferensi harus didesain ulang sebagai sistem terintegrasi, bukan sekadar kumpulan optimasi terpisah
- GPT-5.5 dirancang bersama, dilatih, dan disajikan dengan asumsi sistem NVIDIA GB200 dan GB300 NVL72
- Codex dan GPT-5.5 sendiri berkontribusi langsung dalam mencapai target performa
- Codex digunakan untuk dengan cepat mengubah ide menjadi implementasi yang bisa dibenchmark, membuat sketsa pendekatan, menghubungkan eksperimen, dan menemukan optimasi yang membutuhkan investasi lebih dalam
- GPT-5.5 membantu menemukan lalu mengimplementasikan perbaikan inti di dalam stack
- pada akhirnya, model ini juga berkontribusi pada peningkatan infrastruktur yang digunakan untuk melayani dirinya sendiri
- Sebagai contoh perbaikan representatif, diperkenalkan load balancing dan partitioning heuristics
- sebelumnya, request di atas accelerator dibagi menjadi jumlah chunk tetap sehingga request besar dan kecil berjalan pada GPU yang sama
- namun jumlah chunk yang statis tidak optimal untuk semua bentuk traffic
- Codex menganalisis pola production traffic selama beberapa minggu dan menulis algoritme heuristic kustom untuk membagi serta menyeimbangkan pekerjaan secara optimal
- pekerjaan ini meningkatkan token generation speed sebesar lebih dari 20%
Keamanan siber dan perlindungan
- Menyiapkan model yang andal dalam mendeteksi kerentanan dan melakukan patching ke dunia nyata lebih mirip olahraga tim, dan membutuhkan ketahanan seluruh ekosistem untuk era pertahanan siber berikutnya
- Kapabilitas cybersecurity model frontier terus menguat, dan karena kemampuan ini akan tersebar luas, jalur untuk memanfaatkannya guna mempercepat pertahanan siber dan memperkuat ekosistem menjadi semakin penting
- GPT-5.5 diposisikan sebagai langkah bertahap tetapi penting menuju AI yang dapat menyelesaikan masalah sulit seperti cybersecurity
- Pada GPT-5.2, cyber safeguards sudah diterapkan lebih dulu untuk membatasi potensi penyalahgunaan cyber
- Di GPT-5.5, classifier yang lebih ketat untuk potensi cyber risk telah diterapkan, dan pada awalnya hal ini bisa terasa mengganggu bagi sebagian pengguna
- Selama bertahun-tahun, OpenAI telah menangani cybersecurity sebagai kategori terpisah dalam Preparedness Framework, sambil berulang kali menyesuaikan mitigasi seiring peningkatan kapabilitas
- Safeguards tingkat terdepan di industri diterapkan sesuai dengan tingkat cyber capability ini
- Safeguard khusus cyber pertama kali diperkenalkan di GPT-5.2, lalu diuji, disempurnakan, dan diperluas pada setiap peluncuran berikutnya
- Di GPT-5.5, perlindungan terhadap aktivitas berisiko tinggi, permintaan cyber sensitif, dan penyalahgunaan berulang semakin diperkuat
- Pendekatan akses yang luas dimungkinkan berkat investasi pada keamanan model, penggunaan terverifikasi, dan pemantauan penggunaan yang tidak diizinkan
- Selama berbulan-bulan, robustness dikembangkan, diuji, dan ditingkatkan bersama para ahli eksternal
- Sambil memudahkan developer melindungi kode mereka, kontrol yang lebih kuat diterapkan pada workflow cyber yang dapat memudahkan pelaku jahat menimbulkan kerugian
- Perluasan akses untuk tujuan defensif juga berjalan bersamaan
- Melalui Trusted Access for Cyber, akses ke model yang cyber-permissive disediakan, dengan titik awalnya Codex
- Bagi pengguna terverifikasi yang memenuhi trust signals tertentu, fitur cybersecurity lanjutan GPT-5.5 disediakan dengan lebih sedikit pembatasan
- Organisasi yang bertanggung jawab atas pertahanan critical infrastructure dapat mengajukan akses ke model cyber-permissive seperti GPT-5.4-Cyber
- Tujuannya adalah memberikan alat untuk pekerjaan keamanan yang sah kepada pihak pertahanan terverifikasi dengan hambatan yang lebih rendah
- Tautan pendaftaran: chatgpt.com/cyber
- Termasuk juga kolaborasi dengan mitra pemerintah
- Mereka sedang bersama-sama mengeksplorasi bagaimana AI canggih dapat mendukung pejabat publik yang melindungi infrastruktur penting seperti sistem digital untuk perlindungan data pajak, jaringan listrik, dan pasokan air bersih masyarakat setempat
- Kapabilitas biological/chemical dan cybersecurity GPT-5.5 diklasifikasikan sebagai High dalam Preparedness Framework
- Meskipun belum mencapai tingkat cybersecurity capability Critical, evaluasi dan pengujian menunjukkan kapabilitas cyber GPT-5.5 satu tingkat lebih tinggi daripada GPT-5.4
- Sebelum peluncuran, model ini menjalani seluruh safety and governance process
- Ini mencakup evaluasi preparedness, pengujian per bidang, evaluasi target baru untuk biology dan cybersecurity tingkat lanjut, serta pengujian ketahanan yang ketat bersama para ahli eksternal
- Rincian lebih lanjut tersedia di GPT-5.5 system card
- Pendekatan ini adalah bagian dari strategi AI resilience yang dibutuhkan di era model yang lebih kuat
- AI yang kuat juga harus tersedia bagi orang-orang yang melindungi sistem, institusi, dan publik, dengan akses berbasis kepercayaan, safeguards yang diperkuat sebanding dengan kapabilitas, serta kemampuan operasional untuk mendeteksi dan merespons penyalahgunaan serius sebagai jalur utama yang diajukan
Paket yang tersedia dan harga
- Saat ini di ChatGPT dan Codex, GPT-5.5 sedang diluncurkan untuk pengguna Plus, Pro, Business, dan Enterprise, sementara GPT-5.5 Pro tersedia di ChatGPT untuk Pro, Business, dan Enterprise
- Di ChatGPT, GPT-5.5 Thinking tersedia untuk Plus, Pro, Business, dan Enterprise
- GPT-5.5 Pro ditujukan untuk pertanyaan yang lebih sulit dan akurasi yang lebih tinggi, dan tersedia di Pro, Business, dan Enterprise
- Di Codex, GPT-5.5 tersedia untuk paket Plus, Pro, Business, Enterprise, Edu, Go, dan memiliki 400K context window
- Fast mode juga tersedia, dengan kecepatan pembuatan token 1,5 kali lebih cepat dan biaya 2,5 kali lipat
- gpt-5.5 untuk developer API akan segera tersedia di Responses API dan Chat Completions API
- Harganya tercantum sebagai 5 dolar per 1M token input, 30 dolar per 1M token output, dengan 1M context window
- Harga Batch dan Flex adalah setengah dari tarif API standar, sedangkan Priority processing tersedia dengan tarif 2,5 kali lipat
- gpt-5.5-pro juga akan dirilis di API, dengan target akurasi yang lebih tinggi
- Harganya tercantum sebagai 30 dolar per 1M token input dan 180 dolar per 1M token output
- Informasi harga lengkap ditautkan ke pricing page
- GPT-5.5 lebih mahal daripada GPT-5.4, tetapi juga memiliki kecerdasan dan efisiensi token yang lebih tinggi
- Di Codex, pengalaman disesuaikan agar bagi sebagian besar pengguna dapat memberikan hasil yang lebih baik dengan token lebih sedikit dibanding GPT-5.4
- Penggunaan yang longgar tetap disediakan di seluruh tingkatan langganan
Benchmark detail
-
Coding
- Pada SWE-Bench Pro (Public), GPT-5.5 mencatat 58.6%, GPT-5.4 57.7%, Claude Opus 4.7 64.3%, dan Gemini 3.1 Pro 54.2%
- Terminal-Bench 2.0 mencatat GPT-5.5 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, dan Gemini 3.1 Pro 68.5%
- Expert-SWE (Internal) menunjukkan GPT-5.5 73.1% dan GPT-5.4 68.5%
-
Tugas profesional
- GDPval (wins or ties) mencatat GPT-5.5 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, dan Gemini 3.1 Pro 67.3%
- FinanceAgent v1.1 mencatat GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, dan Gemini 3.1 Pro 59.7%
- Investment Banking Modeling Tasks (Internal) mencatat GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, dan GPT-5.4 Pro 83.6%
- OfficeQA Pro mencatat GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, dan Gemini 3.1 Pro 18.1%
-
Penggunaan komputer dan vision
- OSWorld-Verified mencatat GPT-5.5 78.7%, GPT-5.4 75.0%, dan Claude Opus 4.7 78.0%
- MMMU Pro (no tools) menunjukkan GPT-5.5 dan GPT-5.4 sama-sama 81.2%, sementara Gemini 3.1 Pro 80.5%
- MMMU Pro (with tools) mencatat GPT-5.5 83.2% dan GPT-5.4 82.1%
-
Penggunaan alat
- BrowseComp mencatat GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, dan Gemini 3.1 Pro 85.9%
- MCP Atlas mencatat GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, dan Gemini 3.1 Pro 78.2%
- Toolathlon mencatat GPT-5.5 55.6%, GPT-5.4 54.6%, dan Gemini 3.1 Pro 48.8%
- Tau2-bench Telecom berdasarkan prompt asli mencatat GPT-5.5 98.0% dan GPT-5.4 92.8%
- Catatan untuk MCP Atlas menyebutkan bahwa ini adalah hasil setelah pembaruan terbaru Scale AI pada April 2026
- Catatan untuk Tau2-bench Telecom menegaskan bahwa hasil ini dievaluasi tanpa prompt adjustment, dan hasil prompt adjustment dari lab lain tidak disertakan
-
Akademik
- GeneBench mencatat GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, dan GPT-5.4 Pro 25.6%
- FrontierMath Tier 1–3 mencatat GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, dan Gemini 3.1 Pro 36.9%
- FrontierMath Tier 4 mencatat GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, dan Gemini 3.1 Pro 16.7%
- BixBench mencatat GPT-5.5 80.5% dan GPT-5.4 74.0%
- GPQA Diamond mencatat GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, dan Gemini 3.1 Pro 94.3%
- Humanity's Last Exam (no tools) mencatat GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, dan Gemini 3.1 Pro 44.4%
- Humanity's Last Exam (with tools) mencatat GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, dan Gemini 3.1 Pro 51.4%
-
Keamanan siber
- Capture-the-Flags challenge tasks (Internal) mencatat GPT-5.5 88.1% dan GPT-5.4 83.7%
- CyberGym mencatat GPT-5.5 81.8%, GPT-5.4 79.0%, dan Claude Opus 4.7 73.1%
- Catatan menyebutkan bahwa hasil ini berasal dari perluasan CTF tersulit yang tertulis di system card serta penambahan challenge berkesulitan tinggi lainnya
-
Konteks panjang
- Graphwalks BFS 256k f1 mencatat GPT-5.5 73.7%, GPT-5.4 62.5%, dan Claude Opus 4.7 76.9%
- Graphwalks BFS 1mil f1 mencatat GPT-5.5 45.4%, GPT-5.4 9.4%, dan Claude Opus 4.6 41.2%
- Graphwalks parents 256k f1 mencatat GPT-5.5 90.1%, GPT-5.4 82.8%, dan Claude Opus 4.7 93.6%
- Graphwalks parents 1mil f1 mencatat GPT-5.5 58.5%, GPT-5.4 44.4%, dan Claude Opus 4.6 72.0%
- OpenAI MRCR v2 8-needle disajikan menurut panjang konteks: 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, dan 512K-1M 74.0%
- Pada item yang sama, GPT-5.4 masing-masing mencatat 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, dan 36.6%
- Pada rentang 128K-256K tercantum Claude Opus 4.7 59.2%, dan pada rentang 512K-1M tercantum Claude Opus 4.7 32.2%
-
Penalaran abstrak
- ARC-AGI-1 (Verified) mencatat GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, dan Gemini 3.1 Pro 98.0%
- ARC-AGI-2 (Verified) mencatat GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, dan Gemini 3.1 Pro 77.1%
- Disebutkan bahwa evaluasi seri GPT dilakukan dalam lingkungan riset dengan reasoning effort disetel ke xhigh, dan dalam beberapa kasus output-nya mungkin sedikit berbeda dari ChatGPT produksi
Belum ada komentar.