- Menggabungkan performa coding GPT-5.2-Codex dan penalaran·pengetahuan ahli GPT-5.2 dalam satu model, memberikan kecepatan 25% lebih cepat
- Memperluas cakupan tugas agentic Codex hingga tugas yang berjalan lama, dan mengintegrasikan kolaborasi interaktif real-time ke aplikasi Codex agar arah kerja bisa diubah di tengah proses serta umpan balik dapat langsung diterapkan
- Model pertama yang ikut mengembangkan dirinya sendiri, dengan versi awal yang langsung digunakan untuk debugging proses training internal, manajemen deployment, dan diagnosis evaluasi
- Mencatat performa terbaik industri pada benchmark utama seperti SWE-Bench Pro, Terminal-Bench 2.0, dan OSWorld, sekaligus bekerja dengan token lebih sedikit dibanding model sebelumnya
- Melampaui penulisan kode untuk mendukung pekerjaan pengetahuan di seluruh siklus hidup software, termasuk presentasi, spreadsheet, dan analisis data
Ikhtisar
- GPT-5.3-Codex disebut sebagai “model coding agentic paling mumpuni”
- Menggabungkan performa coding frontier GPT-5.2-Codex dan kemampuan penalaran·pengetahuan ahli GPT-5.2 dalam satu model, dengan peningkatan kecepatan 25%
- Dirancang untuk menangani tugas jangka panjang yang mencakup riset, penggunaan alat, dan eksekusi kompleks, serta tetap dapat diarahkan tanpa kehilangan konteks saat pekerjaan berlangsung
- Menggunakan versi awalnya untuk terlibat dalam self-training, deployment, dan diagnosis evaluasi, menjadikannya model pertama yang “mempercepat pengembangannya sendiri”
- Memperluas peran Codex dari “menulis·mereview kode” menjadi “hampir semua pekerjaan yang dilakukan developer dan ahli di komputer”
Kemampuan agentic frontier
-
Performa coding
- Mencapai hasil terbaik di SWE-Bench Pro (evaluasi software engineering nyata). Berbeda dengan SWE-Bench Verified yang hanya menguji Python, benchmark ini mencakup 4 bahasa serta memiliki ketahanan kontaminasi yang lebih tinggi dan relevansi industri yang besar
- Di Terminal-Bench 2.0, hasilnya juga jauh melampaui performa terbaik sebelumnya, mengukur keterampilan terminal yang dibutuhkan agen coding
- Dapat menyelesaikan tugas yang sama dengan token lebih sedikit dibanding model sebelumnya
-
Pengembangan web
- Kombinasi kemampuan coding frontier, peningkatan sense estetika, dan teknik kompresi memungkinkan pembangunan game dan aplikasi kompleks dari nol selama beberapa hari
- Untuk menguji pengembangan web dan kemampuan agentic jangka panjang, dibuat dua contoh: game balap dan game menyelam
- Game balap: beragam pembalap, 8 map, dan item yang digunakan dengan tombol spasi
- Game menyelam: eksplorasi berbagai terumbu karang, koleksi ensiklopedia ikan, serta pengelolaan oksigen·tekanan air·faktor bahaya
- Menggunakan skill "develop web game" serta prompt lanjutan generik preset seperti "fix the bug" dan "improve the game" untuk melakukan iterasi perbaikan secara otonom sepanjang jutaan token
- Saat membuat website sehari-hari, lebih baik memahami maksud pengguna dibanding GPT-5.2-Codex, dan bahkan pada prompt yang sederhana atau kurang lengkap, otomatis menerapkan lebih banyak fitur dan default yang masuk akal
- Contoh perbandingan landing page: GPT-5.3-Codex otomatis menampilkan paket tahunan sebagai harga bulanan diskon, serta membuat carousel rekomendasi konversi otomatis berisi 3 kutipan pengguna, sehingga hasil akhir lebih matang
-
Kemampuan di luar coding
- Mendukung seluruh siklus hidup software, termasuk debugging, deployment, monitoring, penulisan PRD, editing copy, riset pengguna, testing, dan analisis metrik yang dilakukan software engineer, desainer, product manager, dan data scientist
- Meluas ke area di luar software, seperti pembuatan slide deck dan analisis data sheet
- Mencapai 70.9% pada GDPval (evaluasi tugas knowledge work yang terdefinisi jelas di 44 kategori pekerjaan), setara dengan GPT-5.2
- Termasuk output kerja nyata seperti presentasi dan spreadsheet
- Menampilkan beragam contoh output seperti slide advisori keuangan, dokumen pelatihan ritel, spreadsheet analisis NPV, dan PDF presentasi fashion
- Mencapai 64.7% pada OSWorld-Verified (benchmark penggunaan komputer agentic untuk menjalankan tugas produktivitas di lingkungan desktop visual), naik tajam dari model GPT sebelumnya (38.2%)
Kolaborator interaktif
- Seiring kemampuan model meningkat, tantangan utama bergeser dari apa yang bisa dilakukan agen menjadi seberapa mudah manusia dapat mengarahkan dan mengawasi banyak agen yang bekerja paralel
- Aplikasi Codex memudahkan pengelolaan dan pengarahan agen, dan pada GPT-5.3-Codex menawarkan interaktivitas yang lebih tinggi
- Model sering memperbarui keputusan penting dan progres selama pekerjaan berlangsung, sehingga pengguna tidak perlu menunggu hasil akhir untuk bertanya, mendiskusikan pendekatan, atau mengubah arah secara real-time
- Menjelaskan apa yang sedang dikerjakannya, merespons umpan balik, dan melibatkan pengguna dalam loop dari awal hingga akhir
- Jalur pengaturan: Settings > General > Follow-up behavior untuk mengaktifkan steering saat model sedang bekerja
Training dan deployment GPT-5.3-Codex dengan bantuan Codex
- Peningkatan cepat Codex belakangan ini dibangun di atas proyek riset selama berbulan-bulan hingga bertahun-tahun di seluruh OpenAI
- Banyak peneliti dan engineer OpenAI mengatakan bahwa cara mereka bekerja saat ini secara fundamental berbeda dibanding 2 bulan lalu
- Versi awal GPT-5.3-Codex juga menunjukkan kemampuan luar biasa, sehingga tim memanfaatkan versi awal tersebut untuk mendukung peningkatan training dan deployment versi berikutnya
-
Contoh penggunaan oleh tim riset
- Menggunakan Codex untuk monitoring dan debugging training run pada rilis ini
- Melampaui debugging masalah infrastruktur, mereka membangun aplikasi kaya fitur untuk melacak pola di seluruh proses training, menganalisis kualitas interaksi secara mendalam, mengusulkan perbaikan, dan mengidentifikasi secara presisi perbedaan perilaku dibanding model sebelumnya
-
Contoh penggunaan oleh tim engineering
- Menggunakan Codex untuk optimasi dan adaptasi harness bagi GPT-5.3-Codex
- Saat muncul edge case aneh yang berdampak ke pengguna, Codex dipakai untuk mengidentifikasi bug context rendering dan menganalisis akar penyebab rendahnya cache hit rate
- Selama masa peluncuran, terus digunakan untuk dynamic scaling klaster GPU dan menstabilkan latensi ketika terjadi lonjakan trafik
-
Contoh penggunaan dalam alpha test
- Seorang peneliti ingin memahami seberapa banyak pekerjaan tambahan yang dilakukan GPT-5.3-Codex per turn dan perbedaan produktivitasnya
- GPT-5.3-Codex merancang beberapa classifier regex sederhana untuk memperkirakan frekuensi pertanyaan klarifikasi, respons positif·negatif, dan progres pekerjaan per sesi, lalu menjalankannya secara massal pada seluruh log sesi dan membuat laporan kesimpulan
- Kepuasan orang yang membangun dengan Codex lebih tinggi; agen lebih memahami maksud dan menunjukkan progres lebih besar per turn serta lebih sedikit pertanyaan klarifikasi
-
Membangun pipeline data
- Data alpha test sangat berbeda dari model sebelumnya, sehingga muncul banyak hasil yang tidak normal dan kontraintuitif
- Data scientist membangun pipeline data baru bersama GPT-5.3-Codex dan menghasilkan visualisasi yang jauh lebih kaya daripada alat dashboard standar
- Dengan Codex, hasil dianalisis bersama dan insight utama dari ribuan data point dapat diringkas dalam waktu kurang dari 3 menit
Mengamankan frontier keamanan siber
- Dalam beberapa bulan terakhir, performa model pada tugas keamanan siber meningkat secara bermakna, memberi manfaat bagi developer maupun profesional keamanan
- Sejalan dengan itu, disiapkan pengaman keamanan siber yang diperkuat untuk mendukung penggunaan defensif dan ketahanan ekosistem yang lebih luas
- Di bawah Preparedness Framework, ini adalah model pertama yang diklasifikasikan pada level High untuk tugas terkait keamanan siber, sekaligus model pertama yang dilatih secara langsung untuk mengidentifikasi kerentanan software
- Belum ada bukti konklusif bahwa otomatisasi serangan siber end-to-end dimungkinkan, namun OpenAI mengambil pendekatan pencegahan dan menerapkan tumpukan keamanan siber paling komprehensif sejauh ini
- Termasuk safety training, monitoring otomatis, akses berbasis kepercayaan untuk fitur lanjutan, dan pipeline enforcement yang mencakup threat intelligence
- Dengan mempertimbangkan sifat dual-use yang inheren pada keamanan siber, OpenAI mengadopsi pendekatan iteratif berbasis bukti yang mempercepat kemampuan defender menemukan dan memperbaiki kerentanan sambil menunda penyalahgunaan
-
Program riset defensif dan perlindungan ekosistem
- Meluncurkan pilot program Trusted Access for Cyber untuk mempercepat riset pertahanan siber
- Memperluas private beta agen riset keamanan Aardvark, penawaran pertama dalam lini produk Codex Security
- Bekerja sama dengan maintainer open source untuk menyediakan pemindaian codebase gratis pada proyek yang banyak digunakan, misalnya Next.js
- Peneliti keamanan menggunakan Codex untuk menemukan kerentanan yang diungkap minggu lalu (CVE-2025-59471, CVE-2025-59472)
- Berdasarkan program hibah keamanan siber senilai 1 juta dolar yang diluncurkan pada 2023, OpenAI menambah investasi 10 juta dolar dalam kredit API untuk mempercepat pertahanan siber dengan model paling kuat
- Terutama untuk software open source dan sistem infrastruktur kritis
- Organisasi yang terlibat dalam riset keamanan dengan niat baik dapat mengajukan kredit API dan dukungan melalui Cybersecurity Grant Program
Ketersediaan dan detail
- GPT-5.3-Codex tersedia pada paket ChatGPT berbayar, dan dapat digunakan di semua tempat yang mendukung Codex (aplikasi, CLI, ekstensi IDE, web)
- Akses API sedang dipersiapkan agar dapat diaktifkan dengan aman
- Berkat peningkatan infrastruktur dan stack inferensi, layanan untuk pengguna Codex berjalan dengan kecepatan 25% lebih cepat, menghadirkan interaksi dan hasil yang lebih cepat
- Dirancang bersama, dilatih, dan dilayani pada NVIDIA GB200 NVL72 system
Arah ke depan
- Codex bergerak melampaui penulisan kode, menggunakan kode sebagai alat untuk mengoperasikan komputer dan menyelesaikan pekerjaan dari awal sampai akhir
- Dengan memperluas frontier agen coding, cakupannya terbuka bukan hanya untuk membangun dan mendeploy software, tetapi juga untuk knowledge work yang lebih luas seperti riset, analisis, dan eksekusi tugas kompleks
- Berawal dari agen coding terbaik, lalu berkembang menjadi kolaborator umum di atas komputer, memperluas apa yang bisa dibangun dan siapa yang bisa membangunnya
Appendix: angka benchmark
- Semua evaluasi dijalankan dengan xhigh reasoning effort
- SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
- Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
- OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
- GDPval(win atau seri): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
- Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
- SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%
2 komentar
Dulu saya lebih menyukai Claude, tetapi belakangan ini Codex terasa lebih cocok bagi saya. Saya berharap keduanya berkembang secara saling melengkapi seperti iOS dan AOS.
Komentar Hacker News
Menarik melihat GPT‑5.3 Codex dan Opus 4.6 berkembang ke arah yang secara filosofis berbeda
Codex dirancang sebagai kolaborator interaktif yang bekerja bersama manusia dengan campur tangan di tengah proses, sedangkan Opus adalah sistem yang lebih otonom dan terencana dengan intervensi manusia seminimal mungkin
Ini tampaknya mencerminkan dua sudut pandang nyata para developer terhadap coding berbasis LLM — kontrol berpusat pada manusia vs delegasi penuh
Menarik untuk melihat apakah model-model ke depan akan dioptimalkan mengikuti diferensiasi filosofis seperti ini, atau justru muncul pendekatan baru
Codex cenderung berpikir jauh lebih lama sebelum memberi jawaban
Jika manusia tetap berada di dalam loop, sebagian besar masalah LLM bisa dihindari, dan cara meninjau dalam unit kode kecil itu efisien
Jika Codex menangani pekerjaan repetitif, developer bisa fokus pada logika inti
Pendekatan yang sepenuhnya otonom tidak cocok untuk codebase besar karena kualitas kodenya menurun dalam jangka panjang
Kita mengirim permintaan, lalu ia berjalan otomatis di lingkungan container, dan tindak lanjut setelah itu hanya bisa dilakukan lewat chat
Codex tampak makin otonom, dan Opus tampak makin kolaboratif
Pada akhirnya besar kemungkinan kedua pendekatan sama-sama berguna tergantung situasinya
Karena itu versi 5.2 terasa lebih stabil daripada Opus 4.5
Anthropic tampaknya terburu-buru merilis Opus 4.6 agar tidak dibandingkan langsung dengan GPT‑5.3‑Codex
Skor Terminal‑Bench 2.0 adalah 65.4 untuk Opus 4.6 dan 77.3 untuk GPT‑5.3‑Codex
Meski begitu, Codex 5.2 adalah yang paling unggul untuk tugas kompleks, dan saya menantikan 5.3
GPT‑5.2 Codex sekitar $3244, Claude Opus 4.5 sekitar $1485
Jika melihat hasil ARC AGI 2, generalisasinya tampak kurang
Saya meragukan klaim bahwa Claude unggul dalam coding
Mengesankan bahwa GPT‑5.3‑Codex adalah model pertama yang digunakan untuk mengembangkan dirinya sendiri
Tim Codex disebut memakai versi awalnya untuk men-debug pipeline pelatihan internal mereka
Saya rasa alasan Claude Code berkembang juga karena budaya dogfooding seperti ini
Ini membuat saya kembali berpikir apakah ‘soft take‑off’ kini benar-benar memungkinkan
GPT‑5.3‑Codex diklasifikasikan sebagai model berkapabilitas tinggi (high capability) untuk tugas terkait keamanan siber
Model ini memang dilatih langsung untuk mendeteksi kerentanan, tetapi belum ada bukti otomatisasi serangan secara penuh
Namun menurut saya kerangka keamanan yang dipakai sudah usang
Ke depan, kode yang ditulis Codex sendiri kemungkinan besar akan menjadi permukaan serangan baru sebagai ancaman keamanan
Codex pada dasarnya harus dirancang untuk menghasilkan kode yang aman
Artikel terkait: liputan NBC News
Sama seperti Anthropic, terkesan memamerkan kemampuan teknis di bawah bungkus ‘riset keamanan’
Saya penasaran apakah kesalahan seperti ini akan terus berlanjut
Dulu lab AI mengatur jadwal agar tidak mengumumkan secara bersamaan,
sekarang mereka justru berlomba mengumumkan dengan selisih 30 menit
Demis mungkin lemah dalam pertarungan politik, tapi tampaknya akan bertarung lewat performa
Elon, Sam, dan Dario sudah piawai dalam manuver politik
Tahun 2026 sepertinya akan jadi tahun yang dramatis bagi industri AI
Menyesuaikan pengumuman OpenAI pukul 10, Anthropic dan Google juga melakukan peluncuran tandingan
Saya tertarik melihat pengumuman bahwa GPT‑5.3‑Codex secara otonom meningkatkan web game
Tetapi saya kecewa karena jumlah prompt maupun token dalam eksperimen pembanding tidak dipublikasikan
Saya ingin membandingkannya dengan klon web Factorio yang pernah saya buat
Saya tidak tahu model bisa dimanfaatkan dengan cara seperti ini
Sudah bertahun-tahun saya mendengar klaim “AI membuat produktivitas naik 100x”
Tapi saya penasaran apakah benar sudah ada program baru dan bisa dipercaya yang dibuat terutama oleh LLM
LLM juga hanya membuat penyelesaian masalah yang sudah ada menjadi lebih cepat, bukan memecahkan masalah yang benar-benar baru
Misalnya, untuk masalah penyusunan kartu UI, Gemini membantu besar dengan menyarankan pendekatan berbasis koordinat polar
Memang bukan 100x, tetapi saya tetap merasakan peningkatan produktivitas 2x
Thread terkait: contoh vibe coding
Karena itu kritik soal “masalah yang sudah terpecahkan” tidak terlalu berarti
tetapi tiga kali ia berhalusinasi tentang flag yang tidak ada
ChatGPT 5.2 juga perlu beberapa kali revisi saat membuat script ffmpeg
Mungkin hari ketika ia bisa menangani line ending di Windows dengan benar itulah AGI
Alasan bahwa codebase terlalu besar hanyalah keterbatasan sementara
Ini terdengar seperti keluhan dari orang-orang yang tidak menyukai kemajuan
Hasil Terminal Bench 2.0
Dibanding skor, ‘rasa’ dari pengalaman coding nyata jauh lebih penting
Saya penasaran apakah para developer merasa terancam oleh perubahan ini
Sejujurnya saya merasa begitu
Bagi competitive programmer mungkin ini ancaman, tetapi bagi developer biasa tidak terlalu
Saya rasa otomatisasi penuh mustahil sebelum AGI hadir
Di sekitar saya, pengguna Claude jauh lebih banyak daripada Codex
Tetapi Codex jauh lebih longgar dari sisi batas penggunaan dan paket harga
Bahkan dipakai berbulan-bulan dengan paket $20 pun hampir tidak pernah menyentuh limit
Rasanya perbedaan praktis seperti ini lebih penting daripada kualitas coding itu sendiri
Dulu Claude terasa lebih bagus di GH Copilot,
tetapi Codex punya otonomi lebih tinggi sehingga lebih cocok untuk vibe‑coding,
dan basis penggunanya tampaknya membesar berkat efek promosi di Twitter, LinkedIn, dan lain-lain
Jika tidak tahu perbedaan kualitasnya, tentu saya memilih yang lebih murah
Pergantian paket juga fleksibel, jadi pengalaman penggunaan sangat memuaskan