GPT-5.2-Codex Dirilis
(openai.com)- Model coding berbasis agen yang ditujukan untuk tugas pengembangan dunia nyata yang kompleks dan dioptimalkan untuk lingkungan Codex
- Dalam pekerjaan berdurasi panjang, kompresi konteks menjaga kesinambungan konteks dan membuatnya lebih kuat untuk perubahan besar seperti refactoring dan migration
- Di lingkungan Windows native, peningkatan performa secara menyeluruh disertai penguatan kemampuan vision untuk membantu interpretasi screenshot, gambar teknik, chart, dan UI
- Mencapai performa tingkat tertinggi di SWE-Bench Pro dan Terminal-Bench 2.0
- Sambil secara signifikan meningkatkan kapabilitas keamanan siber untuk tujuan defensif, OpenAI juga memperkenalkan pendekatan distribusi yang memprioritaskan pengguna berbayar dan akses berbasis kepercayaan dengan mempertimbangkan potensi penyalahgunaan
Ikhtisar
- GPT-5.2-Codex baru saja dirilis. Model ini dirancang untuk pekerjaan software engineering dunia nyata yang kompleks
- Berbasis GPT-5.2 dan dioptimalkan untuk pekerjaan coding berbasis agen di lingkungan Codex
- Melalui kompresi konteks, model ini memberikan performa stabil pada pekerjaan jangka panjang dan memperkuat kemampuan untuk perubahan kode berskala besar
- Peningkatan performa menyeluruh juga dilakukan di lingkungan Windows dan kapabilitas keamanan siber turut diperkuat
Memperluas batas software engineering
- Model ini dikembangkan berdasarkan kekuatan GPT-5 dalam pekerjaan berbasis pengetahuan profesional serta performa coding berbasis agen dan pemanfaatan terminal dari GPT-5.1-Codex-Max
- Dengan pemahaman konteks jangka panjang, stabilitas pemanggilan tool, peningkatan akurasi, dan native compaction, tujuannya adalah menjadi partner yang dapat diandalkan untuk pekerjaan coding berdurasi panjang
- Arah pengembangannya juga mencakup efisiensi token selama proses penalaran
- Penguatan performa vision meningkatkan akurasi interpretasi screenshot, gambar teknis, chart, dan layar UI yang dibagikan selama sesi coding
- Berdasarkan fitur yang diperkenalkan di GPT-5.1-Codex-Max, model ini memungkinkan coding berbasis agen yang lebih efektif dan stabil juga di Windows native
Performa benchmark
- Mencapai performa tingkat tertinggi di SWE-Bench Pro dan Terminal-Bench 2.0
- SWE-Bench Pro adalah evaluasi yang memberikan code repository untuk menghasilkan patch yang menyelesaikan tugas software engineering yang realistis
- Terminal-Bench 2.0 menguji performa agen AI di lingkungan terminal nyata, termasuk kompilasi kode, pelatihan model, dan penyiapan server
Keamanan siber di dunia nyata
- Keamanan siber yang kuat sangat penting untuk melindungi sistem inti dan data sensitif masyarakat modern
- Kerentanan dapat tetap tidak terungkap untuk waktu lama, dan proses penemuan, verifikasi, serta perbaikannya sangat bergantung pada engineer yang memiliki tool dan komunitas peneliti keamanan independen
- Dalam contoh pada 11 Desember 2025 ketika tim React mengungkap tiga kerentanan keamanan yang memengaruhi aplikasi berbasis React Server Components, bukan hanya kerentanannya yang mendapat perhatian tetapi juga proses penemuannya
-
Contoh penemuan kerentanan React
- Andrew MacPherson, peneliti keamanan di Privy, afiliasi Stripe, menggunakan GPT-5.1-Codex-Max di Codex CLI untuk melakukan analisis React2Shell
- Codex digunakan dalam workflow keamanan standar seperti menyiapkan lingkungan pengujian lokal, menganalisis attack surface, dan fuzzing berbasis input abnormal
- Dalam proses reproduksi React2Shell, perilaku tak terduga teridentifikasi dan dalam waktu satu minggu berujung pada penemuan tiga kerentanan yang sebelumnya belum diketahui
- Kerentanan yang ditemukan diungkapkan kepada tim React dengan cara yang bertanggung jawab
- Kasus ini juga mencakup pembagian sesi Codex sebagai contoh seberapa besar proses verifikasi kerentanan oleh peneliti keamanan dapat dipersingkat
Kapabilitas keamanan siber yang terus berkembang
- Sejak GPT-5-Codex, kapabilitas keamanan siber mulai meningkat secara signifikan, lalu melompat jauh di GPT-5.1-Codex-Max, dan peningkatan yang jelas juga terlihat di GPT-5.2-Codex
- OpenAI memperkirakan model mendatang akan mengikuti tren yang sama, dan sedang merencanakan serta mengevaluasi dengan asumsi bahwa dalam kerangka evaluasi kesiapan, kapabilitas keamanan siber dapat mencapai tingkat 'tinggi'
- GPT-5.2-Codex sendiri belum mencapai tingkat 'tinggi', tetapi persiapan tetap dilanjutkan dengan mempertimbangkan model masa depan yang mungkin melampaui ambang tersebut
Kesimpulan
- GPT-5.2-Codex menunjukkan tren meluasnya kontribusi AI canggih di ranah software engineering dan keamanan siber
- Model ini membantu developer dan penanggung jawab keamanan menyelesaikan tantangan yang kompleks dan jangka panjang, sekaligus memperkuat tool riset keamanan yang bertanggung jawab
1 komentar
Komentar Hacker News
Jika ada orang OpenAI yang membaca ini, tolong jangan mengutak-atik kemampuan penalaran (reasoning)
Codex benar-benar unggul dalam menemukan bug dan inkonsistensi di kode atau matematika
Jika Claude Code kuat dalam “pembuatan kode”, maka Codex/GPT5.x sangat dominan dalam pendeteksian masalah
Menurut saya kualitas lebih penting daripada kecepatan
Awalnya saya meragukan Codex, tetapi sekarang saya memulai semua pekerjaan coding dengan Codex
Tidak sempurna, tetapi hasilnya luar biasa untuk refactoring, memulai proyek baru, atau menangani teknologi yang belum familiar
Terutama, ini membantu mengurangi menunda-nunda (procrastination). Bahkan tugas besar yang terasa buntu pun bisa saya lempar ke Codex untuk mendapatkan titik awal yang bagus
Kualitas Codex 5.2 meningkat jauh, dan sekarang saya bahkan menyerahkan penulisan kodenya
Kalau dipakai juga untuk perencanaan dan diskusi desain, hampir tidak ada alasan lagi untuk menulis kode sendiri
Menarik bahwa pada akhirnya evaluasi performa objektif memang sulit dilakukan
Tetapi kecepatan feedback loop adalah kuncinya. Semakin cepat build dan test, semakin tinggi efisiensi tool coding berbasis agen
Instruksi yang jelas seperti Agents.md sangat membantu
Setelah pindah dari Claude Code ke Codex CLI, saya membangun lingkungan eksekusi Codex berbasis container
Bisa dijalankan dengan berbagai cara seperti timer, file trigger, pemanggilan API, dan mode CLI
codex-container mencakup lebih dari 300 tool MCP
Mendukung berbagai fungsi seperti crawling, pencarian Google, Gmail/GCal/GDrive, Slack, embedding, transkripsi, dan lain-lain
Pekerjaan yang berisiko dari sisi keamanan diuji dengan aman lewat isolasi container
Crawling browser headless juga bisa dilakukan dengan gnosis-crawl
Dalam pengalaman saya, model GPT jauh lebih cocok daripada Claude untuk pengembangan backend
Lebih lambat, tetapi logikanya jelas dan maintainability-nya lebih tinggi
Saya biasanya membuat rencana dengan Claude, mengeksekusinya dengan Codex, lalu melakukan code review lagi dengan Claude
Saya harap Codex CLI diperbarui di homebrew bersamaan dengan npm
Claude masih punya terlalu banyak ornamen yang tidak perlu (fluff) dan overengineering
Claude menyoroti hal-hal kecil, tetapi Codex menemukan masalah yang benar-benar penting
Dari sisi keamanan, sayang sekali model OpenAI terlalu membatasi pekerjaan ofensif (offensive)
Menurut saya, untuk pertahanan dibutuhkan tingkat tertentu dari simulasi ofensif
Menurut saya masuk akal jika akses hanya diberikan kepada pakar yang tepercaya
Menarik bahwa mereka menonjolkan “keamanan siber” di bagian depan
Otomatisasi analisis keamanan sebenarnya sudah melewati titik kritis, dan menurut saya otomatisasi pekerjaan berulang lebih penting daripada kemajuan model itu sendiri
Sebagian besar analisis kerentanan adalah pekerjaan sederhana yang bisa diotomatisasi, dan jika itu disingkirkan, manusia bisa fokus pada analisis kreatif
Bagi saya, Codex selalu berkinerja lebih buruk daripada model dasar
Di CLI, ia terlalu terburu-buru mencoba menulis kode
Saya hanya bertanya sederhana, tetapi ia malah berusaha memodifikasi file, dan itu terasa tidak nyaman
Untuk sekarang, masih cukup bisa dikendalikan jika diminta hanya mengubah file
.mdKebijakan yang mengizinkan akses model untuk riset keamanan berbasis undangan menurut saya masuk akal
Jika “penyelarasan keselamatan” terlalu berlebihan, kemampuan analisis keamanan bisa menurun
Selama hanya melalui prosedur KYC, seharusnya tetap bisa menghasilkan riset yang positif sekaligus mengurangi paparan risiko
Risiko “dual-use” berarti bukan soal teknik serangan baru, melainkan menurunkan hambatan untuk eksekusi
Fungsi yang sama bisa membantu defender dalam analisis kerentanan, tetapi juga bisa menjadi alat serangan otomatis bagi attacker
Karena itu, kontrol distribusi dan logging sangat penting
Saya pernah memakai GPT‑5.1 lewat plugin Codex di VSCode, dan itu benar-benar pengalaman yang seperti sulap
Pada 5.2 saya belum merasakan perbedaan besar, tetapi jika fiturnya berkembang hingga setara Cursor atau Kilo Code, sepertinya akan lebih bagus
Dulu saya mengira OpenAI sudah tertinggal, tetapi 5.1 jauh lebih unggul daripada Gemini