GPT-5.2-Codex Dirilis

(openai.com)

7 poin oleh GN⁺ 2025-12-19 | 1 komentar | Bagikan ke WhatsApp

Model coding berbasis agen yang ditujukan untuk tugas pengembangan dunia nyata yang kompleks dan dioptimalkan untuk lingkungan Codex
Dalam pekerjaan berdurasi panjang, kompresi konteks menjaga kesinambungan konteks dan membuatnya lebih kuat untuk perubahan besar seperti refactoring dan migration
Di lingkungan Windows native, peningkatan performa secara menyeluruh disertai penguatan kemampuan vision untuk membantu interpretasi screenshot, gambar teknik, chart, dan UI
Mencapai performa tingkat tertinggi di SWE-Bench Pro dan Terminal-Bench 2.0
Sambil secara signifikan meningkatkan kapabilitas keamanan siber untuk tujuan defensif, OpenAI juga memperkenalkan pendekatan distribusi yang memprioritaskan pengguna berbayar dan akses berbasis kepercayaan dengan mempertimbangkan potensi penyalahgunaan

Ikhtisar

GPT-5.2-Codex baru saja dirilis. Model ini dirancang untuk pekerjaan software engineering dunia nyata yang kompleks
Berbasis GPT-5.2 dan dioptimalkan untuk pekerjaan coding berbasis agen di lingkungan Codex
Melalui kompresi konteks, model ini memberikan performa stabil pada pekerjaan jangka panjang dan memperkuat kemampuan untuk perubahan kode berskala besar
Peningkatan performa menyeluruh juga dilakukan di lingkungan Windows dan kapabilitas keamanan siber turut diperkuat

Memperluas batas software engineering

Model ini dikembangkan berdasarkan kekuatan GPT-5 dalam pekerjaan berbasis pengetahuan profesional serta performa coding berbasis agen dan pemanfaatan terminal dari GPT-5.1-Codex-Max
Dengan pemahaman konteks jangka panjang, stabilitas pemanggilan tool, peningkatan akurasi, dan native compaction, tujuannya adalah menjadi partner yang dapat diandalkan untuk pekerjaan coding berdurasi panjang
Arah pengembangannya juga mencakup efisiensi token selama proses penalaran
Penguatan performa vision meningkatkan akurasi interpretasi screenshot, gambar teknis, chart, dan layar UI yang dibagikan selama sesi coding
Berdasarkan fitur yang diperkenalkan di GPT-5.1-Codex-Max, model ini memungkinkan coding berbasis agen yang lebih efektif dan stabil juga di Windows native

Performa benchmark

Mencapai performa tingkat tertinggi di SWE-Bench Pro dan Terminal-Bench 2.0
- SWE-Bench Pro adalah evaluasi yang memberikan code repository untuk menghasilkan patch yang menyelesaikan tugas software engineering yang realistis
- Terminal-Bench 2.0 menguji performa agen AI di lingkungan terminal nyata, termasuk kompilasi kode, pelatihan model, dan penyiapan server

Keamanan siber di dunia nyata

Keamanan siber yang kuat sangat penting untuk melindungi sistem inti dan data sensitif masyarakat modern
Kerentanan dapat tetap tidak terungkap untuk waktu lama, dan proses penemuan, verifikasi, serta perbaikannya sangat bergantung pada engineer yang memiliki tool dan komunitas peneliti keamanan independen
Dalam contoh pada 11 Desember 2025 ketika tim React mengungkap tiga kerentanan keamanan yang memengaruhi aplikasi berbasis React Server Components, bukan hanya kerentanannya yang mendapat perhatian tetapi juga proses penemuannya
Contoh penemuan kerentanan React
- Andrew MacPherson, peneliti keamanan di Privy, afiliasi Stripe, menggunakan GPT-5.1-Codex-Max di Codex CLI untuk melakukan analisis React2Shell
- Codex digunakan dalam workflow keamanan standar seperti menyiapkan lingkungan pengujian lokal, menganalisis attack surface, dan fuzzing berbasis input abnormal
- Dalam proses reproduksi React2Shell, perilaku tak terduga teridentifikasi dan dalam waktu satu minggu berujung pada penemuan tiga kerentanan yang sebelumnya belum diketahui
- Kerentanan yang ditemukan diungkapkan kepada tim React dengan cara yang bertanggung jawab
- Kasus ini juga mencakup pembagian sesi Codex sebagai contoh seberapa besar proses verifikasi kerentanan oleh peneliti keamanan dapat dipersingkat

Kapabilitas keamanan siber yang terus berkembang

Sejak GPT-5-Codex, kapabilitas keamanan siber mulai meningkat secara signifikan, lalu melompat jauh di GPT-5.1-Codex-Max, dan peningkatan yang jelas juga terlihat di GPT-5.2-Codex
OpenAI memperkirakan model mendatang akan mengikuti tren yang sama, dan sedang merencanakan serta mengevaluasi dengan asumsi bahwa dalam kerangka evaluasi kesiapan, kapabilitas keamanan siber dapat mencapai tingkat 'tinggi'
GPT-5.2-Codex sendiri belum mencapai tingkat 'tinggi', tetapi persiapan tetap dilanjutkan dengan mempertimbangkan model masa depan yang mungkin melampaui ambang tersebut

Kesimpulan

GPT-5.2-Codex menunjukkan tren meluasnya kontribusi AI canggih di ranah software engineering dan keamanan siber
Model ini membantu developer dan penanggung jawab keamanan menyelesaikan tantangan yang kompleks dan jangka panjang, sekaligus memperkuat tool riset keamanan yang bertanggung jawab

1 komentar

GN⁺ 2025-12-19

Komentar Hacker News

Jika ada orang OpenAI yang membaca ini, tolong jangan mengutak-atik kemampuan penalaran (reasoning)
Codex benar-benar unggul dalam menemukan bug dan inkonsistensi di kode atau matematika
Jika Claude Code kuat dalam “pembuatan kode”, maka Codex/GPT5.x sangat dominan dalam pendeteksian masalah
Menurut saya kualitas lebih penting daripada kecepatan
- Jika kebutuhan pendeteksian masalah seteliti ini hanya muncul beberapa kali sehari, saya penasaran apakah paket 20 dolar per bulan sudah cukup, atau perlu paket 200 dolar
- Saya rasa masalahnya adalah “prioritas kualitas” pada akhirnya berarti “biaya naik”, dan sulit membebankan biaya tambahan itu ke pelanggan
- Saya juga terutama memakai Claude Code, tetapi jika Codex untuk code review saya nyalakan, kemampuannya benar-benar unggul untuk analisis alur dan mendeteksi bug yang halus
- Saya kagum melihat “mode penalaran tingkat lanjut” bisa menangkap bug kecil dalam kode
- Masalahnya, Codex terlalu akurat sampai terus menunjuk bug memori yang harus saya perbaiki. Akibatnya pekerjaan jadi lebih lambat
Awalnya saya meragukan Codex, tetapi sekarang saya memulai semua pekerjaan coding dengan Codex
Tidak sempurna, tetapi hasilnya luar biasa untuk refactoring, memulai proyek baru, atau menangani teknologi yang belum familiar
Terutama, ini membantu mengurangi menunda-nunda (procrastination). Bahkan tugas besar yang terasa buntu pun bisa saya lempar ke Codex untuk mendapatkan titik awal yang bagus
- Sangat setuju. Saya juga awalnya skeptis, tetapi kaget setelah mencoba Opus 4.5
  Kualitas Codex 5.2 meningkat jauh, dan sekarang saya bahkan menyerahkan penulisan kodenya
  Kalau dipakai juga untuk perencanaan dan diskusi desain, hampir tidak ada alasan lagi untuk menulis kode sendiri
- Di thread di atas ada yang bilang Codex lemah untuk debugging, tetapi di thread lain justru ada pendapat kebalikannya
  Menarik bahwa pada akhirnya evaluasi performa objektif memang sulit dilakukan
- Saya juga setuju bahwa Codex membantu mengurangi kebiasaan menunda
  Tetapi kecepatan feedback loop adalah kuncinya. Semakin cepat build dan test, semakin tinggi efisiensi tool coding berbasis agen
  Instruksi yang jelas seperti Agents.md sangat membantu
- Saat membandingkan performa model, variabel seperti prompt, jenis tugas, dan versi model terlalu banyak, jadi rasanya sulit melakukan evaluasi kualitatif
- Saya juga pernah memakai Claude Code, dan penasaran dengan pengalaman orang yang sudah membandingkannya dengan Codex
Setelah pindah dari Claude Code ke Codex CLI, saya membangun lingkungan eksekusi Codex berbasis container
Bisa dijalankan dengan berbagai cara seperti timer, file trigger, pemanggilan API, dan mode CLI
codex-container mencakup lebih dari 300 tool MCP
Mendukung berbagai fungsi seperti crawling, pencarian Google, Gmail/GCal/GDrive, Slack, embedding, transkripsi, dan lain-lain
Pekerjaan yang berisiko dari sisi keamanan diuji dengan aman lewat isolasi container
Crawling browser headless juga bisa dilakukan dengan gnosis-crawl
- Terlihat bagus, tetapi kalau harus memasang PowerShell sebagai dependensi, saya mungkin tidak akan memakainya
- Saya penasaran apakah tool MCP itu bukan dijalankan sekaligus, melainkan berbentuk library sehingga hanya yang diperlukan saja yang dipakai
Dalam pengalaman saya, model GPT jauh lebih cocok daripada Claude untuk pengembangan backend
Lebih lambat, tetapi logikanya jelas dan maintainability-nya lebih tinggi
Saya biasanya membuat rencana dengan Claude, mengeksekusinya dengan Codex, lalu melakukan code review lagi dengan Claude
Saya harap Codex CLI diperbarui di homebrew bersamaan dengan npm
- GPT‑5 adalah yang pertama kali menghasilkan kode yang bisa langsung saya deploy tanpa perlu perbaikan
  Claude masih punya terlalu banyak ornamen yang tidak perlu (fluff) dan overengineering
- Dalam pengalaman saya, kualitas code review Codex jauh lebih baik daripada Claude
  Claude menyoroti hal-hal kecil, tetapi Codex menemukan masalah yang benar-benar penting
- Sejak Opus 4.5, Claude tampaknya juga sudah cukup banyak membaik
Dari sisi keamanan, sayang sekali model OpenAI terlalu membatasi pekerjaan ofensif (offensive)
Menurut saya, untuk pertahanan dibutuhkan tingkat tertentu dari simulasi ofensif
- Saya sedang menjalankan pengujian serangan dalam arsitektur multi-agen yang memakai GPT‑5 sebagai backend, dan semuanya berjalan baik tanpa hambatan
- Baik ChatGPT maupun Codex sama-sama kooperatif untuk pengujian keamanan ofensif
- Menurut artikelnya, model yang lebih permisif (permissive) tersedia lewat undangan
  Menurut saya masuk akal jika akses hanya diberikan kepada pakar yang tepercaya
- Untuk pertanyaan apakah memperkuat kemampuan black hat membantu keamanan, menurut saya tetap perlu keseimbangan
- Saya juga setiap hari melakukan pengujian ofensif dengan model OpenAI, dan belum pernah mengalami masalah
Menarik bahwa mereka menonjolkan “keamanan siber” di bagian depan
Otomatisasi analisis keamanan sebenarnya sudah melewati titik kritis, dan menurut saya otomatisasi pekerjaan berulang lebih penting daripada kemajuan model itu sendiri
Sebagian besar analisis kerentanan adalah pekerjaan sederhana yang bisa diotomatisasi, dan jika itu disingkirkan, manusia bisa fokus pada analisis kreatif
Bagi saya, Codex selalu berkinerja lebih buruk daripada model dasar
Di CLI, ia terlalu terburu-buru mencoba menulis kode
Saya hanya bertanya sederhana, tetapi ia malah berusaha memodifikasi file, dan itu terasa tidak nyaman
- Jika dinyatakan jelas “jangan tulis kode dulu, mari hanya berdiskusi”, hasilnya berjalan baik
- Pada tahap riset dan perencanaan, memakai model non-Codex lalu menggunakan Codex pada tahap eksekusi terasa lebih efisien
- Saya juga mengalami hal yang sama. Secara fungsional Codex memang benar, tetapi kodenya terasa aneh atau berantakan
- Saat ini mode plan sedang dikembangkan, jadi diharapkan masalah ini bisa berkurang
  Untuk sekarang, masih cukup bisa dikendalikan jika diminta hanya mengubah file .md
- CodexTheModel memang cepat, tetapi saya lebih mengutamakan kualitas, jadi saya lebih memilih model dasar
Kebijakan yang mengizinkan akses model untuk riset keamanan berbasis undangan menurut saya masuk akal
Jika “penyelarasan keselamatan” terlalu berlebihan, kemampuan analisis keamanan bisa menurun
Selama hanya melalui prosedur KYC, seharusnya tetap bisa menghasilkan riset yang positif sekaligus mengurangi paparan risiko
Risiko “dual-use” berarti bukan soal teknik serangan baru, melainkan menurunkan hambatan untuk eksekusi
Fungsi yang sama bisa membantu defender dalam analisis kerentanan, tetapi juga bisa menjadi alat serangan otomatis bagi attacker
Karena itu, kontrol distribusi dan logging sangat penting
- Permintaan “peninjauan kerentanan keamanan” akan menghasilkan hal yang sepenuhnya berbeda tergantung apakah yang meminta adalah maintainer atau penyerang
- Jika bisa menemukan dan menambal kerentanan, itu sekaligus berarti potensi penyalahgunaannya juga tinggi
- Pada akhirnya ini berarti model tersebut berguna bagi tim red team maupun blue team
- Kemampuan mendeteksi kerentanan keamanan yang unggul berarti juga bisa dipakai untuk otomatisasi serangan
Saya pernah memakai GPT‑5.1 lewat plugin Codex di VSCode, dan itu benar-benar pengalaman yang seperti sulap
Pada 5.2 saya belum merasakan perbedaan besar, tetapi jika fiturnya berkembang hingga setara Cursor atau Kilo Code, sepertinya akan lebih bagus
Dulu saya mengira OpenAI sudah tertinggal, tetapi 5.1 jauh lebih unggul daripada Gemini

GPT-5.2-Codex Dirilis

Ikhtisar

Memperluas batas software engineering

Performa benchmark

Keamanan siber di dunia nyata

Contoh penemuan kerentanan React

Kapabilitas keamanan siber yang terus berkembang

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News