- Model coding berbasis agen yang ditujukan untuk tugas pengembangan dunia nyata yang kompleks dan dioptimalkan untuk lingkungan Codex
- Dalam pekerjaan berdurasi panjang, kompresi konteks menjaga kesinambungan konteks dan membuatnya lebih kuat untuk perubahan besar seperti refactoring dan migration
- Di lingkungan Windows native, peningkatan performa secara menyeluruh disertai penguatan kemampuan vision untuk membantu interpretasi screenshot, gambar teknik, chart, dan UI
- Mencapai performa tingkat tertinggi di SWE-Bench Pro dan Terminal-Bench 2.0
- Sambil secara signifikan meningkatkan kapabilitas keamanan siber untuk tujuan defensif, OpenAI juga memperkenalkan pendekatan distribusi yang memprioritaskan pengguna berbayar dan akses berbasis kepercayaan dengan mempertimbangkan potensi penyalahgunaan
Ikhtisar
- GPT-5.2-Codex baru saja dirilis. Model ini dirancang untuk pekerjaan software engineering dunia nyata yang kompleks
- Berbasis GPT-5.2 dan dioptimalkan untuk pekerjaan coding berbasis agen di lingkungan Codex
- Melalui kompresi konteks, model ini memberikan performa stabil pada pekerjaan jangka panjang dan memperkuat kemampuan untuk perubahan kode berskala besar
- Peningkatan performa menyeluruh juga dilakukan di lingkungan Windows dan kapabilitas keamanan siber turut diperkuat
Memperluas batas software engineering
- Model ini dikembangkan berdasarkan kekuatan GPT-5 dalam pekerjaan berbasis pengetahuan profesional serta performa coding berbasis agen dan pemanfaatan terminal dari GPT-5.1-Codex-Max
- Dengan pemahaman konteks jangka panjang, stabilitas pemanggilan tool, peningkatan akurasi, dan native compaction, tujuannya adalah menjadi partner yang dapat diandalkan untuk pekerjaan coding berdurasi panjang
- Arah pengembangannya juga mencakup efisiensi token selama proses penalaran
- Penguatan performa vision meningkatkan akurasi interpretasi screenshot, gambar teknis, chart, dan layar UI yang dibagikan selama sesi coding
- Berdasarkan fitur yang diperkenalkan di GPT-5.1-Codex-Max, model ini memungkinkan coding berbasis agen yang lebih efektif dan stabil juga di Windows native
Performa benchmark
- Mencapai performa tingkat tertinggi di SWE-Bench Pro dan Terminal-Bench 2.0
- SWE-Bench Pro adalah evaluasi yang memberikan code repository untuk menghasilkan patch yang menyelesaikan tugas software engineering yang realistis
- Terminal-Bench 2.0 menguji performa agen AI di lingkungan terminal nyata, termasuk kompilasi kode, pelatihan model, dan penyiapan server
Keamanan siber di dunia nyata
- Keamanan siber yang kuat sangat penting untuk melindungi sistem inti dan data sensitif masyarakat modern
- Kerentanan dapat tetap tidak terungkap untuk waktu lama, dan proses penemuan, verifikasi, serta perbaikannya sangat bergantung pada engineer yang memiliki tool dan komunitas peneliti keamanan independen
- Dalam contoh pada 11 Desember 2025 ketika tim React mengungkap tiga kerentanan keamanan yang memengaruhi aplikasi berbasis React Server Components, bukan hanya kerentanannya yang mendapat perhatian tetapi juga proses penemuannya
-
Contoh penemuan kerentanan React
- Andrew MacPherson, peneliti keamanan di Privy, afiliasi Stripe, menggunakan GPT-5.1-Codex-Max di Codex CLI untuk melakukan analisis React2Shell
- Codex digunakan dalam workflow keamanan standar seperti menyiapkan lingkungan pengujian lokal, menganalisis attack surface, dan fuzzing berbasis input abnormal
- Dalam proses reproduksi React2Shell, perilaku tak terduga teridentifikasi dan dalam waktu satu minggu berujung pada penemuan tiga kerentanan yang sebelumnya belum diketahui
- Kerentanan yang ditemukan diungkapkan kepada tim React dengan cara yang bertanggung jawab
- Kasus ini juga mencakup pembagian sesi Codex sebagai contoh seberapa besar proses verifikasi kerentanan oleh peneliti keamanan dapat dipersingkat
Kapabilitas keamanan siber yang terus berkembang
- Sejak GPT-5-Codex, kapabilitas keamanan siber mulai meningkat secara signifikan, lalu melompat jauh di GPT-5.1-Codex-Max, dan peningkatan yang jelas juga terlihat di GPT-5.2-Codex
- OpenAI memperkirakan model mendatang akan mengikuti tren yang sama, dan sedang merencanakan serta mengevaluasi dengan asumsi bahwa dalam kerangka evaluasi kesiapan, kapabilitas keamanan siber dapat mencapai tingkat 'tinggi'
- GPT-5.2-Codex sendiri belum mencapai tingkat 'tinggi', tetapi persiapan tetap dilanjutkan dengan mempertimbangkan model masa depan yang mungkin melampaui ambang tersebut
Kesimpulan
- GPT-5.2-Codex menunjukkan tren meluasnya kontribusi AI canggih di ranah software engineering dan keamanan siber
- Model ini membantu developer dan penanggung jawab keamanan menyelesaikan tantangan yang kompleks dan jangka panjang, sekaligus memperkuat tool riset keamanan yang bertanggung jawab
Belum ada komentar.