7 poin oleh GN⁺ 2025-12-19 | 1 komentar | Bagikan ke WhatsApp
  • Model coding berbasis agen yang ditujukan untuk tugas pengembangan dunia nyata yang kompleks dan dioptimalkan untuk lingkungan Codex
  • Dalam pekerjaan berdurasi panjang, kompresi konteks menjaga kesinambungan konteks dan membuatnya lebih kuat untuk perubahan besar seperti refactoring dan migration
  • Di lingkungan Windows native, peningkatan performa secara menyeluruh disertai penguatan kemampuan vision untuk membantu interpretasi screenshot, gambar teknik, chart, dan UI
  • Mencapai performa tingkat tertinggi di SWE-Bench Pro dan Terminal-Bench 2.0
  • Sambil secara signifikan meningkatkan kapabilitas keamanan siber untuk tujuan defensif, OpenAI juga memperkenalkan pendekatan distribusi yang memprioritaskan pengguna berbayar dan akses berbasis kepercayaan dengan mempertimbangkan potensi penyalahgunaan

Ikhtisar

  • GPT-5.2-Codex baru saja dirilis. Model ini dirancang untuk pekerjaan software engineering dunia nyata yang kompleks
  • Berbasis GPT-5.2 dan dioptimalkan untuk pekerjaan coding berbasis agen di lingkungan Codex
  • Melalui kompresi konteks, model ini memberikan performa stabil pada pekerjaan jangka panjang dan memperkuat kemampuan untuk perubahan kode berskala besar
  • Peningkatan performa menyeluruh juga dilakukan di lingkungan Windows dan kapabilitas keamanan siber turut diperkuat

Memperluas batas software engineering

  • Model ini dikembangkan berdasarkan kekuatan GPT-5 dalam pekerjaan berbasis pengetahuan profesional serta performa coding berbasis agen dan pemanfaatan terminal dari GPT-5.1-Codex-Max
  • Dengan pemahaman konteks jangka panjang, stabilitas pemanggilan tool, peningkatan akurasi, dan native compaction, tujuannya adalah menjadi partner yang dapat diandalkan untuk pekerjaan coding berdurasi panjang
  • Arah pengembangannya juga mencakup efisiensi token selama proses penalaran
  • Penguatan performa vision meningkatkan akurasi interpretasi screenshot, gambar teknis, chart, dan layar UI yang dibagikan selama sesi coding
  • Berdasarkan fitur yang diperkenalkan di GPT-5.1-Codex-Max, model ini memungkinkan coding berbasis agen yang lebih efektif dan stabil juga di Windows native

Performa benchmark

  • Mencapai performa tingkat tertinggi di SWE-Bench Pro dan Terminal-Bench 2.0
    • SWE-Bench Pro adalah evaluasi yang memberikan code repository untuk menghasilkan patch yang menyelesaikan tugas software engineering yang realistis
    • Terminal-Bench 2.0 menguji performa agen AI di lingkungan terminal nyata, termasuk kompilasi kode, pelatihan model, dan penyiapan server

Keamanan siber di dunia nyata

  • Keamanan siber yang kuat sangat penting untuk melindungi sistem inti dan data sensitif masyarakat modern
  • Kerentanan dapat tetap tidak terungkap untuk waktu lama, dan proses penemuan, verifikasi, serta perbaikannya sangat bergantung pada engineer yang memiliki tool dan komunitas peneliti keamanan independen
  • Dalam contoh pada 11 Desember 2025 ketika tim React mengungkap tiga kerentanan keamanan yang memengaruhi aplikasi berbasis React Server Components, bukan hanya kerentanannya yang mendapat perhatian tetapi juga proses penemuannya
  • Contoh penemuan kerentanan React

    • Andrew MacPherson, peneliti keamanan di Privy, afiliasi Stripe, menggunakan GPT-5.1-Codex-Max di Codex CLI untuk melakukan analisis React2Shell
    • Codex digunakan dalam workflow keamanan standar seperti menyiapkan lingkungan pengujian lokal, menganalisis attack surface, dan fuzzing berbasis input abnormal
    • Dalam proses reproduksi React2Shell, perilaku tak terduga teridentifikasi dan dalam waktu satu minggu berujung pada penemuan tiga kerentanan yang sebelumnya belum diketahui
    • Kerentanan yang ditemukan diungkapkan kepada tim React dengan cara yang bertanggung jawab
    • Kasus ini juga mencakup pembagian sesi Codex sebagai contoh seberapa besar proses verifikasi kerentanan oleh peneliti keamanan dapat dipersingkat

Kapabilitas keamanan siber yang terus berkembang

  • Sejak GPT-5-Codex, kapabilitas keamanan siber mulai meningkat secara signifikan, lalu melompat jauh di GPT-5.1-Codex-Max, dan peningkatan yang jelas juga terlihat di GPT-5.2-Codex
  • OpenAI memperkirakan model mendatang akan mengikuti tren yang sama, dan sedang merencanakan serta mengevaluasi dengan asumsi bahwa dalam kerangka evaluasi kesiapan, kapabilitas keamanan siber dapat mencapai tingkat 'tinggi'
  • GPT-5.2-Codex sendiri belum mencapai tingkat 'tinggi', tetapi persiapan tetap dilanjutkan dengan mempertimbangkan model masa depan yang mungkin melampaui ambang tersebut

Kesimpulan

  • GPT-5.2-Codex menunjukkan tren meluasnya kontribusi AI canggih di ranah software engineering dan keamanan siber
  • Model ini membantu developer dan penanggung jawab keamanan menyelesaikan tantangan yang kompleks dan jangka panjang, sekaligus memperkuat tool riset keamanan yang bertanggung jawab

1 komentar

 
GN⁺ 2025-12-19
Komentar Hacker News
  • Jika ada orang OpenAI yang membaca ini, tolong jangan mengutak-atik kemampuan penalaran (reasoning)
    Codex benar-benar unggul dalam menemukan bug dan inkonsistensi di kode atau matematika
    Jika Claude Code kuat dalam “pembuatan kode”, maka Codex/GPT5.x sangat dominan dalam pendeteksian masalah
    Menurut saya kualitas lebih penting daripada kecepatan

    • Jika kebutuhan pendeteksian masalah seteliti ini hanya muncul beberapa kali sehari, saya penasaran apakah paket 20 dolar per bulan sudah cukup, atau perlu paket 200 dolar
    • Saya rasa masalahnya adalah “prioritas kualitas” pada akhirnya berarti “biaya naik”, dan sulit membebankan biaya tambahan itu ke pelanggan
    • Saya juga terutama memakai Claude Code, tetapi jika Codex untuk code review saya nyalakan, kemampuannya benar-benar unggul untuk analisis alur dan mendeteksi bug yang halus
    • Saya kagum melihat “mode penalaran tingkat lanjut” bisa menangkap bug kecil dalam kode
    • Masalahnya, Codex terlalu akurat sampai terus menunjuk bug memori yang harus saya perbaiki. Akibatnya pekerjaan jadi lebih lambat
  • Awalnya saya meragukan Codex, tetapi sekarang saya memulai semua pekerjaan coding dengan Codex
    Tidak sempurna, tetapi hasilnya luar biasa untuk refactoring, memulai proyek baru, atau menangani teknologi yang belum familiar
    Terutama, ini membantu mengurangi menunda-nunda (procrastination). Bahkan tugas besar yang terasa buntu pun bisa saya lempar ke Codex untuk mendapatkan titik awal yang bagus

    • Sangat setuju. Saya juga awalnya skeptis, tetapi kaget setelah mencoba Opus 4.5
      Kualitas Codex 5.2 meningkat jauh, dan sekarang saya bahkan menyerahkan penulisan kodenya
      Kalau dipakai juga untuk perencanaan dan diskusi desain, hampir tidak ada alasan lagi untuk menulis kode sendiri
    • Di thread di atas ada yang bilang Codex lemah untuk debugging, tetapi di thread lain justru ada pendapat kebalikannya
      Menarik bahwa pada akhirnya evaluasi performa objektif memang sulit dilakukan
    • Saya juga setuju bahwa Codex membantu mengurangi kebiasaan menunda
      Tetapi kecepatan feedback loop adalah kuncinya. Semakin cepat build dan test, semakin tinggi efisiensi tool coding berbasis agen
      Instruksi yang jelas seperti Agents.md sangat membantu
    • Saat membandingkan performa model, variabel seperti prompt, jenis tugas, dan versi model terlalu banyak, jadi rasanya sulit melakukan evaluasi kualitatif
    • Saya juga pernah memakai Claude Code, dan penasaran dengan pengalaman orang yang sudah membandingkannya dengan Codex
  • Setelah pindah dari Claude Code ke Codex CLI, saya membangun lingkungan eksekusi Codex berbasis container
    Bisa dijalankan dengan berbagai cara seperti timer, file trigger, pemanggilan API, dan mode CLI
    codex-container mencakup lebih dari 300 tool MCP
    Mendukung berbagai fungsi seperti crawling, pencarian Google, Gmail/GCal/GDrive, Slack, embedding, transkripsi, dan lain-lain
    Pekerjaan yang berisiko dari sisi keamanan diuji dengan aman lewat isolasi container
    Crawling browser headless juga bisa dilakukan dengan gnosis-crawl

    • Terlihat bagus, tetapi kalau harus memasang PowerShell sebagai dependensi, saya mungkin tidak akan memakainya
    • Saya penasaran apakah tool MCP itu bukan dijalankan sekaligus, melainkan berbentuk library sehingga hanya yang diperlukan saja yang dipakai
  • Dalam pengalaman saya, model GPT jauh lebih cocok daripada Claude untuk pengembangan backend
    Lebih lambat, tetapi logikanya jelas dan maintainability-nya lebih tinggi
    Saya biasanya membuat rencana dengan Claude, mengeksekusinya dengan Codex, lalu melakukan code review lagi dengan Claude
    Saya harap Codex CLI diperbarui di homebrew bersamaan dengan npm

    • GPT‑5 adalah yang pertama kali menghasilkan kode yang bisa langsung saya deploy tanpa perlu perbaikan
      Claude masih punya terlalu banyak ornamen yang tidak perlu (fluff) dan overengineering
    • Dalam pengalaman saya, kualitas code review Codex jauh lebih baik daripada Claude
      Claude menyoroti hal-hal kecil, tetapi Codex menemukan masalah yang benar-benar penting
    • Sejak Opus 4.5, Claude tampaknya juga sudah cukup banyak membaik
  • Dari sisi keamanan, sayang sekali model OpenAI terlalu membatasi pekerjaan ofensif (offensive)
    Menurut saya, untuk pertahanan dibutuhkan tingkat tertentu dari simulasi ofensif

    • Saya sedang menjalankan pengujian serangan dalam arsitektur multi-agen yang memakai GPT‑5 sebagai backend, dan semuanya berjalan baik tanpa hambatan
    • Baik ChatGPT maupun Codex sama-sama kooperatif untuk pengujian keamanan ofensif
    • Menurut artikelnya, model yang lebih permisif (permissive) tersedia lewat undangan
      Menurut saya masuk akal jika akses hanya diberikan kepada pakar yang tepercaya
    • Untuk pertanyaan apakah memperkuat kemampuan black hat membantu keamanan, menurut saya tetap perlu keseimbangan
    • Saya juga setiap hari melakukan pengujian ofensif dengan model OpenAI, dan belum pernah mengalami masalah
  • Menarik bahwa mereka menonjolkan “keamanan siber” di bagian depan
    Otomatisasi analisis keamanan sebenarnya sudah melewati titik kritis, dan menurut saya otomatisasi pekerjaan berulang lebih penting daripada kemajuan model itu sendiri
    Sebagian besar analisis kerentanan adalah pekerjaan sederhana yang bisa diotomatisasi, dan jika itu disingkirkan, manusia bisa fokus pada analisis kreatif

  • Bagi saya, Codex selalu berkinerja lebih buruk daripada model dasar
    Di CLI, ia terlalu terburu-buru mencoba menulis kode
    Saya hanya bertanya sederhana, tetapi ia malah berusaha memodifikasi file, dan itu terasa tidak nyaman

    • Jika dinyatakan jelas “jangan tulis kode dulu, mari hanya berdiskusi”, hasilnya berjalan baik
    • Pada tahap riset dan perencanaan, memakai model non-Codex lalu menggunakan Codex pada tahap eksekusi terasa lebih efisien
    • Saya juga mengalami hal yang sama. Secara fungsional Codex memang benar, tetapi kodenya terasa aneh atau berantakan
    • Saat ini mode plan sedang dikembangkan, jadi diharapkan masalah ini bisa berkurang
      Untuk sekarang, masih cukup bisa dikendalikan jika diminta hanya mengubah file .md
    • CodexTheModel memang cepat, tetapi saya lebih mengutamakan kualitas, jadi saya lebih memilih model dasar
  • Kebijakan yang mengizinkan akses model untuk riset keamanan berbasis undangan menurut saya masuk akal
    Jika “penyelarasan keselamatan” terlalu berlebihan, kemampuan analisis keamanan bisa menurun
    Selama hanya melalui prosedur KYC, seharusnya tetap bisa menghasilkan riset yang positif sekaligus mengurangi paparan risiko

  • Risiko “dual-use” berarti bukan soal teknik serangan baru, melainkan menurunkan hambatan untuk eksekusi
    Fungsi yang sama bisa membantu defender dalam analisis kerentanan, tetapi juga bisa menjadi alat serangan otomatis bagi attacker
    Karena itu, kontrol distribusi dan logging sangat penting

    • Permintaan “peninjauan kerentanan keamanan” akan menghasilkan hal yang sepenuhnya berbeda tergantung apakah yang meminta adalah maintainer atau penyerang
    • Jika bisa menemukan dan menambal kerentanan, itu sekaligus berarti potensi penyalahgunaannya juga tinggi
    • Pada akhirnya ini berarti model tersebut berguna bagi tim red team maupun blue team
    • Kemampuan mendeteksi kerentanan keamanan yang unggul berarti juga bisa dipakai untuk otomatisasi serangan
  • Saya pernah memakai GPT‑5.1 lewat plugin Codex di VSCode, dan itu benar-benar pengalaman yang seperti sulap
    Pada 5.2 saya belum merasakan perbedaan besar, tetapi jika fiturnya berkembang hingga setara Cursor atau Kilo Code, sepertinya akan lebih bagus
    Dulu saya mengira OpenAI sudah tertinggal, tetapi 5.1 jauh lebih unggul daripada Gemini