7 poin oleh GN⁺ 2026-02-06 | 2 komentar | Bagikan ke WhatsApp
  • Menggabungkan performa coding GPT-5.2-Codex dan penalaran·pengetahuan ahli GPT-5.2 dalam satu model, memberikan kecepatan 25% lebih cepat
  • Memperluas cakupan tugas agentic Codex hingga tugas yang berjalan lama, dan mengintegrasikan kolaborasi interaktif real-time ke aplikasi Codex agar arah kerja bisa diubah di tengah proses serta umpan balik dapat langsung diterapkan
  • Model pertama yang ikut mengembangkan dirinya sendiri, dengan versi awal yang langsung digunakan untuk debugging proses training internal, manajemen deployment, dan diagnosis evaluasi
  • Mencatat performa terbaik industri pada benchmark utama seperti SWE-Bench Pro, Terminal-Bench 2.0, dan OSWorld, sekaligus bekerja dengan token lebih sedikit dibanding model sebelumnya
  • Melampaui penulisan kode untuk mendukung pekerjaan pengetahuan di seluruh siklus hidup software, termasuk presentasi, spreadsheet, dan analisis data

Ikhtisar

  • GPT-5.3-Codex disebut sebagai “model coding agentic paling mumpuni”
  • Menggabungkan performa coding frontier GPT-5.2-Codex dan kemampuan penalaran·pengetahuan ahli GPT-5.2 dalam satu model, dengan peningkatan kecepatan 25%
  • Dirancang untuk menangani tugas jangka panjang yang mencakup riset, penggunaan alat, dan eksekusi kompleks, serta tetap dapat diarahkan tanpa kehilangan konteks saat pekerjaan berlangsung
  • Menggunakan versi awalnya untuk terlibat dalam self-training, deployment, dan diagnosis evaluasi, menjadikannya model pertama yang “mempercepat pengembangannya sendiri”
  • Memperluas peran Codex dari “menulis·mereview kode” menjadi “hampir semua pekerjaan yang dilakukan developer dan ahli di komputer”

Kemampuan agentic frontier

  • Performa coding

    • Mencapai hasil terbaik di SWE-Bench Pro (evaluasi software engineering nyata). Berbeda dengan SWE-Bench Verified yang hanya menguji Python, benchmark ini mencakup 4 bahasa serta memiliki ketahanan kontaminasi yang lebih tinggi dan relevansi industri yang besar
    • Di Terminal-Bench 2.0, hasilnya juga jauh melampaui performa terbaik sebelumnya, mengukur keterampilan terminal yang dibutuhkan agen coding
    • Dapat menyelesaikan tugas yang sama dengan token lebih sedikit dibanding model sebelumnya
  • Pengembangan web

    • Kombinasi kemampuan coding frontier, peningkatan sense estetika, dan teknik kompresi memungkinkan pembangunan game dan aplikasi kompleks dari nol selama beberapa hari
    • Untuk menguji pengembangan web dan kemampuan agentic jangka panjang, dibuat dua contoh: game balap dan game menyelam
      • Game balap: beragam pembalap, 8 map, dan item yang digunakan dengan tombol spasi
      • Game menyelam: eksplorasi berbagai terumbu karang, koleksi ensiklopedia ikan, serta pengelolaan oksigen·tekanan air·faktor bahaya
    • Menggunakan skill "develop web game" serta prompt lanjutan generik preset seperti "fix the bug" dan "improve the game" untuk melakukan iterasi perbaikan secara otonom sepanjang jutaan token
    • Saat membuat website sehari-hari, lebih baik memahami maksud pengguna dibanding GPT-5.2-Codex, dan bahkan pada prompt yang sederhana atau kurang lengkap, otomatis menerapkan lebih banyak fitur dan default yang masuk akal
    • Contoh perbandingan landing page: GPT-5.3-Codex otomatis menampilkan paket tahunan sebagai harga bulanan diskon, serta membuat carousel rekomendasi konversi otomatis berisi 3 kutipan pengguna, sehingga hasil akhir lebih matang
  • Kemampuan di luar coding

    • Mendukung seluruh siklus hidup software, termasuk debugging, deployment, monitoring, penulisan PRD, editing copy, riset pengguna, testing, dan analisis metrik yang dilakukan software engineer, desainer, product manager, dan data scientist
    • Meluas ke area di luar software, seperti pembuatan slide deck dan analisis data sheet
    • Mencapai 70.9% pada GDPval (evaluasi tugas knowledge work yang terdefinisi jelas di 44 kategori pekerjaan), setara dengan GPT-5.2
      • Termasuk output kerja nyata seperti presentasi dan spreadsheet
    • Menampilkan beragam contoh output seperti slide advisori keuangan, dokumen pelatihan ritel, spreadsheet analisis NPV, dan PDF presentasi fashion
    • Mencapai 64.7% pada OSWorld-Verified (benchmark penggunaan komputer agentic untuk menjalankan tugas produktivitas di lingkungan desktop visual), naik tajam dari model GPT sebelumnya (38.2%)
      • Skor manusia sekitar 72%

Kolaborator interaktif

  • Seiring kemampuan model meningkat, tantangan utama bergeser dari apa yang bisa dilakukan agen menjadi seberapa mudah manusia dapat mengarahkan dan mengawasi banyak agen yang bekerja paralel
  • Aplikasi Codex memudahkan pengelolaan dan pengarahan agen, dan pada GPT-5.3-Codex menawarkan interaktivitas yang lebih tinggi
  • Model sering memperbarui keputusan penting dan progres selama pekerjaan berlangsung, sehingga pengguna tidak perlu menunggu hasil akhir untuk bertanya, mendiskusikan pendekatan, atau mengubah arah secara real-time
  • Menjelaskan apa yang sedang dikerjakannya, merespons umpan balik, dan melibatkan pengguna dalam loop dari awal hingga akhir
  • Jalur pengaturan: Settings > General > Follow-up behavior untuk mengaktifkan steering saat model sedang bekerja

Training dan deployment GPT-5.3-Codex dengan bantuan Codex

  • Peningkatan cepat Codex belakangan ini dibangun di atas proyek riset selama berbulan-bulan hingga bertahun-tahun di seluruh OpenAI
  • Banyak peneliti dan engineer OpenAI mengatakan bahwa cara mereka bekerja saat ini secara fundamental berbeda dibanding 2 bulan lalu
  • Versi awal GPT-5.3-Codex juga menunjukkan kemampuan luar biasa, sehingga tim memanfaatkan versi awal tersebut untuk mendukung peningkatan training dan deployment versi berikutnya
  • Contoh penggunaan oleh tim riset

    • Menggunakan Codex untuk monitoring dan debugging training run pada rilis ini
    • Melampaui debugging masalah infrastruktur, mereka membangun aplikasi kaya fitur untuk melacak pola di seluruh proses training, menganalisis kualitas interaksi secara mendalam, mengusulkan perbaikan, dan mengidentifikasi secara presisi perbedaan perilaku dibanding model sebelumnya
  • Contoh penggunaan oleh tim engineering

    • Menggunakan Codex untuk optimasi dan adaptasi harness bagi GPT-5.3-Codex
    • Saat muncul edge case aneh yang berdampak ke pengguna, Codex dipakai untuk mengidentifikasi bug context rendering dan menganalisis akar penyebab rendahnya cache hit rate
    • Selama masa peluncuran, terus digunakan untuk dynamic scaling klaster GPU dan menstabilkan latensi ketika terjadi lonjakan trafik
  • Contoh penggunaan dalam alpha test

    • Seorang peneliti ingin memahami seberapa banyak pekerjaan tambahan yang dilakukan GPT-5.3-Codex per turn dan perbedaan produktivitasnya
    • GPT-5.3-Codex merancang beberapa classifier regex sederhana untuk memperkirakan frekuensi pertanyaan klarifikasi, respons positif·negatif, dan progres pekerjaan per sesi, lalu menjalankannya secara massal pada seluruh log sesi dan membuat laporan kesimpulan
    • Kepuasan orang yang membangun dengan Codex lebih tinggi; agen lebih memahami maksud dan menunjukkan progres lebih besar per turn serta lebih sedikit pertanyaan klarifikasi
  • Membangun pipeline data

    • Data alpha test sangat berbeda dari model sebelumnya, sehingga muncul banyak hasil yang tidak normal dan kontraintuitif
    • Data scientist membangun pipeline data baru bersama GPT-5.3-Codex dan menghasilkan visualisasi yang jauh lebih kaya daripada alat dashboard standar
    • Dengan Codex, hasil dianalisis bersama dan insight utama dari ribuan data point dapat diringkas dalam waktu kurang dari 3 menit

Mengamankan frontier keamanan siber

  • Dalam beberapa bulan terakhir, performa model pada tugas keamanan siber meningkat secara bermakna, memberi manfaat bagi developer maupun profesional keamanan
  • Sejalan dengan itu, disiapkan pengaman keamanan siber yang diperkuat untuk mendukung penggunaan defensif dan ketahanan ekosistem yang lebih luas
  • Di bawah Preparedness Framework, ini adalah model pertama yang diklasifikasikan pada level High untuk tugas terkait keamanan siber, sekaligus model pertama yang dilatih secara langsung untuk mengidentifikasi kerentanan software
  • Belum ada bukti konklusif bahwa otomatisasi serangan siber end-to-end dimungkinkan, namun OpenAI mengambil pendekatan pencegahan dan menerapkan tumpukan keamanan siber paling komprehensif sejauh ini
    • Termasuk safety training, monitoring otomatis, akses berbasis kepercayaan untuk fitur lanjutan, dan pipeline enforcement yang mencakup threat intelligence
  • Dengan mempertimbangkan sifat dual-use yang inheren pada keamanan siber, OpenAI mengadopsi pendekatan iteratif berbasis bukti yang mempercepat kemampuan defender menemukan dan memperbaiki kerentanan sambil menunda penyalahgunaan
  • Program riset defensif dan perlindungan ekosistem

    • Meluncurkan pilot program Trusted Access for Cyber untuk mempercepat riset pertahanan siber
    • Memperluas private beta agen riset keamanan Aardvark, penawaran pertama dalam lini produk Codex Security
    • Bekerja sama dengan maintainer open source untuk menyediakan pemindaian codebase gratis pada proyek yang banyak digunakan, misalnya Next.js
      • Peneliti keamanan menggunakan Codex untuk menemukan kerentanan yang diungkap minggu lalu (CVE-2025-59471, CVE-2025-59472)
    • Berdasarkan program hibah keamanan siber senilai 1 juta dolar yang diluncurkan pada 2023, OpenAI menambah investasi 10 juta dolar dalam kredit API untuk mempercepat pertahanan siber dengan model paling kuat
      • Terutama untuk software open source dan sistem infrastruktur kritis
      • Organisasi yang terlibat dalam riset keamanan dengan niat baik dapat mengajukan kredit API dan dukungan melalui Cybersecurity Grant Program

Ketersediaan dan detail

  • GPT-5.3-Codex tersedia pada paket ChatGPT berbayar, dan dapat digunakan di semua tempat yang mendukung Codex (aplikasi, CLI, ekstensi IDE, web)
  • Akses API sedang dipersiapkan agar dapat diaktifkan dengan aman
  • Berkat peningkatan infrastruktur dan stack inferensi, layanan untuk pengguna Codex berjalan dengan kecepatan 25% lebih cepat, menghadirkan interaksi dan hasil yang lebih cepat
  • Dirancang bersama, dilatih, dan dilayani pada NVIDIA GB200 NVL72 system

Arah ke depan

  • Codex bergerak melampaui penulisan kode, menggunakan kode sebagai alat untuk mengoperasikan komputer dan menyelesaikan pekerjaan dari awal sampai akhir
  • Dengan memperluas frontier agen coding, cakupannya terbuka bukan hanya untuk membangun dan mendeploy software, tetapi juga untuk knowledge work yang lebih luas seperti riset, analisis, dan eksekusi tugas kompleks
  • Berawal dari agen coding terbaik, lalu berkembang menjadi kolaborator umum di atas komputer, memperluas apa yang bisa dibangun dan siapa yang bisa membangunnya

Appendix: angka benchmark

  • Semua evaluasi dijalankan dengan xhigh reasoning effort
  • SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
  • Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
  • OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
  • GDPval(win atau seri): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
  • Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
  • SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%

2 komentar

 
treestae 2026-02-06

Dulu saya lebih menyukai Claude, tetapi belakangan ini Codex terasa lebih cocok bagi saya. Saya berharap keduanya berkembang secara saling melengkapi seperti iOS dan AOS.

 
GN⁺ 2026-02-06
Komentar Hacker News
  • Menarik melihat GPT‑5.3 Codex dan Opus 4.6 berkembang ke arah yang secara filosofis berbeda
    Codex dirancang sebagai kolaborator interaktif yang bekerja bersama manusia dengan campur tangan di tengah proses, sedangkan Opus adalah sistem yang lebih otonom dan terencana dengan intervensi manusia seminimal mungkin
    Ini tampaknya mencerminkan dua sudut pandang nyata para developer terhadap coding berbasis LLM — kontrol berpusat pada manusia vs delegasi penuh
    Menarik untuk melihat apakah model-model ke depan akan dioptimalkan mengikuti diferensiasi filosofis seperti ini, atau justru muncul pendekatan baru

    • Dari sudut pandang UX, rasanya malah kebalikannya
      Codex cenderung berpikir jauh lebih lama sebelum memberi jawaban
    • Saya yakin pendekatan Codex akan bertahan
      Jika manusia tetap berada di dalam loop, sebagian besar masalah LLM bisa dihindari, dan cara meninjau dalam unit kode kecil itu efisien
      Jika Codex menangani pekerjaan repetitif, developer bisa fokus pada logika inti
      Pendekatan yang sepenuhnya otonom tidak cocok untuk codebase besar karena kualitas kodenya menurun dalam jangka panjang
    • Pada praktiknya, awalnya Codex hadir dalam bentuk web app dan hampir tidak ada interaksi
      Kita mengirim permintaan, lalu ia berjalan otomatis di lingkungan container, dan tindak lanjut setelah itu hanya bisa dilakukan lewat chat
    • Rasanya kedua model sedang berkonvergensi ke wilayah satu sama lain
      Codex tampak makin otonom, dan Opus tampak makin kolaboratif
      Pada akhirnya besar kemungkinan kedua pendekatan sama-sama berguna tergantung situasinya
    • Codex terasa seperti model yang lebih banyak berpikir dibanding Opus
      Karena itu versi 5.2 terasa lebih stabil daripada Opus 4.5
  • Anthropic tampaknya terburu-buru merilis Opus 4.6 agar tidak dibandingkan langsung dengan GPT‑5.3‑Codex
    Skor Terminal‑Bench 2.0 adalah 65.4 untuk Opus 4.6 dan 77.3 untuk GPT‑5.3‑Codex

    • Benchmark AI tidak terlalu cocok dengan pengalaman nyata
      Meski begitu, Codex 5.2 adalah yang paling unggul untuk tugas kompleks, dan saya menantikan 5.3
    • Mengejutkan melihat dua model coding papan atas dirilis pada hari yang sama
    • Pengujian dilakukan dalam mode xhigh reasoning sehingga biayanya dua kali lipat
      GPT‑5.2 Codex sekitar $3244, Claude Opus 4.5 sekitar $1485
    • Sepertinya Codex overfit ke Terminal Bench
      Jika melihat hasil ARC AGI 2, generalisasinya tampak kurang
    • Dari pengalaman saya, keluarga GPT jauh lebih kuat daripada Claude untuk coding bergaya agen
      Saya meragukan klaim bahwa Claude unggul dalam coding
  • Mengesankan bahwa GPT‑5.3‑Codex adalah model pertama yang digunakan untuk mengembangkan dirinya sendiri
    Tim Codex disebut memakai versi awalnya untuk men-debug pipeline pelatihan internal mereka
    Saya rasa alasan Claude Code berkembang juga karena budaya dogfooding seperti ini

    • Ini tidak terlalu berbeda dari arah yang diprediksi para peneliti di proyek AI‑2027
    • Model tampaknya sudah masuk ke tahap awal self-improvement
      Ini membuat saya kembali berpikir apakah ‘soft take‑off’ kini benar-benar memungkinkan
  • GPT‑5.3‑Codex diklasifikasikan sebagai model berkapabilitas tinggi (high capability) untuk tugas terkait keamanan siber
    Model ini memang dilatih langsung untuk mendeteksi kerentanan, tetapi belum ada bukti otomatisasi serangan secara penuh
    Namun menurut saya kerangka keamanan yang dipakai sudah usang
    Ke depan, kode yang ditulis Codex sendiri kemungkinan besar akan menjadi permukaan serangan baru sebagai ancaman keamanan
    Codex pada dasarnya harus dirancang untuk menghasilkan kode yang aman

    • Saya penasaran apakah “high‑capability” berarti lebih kuat daripada tim ahli setingkat doktor
      Artikel terkait: liputan NBC News
    • Rasanya ini strategi khas OpenAI untuk sekali lagi memberi kesan bahwa mereka mendekati AGI
      Sama seperti Anthropic, terkesan memamerkan kemampuan teknis di bawah bungkus ‘riset keamanan’
    • Akhir-akhir ini ada lelucon bahwa proyek vibe-coded mengekspos API key langsung di halaman web
      Saya penasaran apakah kesalahan seperti ini akan terus berlanjut
    • Katanya “penguatan keamanan”, tapi ujung-ujungnya mungkin cuma sebatas menambah ACL dan memperbarui regex
  • Dulu lab AI mengatur jadwal agar tidak mengumumkan secara bersamaan,
    sekarang mereka justru berlomba mengumumkan dengan selisih 30 menit

    • Sekarang benar-benar berubah menjadi persaingan yang sengit
      Demis mungkin lemah dalam pertarungan politik, tapi tampaknya akan bertarung lewat performa
      Elon, Sam, dan Dario sudah piawai dalam manuver politik
      Tahun 2026 sepertinya akan jadi tahun yang dramatis bagi industri AI
    • Ada juga penyesuaian jadwal untuk bersaing dengan model lokal saat periode Tahun Baru Imlek di Tiongkok
    • Persaingan seperti ini sudah berlanjut sejak era GPT‑4
      Menyesuaikan pengumuman OpenAI pukul 10, Anthropic dan Google juga melakukan peluncuran tandingan
    • Ada yang bertanya-tanya apakah koordinasi seperti ini bisa jadi praktik kartel yang ilegal
  • Saya tertarik melihat pengumuman bahwa GPT‑5.3‑Codex secara otonom meningkatkan web game
    Tetapi saya kecewa karena jumlah prompt maupun token dalam eksperimen pembanding tidak dipublikasikan
    Saya ingin membandingkannya dengan klon web Factorio yang pernah saya buat

    • Demo itu benar-benar keren
      Saya tidak tahu model bisa dimanfaatkan dengan cara seperti ini
  • Sudah bertahun-tahun saya mendengar klaim “AI membuat produktivitas naik 100x
    Tapi saya penasaran apakah benar sudah ada program baru dan bisa dipercaya yang dibuat terutama oleh LLM

    • Saat kalkulator diperkenalkan pada 1930-an, orang juga bilang pekerjaan akuntansi akan hilang, tetapi justru menjadi lebih terspesialisasi
      LLM juga hanya membuat penyelesaian masalah yang sudah ada menjadi lebih cepat, bukan memecahkan masalah yang benar-benar baru
      Misalnya, untuk masalah penyusunan kartu UI, Gemini membantu besar dengan menyarankan pendekatan berbasis koordinat polar
      Memang bukan 100x, tetapi saya tetap merasakan peningkatan produktivitas 2x
      Thread terkait: contoh vibe coding
    • Sebagian besar developer lebih sering menyelesaikan ulang masalah yang sudah ada daripada masalah baru
      Karena itu kritik soal “masalah yang sudah terpecahkan” tidak terlalu berarti
    • Akan bagus jika ada proyek game besar open source yang dirilis, seperti OpenGTA, OpenFIFA, dan lainnya
    • Opus 4.5 berhasil menyelesaikan masalah git yang sederhana setelah lima kali percobaan,
      tetapi tiga kali ia berhalusinasi tentang flag yang tidak ada
      ChatGPT 5.2 juga perlu beberapa kali revisi saat membuat script ffmpeg
      Mungkin hari ketika ia bisa menangani line ending di Windows dengan benar itulah AGI
    • Apakah ada program yang ditulis manusia yang sama sekali tidak akan bisa ditulis LLM?
      Alasan bahwa codebase terlalu besar hanyalah keterbatasan sementara
      Ini terdengar seperti keluhan dari orang-orang yang tidak menyukai kemajuan
  • Hasil Terminal Bench 2.0

    Model Skor
    OpenAI Codex 5.3 77.3
    Anthropic Opus 4.6 65.4
    • Sekarang persaingan benchmark (benchmaxxing) tampaknya makin tidak berarti
      Dibanding skor, ‘rasa’ dari pengalaman coding nyata jauh lebih penting
    • Dibanding benchmark, performa di dunia nyata jauh lebih mengecewakan
  • Saya penasaran apakah para developer merasa terancam oleh perubahan ini
    Sejujurnya saya merasa begitu

    • AI kurang punya kemampuan abstraksi
      Bagi competitive programmer mungkin ini ancaman, tetapi bagi developer biasa tidak terlalu
    • Jika belum belajar memanfaatkan AI dengan baik, wajar jika merasa terancam
    • Untuk saat ini manusia masih harus meninjau kode secara langsung
      Saya rasa otomatisasi penuh mustahil sebelum AGI hadir
    • Seperti paradoks Jevons, meski efisiensi meningkat, pekerjaan mungkin tidak akan hilang
  • Di sekitar saya, pengguna Claude jauh lebih banyak daripada Codex
    Tetapi Codex jauh lebih longgar dari sisi batas penggunaan dan paket harga
    Bahkan dipakai berbulan-bulan dengan paket $20 pun hampir tidak pernah menyentuh limit
    Rasanya perbedaan praktis seperti ini lebih penting daripada kualitas coding itu sendiri

    • Saya belakangan beralih ke agen terminal berbasis CLI dan Codex jauh lebih baik
      Dulu Claude terasa lebih bagus di GH Copilot,
      tetapi Codex punya otonomi lebih tinggi sehingga lebih cocok untuk vibe‑coding,
      dan basis penggunanya tampaknya membesar berkat efek promosi di Twitter, LinkedIn, dan lain-lain
    • Saya juga merasa keuntungan paket harga Codex lebih besar
      Jika tidak tahu perbedaan kualitasnya, tentu saya memilih yang lebih murah
    • Bahkan jika menjalankan sesi multi-agent sepanjang hari, saya hampir tidak pernah kena limit
      Pergantian paket juga fleksibel, jadi pengalaman penggunaan sangat memuaskan