5 poin oleh GN⁺ 2025-11-20 | 2 komentar | Bagikan ke WhatsApp
  • GPT‑5.1‑Codex‑Max yang baru diperkenalkan OpenAI adalah model coding agentik terbaru yang dirancang untuk menangani tugas pengembangan jangka panjang dan kompleks, serta tersedia di lingkungan Codex
  • Melalui teknik ‘compaction’ baru, model ini dapat bekerja lintas beberapa jendela konteks dan menangani proyek berskala jutaan token secara konsisten
  • Efisiensi token ditingkatkan sehingga pada tingkat penalaran yang sama, model ini mencapai performa lebih baik dengan 30% lebih sedikit token, sehingga diharapkan dapat menekan biaya
  • Dapat bekerja secara mandiri dalam waktu lama dan melakukan refactoring serta debugging yang berlangsung lebih dari 24 jam
  • Dengan penguatan sandbox keamanan dan sistem pemantauan keamanan siber, model ini terus berkembang menjadi mitra coding AI yang aman

Pengenalan GPT‑5.1‑Codex‑Max

  • GPT‑5.1‑Codex‑Max adalah model coding agentik baru dari OpenAI, versi pembaruan model berbasis penalaran yang telah dilatih pada berbagai tugas di bidang rekayasa perangkat lunak, matematika, riset, dan lainnya
    • Langsung tersedia di Codex CLI, ekstensi IDE, cloud, dan lingkungan code review
    • Akses API akan segera tersedia
  • Model ini menghadirkan peningkatan pada kecepatan, kecerdasan, dan efisiensi token, sehingga dapat menjadi mitra coding yang lebih andal di seluruh siklus pengembangan
  • Melalui proses Compaction, model ini dapat menangani pekerjaan berskala jutaan token secara konsisten sambil berpindah di antara beberapa jendela konteks

Performa coding frontier

  • Dilatih dengan tugas rekayasa perangkat lunak nyata (pembuatan PR, code review, coding frontend, Q&A), model ini menunjukkan performa unggul di banyak evaluasi dibanding model sebelumnya
  • Ini adalah model Codex pertama yang berjalan di lingkungan Windows, dan juga mencakup pekerjaan untuk meningkatkan kolaborasi di Codex CLI
  • Selain peningkatan benchmark, perbaikan juga terlihat pada kegunaan di dunia nyata

Kecepatan dan efisiensi biaya

  • Berdasarkan SWE‑bench Verified, pada tingkat penalaran yang sama, model ini mencapai performa lebih tinggi dengan 30% lebih sedikit token dibanding GPT‑5.1‑Codex
  • Mode penalaran ‘xhigh’ memberikan peningkatan kualitas melalui waktu berpikir yang lebih panjang, sedangkan mode ‘medium’ direkomendasikan untuk pekerjaan umum
  • Peningkatan efisiensi token diperkirakan akan berujung pada penghematan biaya bagi developer
    • Contoh: GPT‑5.1‑Codex‑Max dapat menghasilkan desain frontend dengan fungsi dan estetika serupa dengan biaya yang jauh lebih rendah
    Iklan

Tugas berjalan jangka panjang

  • Dengan fitur Compaction, model ini dapat menjalankan refactoring kompleks dan loop agen jangka panjang yang melampaui batas konteks
    • Saat sesi mencapai batasnya, model akan secara otomatis melakukan compact untuk mempertahankan pekerjaan yang sedang berjalan sambil membuka konteks baru
  • Dalam evaluasi internal, ditemukan kasus pekerjaan berkelanjutan selama lebih dari 24 jam
    • Melalui perbaikan kegagalan tes dan implementasi berulang, hasil akhir berhasil dicapai
  • Kemampuan menjaga konsistensi jangka panjang adalah fondasi utama menuju sistem AI yang umum dan andal
Iklan

Membangun agen AI yang aman dan dapat dipercaya

  • Pada evaluasi penalaran jangka panjang, performanya meningkat signifikan, memberikan hasil yang lebih baik pada tugas keamanan siber dan coding jangka panjang
  • Menurut Cybersecurity Preparedness Framework, model ini belum mencapai tingkat ‘High’, tetapi memiliki performa keamanan siber terkuat di antara model yang telah dirilis sejauh ini
    • Pemanfaatan defensif juga diperkuat melalui program Aardvark dan lainnya
  • Dengan pemantauan khusus keamanan siber, upaya penyalahgunaan dideteksi dan diblokir, sementara aktivitas mencurigakan diteruskan ke sistem tinjauan kebijakan
  • Secara default, Codex berjalan di dalam sandbox keamanan, dengan akses file dan penggunaan jaringan yang dibatasi
    • Saat mengakses internet, terdapat risiko prompt injection
  • Developer perlu meninjau pekerjaan agen sebelum deployment
    • Codex mencatat log terminal, pemanggilan alat, dan hasil tes, serta berperan sebagai pendamping, bukan pengganti tinjauan manusia
  • Karena kemampuan keamanan siber dapat digunakan baik untuk pertahanan maupun serangan, deployment bertahap dan penguatan langkah perlindungan dilakukan secara bersamaan

Ketersediaan dan deployment

  • GPT‑5.1‑Codex‑Max tersedia di Codex untuk paket ChatGPT Plus, Pro, Business, Edu, Enterprise
  • Juga akan segera tersedia bagi developer yang menggunakan Codex CLI dengan API key
  • Mulai hari ini, GPT‑5.1‑Codex‑Max menggantikan GPT‑5.1‑Codex sebagai model default di Codex
    • GPT‑5.1 adalah model serbaguna, sedangkan Codex‑Max direkomendasikan khusus untuk tugas coding agentik
    Iklan

Kesimpulan

  • GPT‑5.1‑Codex‑Max merupakan lompatan besar dalam ketahanan tugas coding jangka panjang, pengelolaan workflow kompleks, dan implementasi berkualitas tinggi
  • Dikombinasikan dengan peningkatan pada CLI, ekstensi IDE, integrasi cloud, dan alat code review, model ini menghasilkan peningkatan produktivitas engineering sebesar 70%
    • 95% engineer internal OpenAI menggunakan Codex setiap minggu
  • Seiring meluasnya kemampuan agen, kita memasuki tahap baru produktivitas pengembangan

Lampiran: hasil evaluasi model

  • SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
  • SWE‑Lancer IC SWE: 66.3% → 79.9%
  • Terminal‑Bench 2.0: 52.8% → 58.1%

2 komentar

 
kaydash 2025-11-27

Codex, sampai jumpa di MS AOIA 😊

 
GN⁺ 2025-11-20
Komentar Hacker News
  • Belakangan ini aku banyak mencoba Claude dan Codex
    Claude hampir mengabaikan instruksi (misalnya CLAUDE.md), sementara Codex mengikuti dengan sangat fanatik, seolah tak mau melewatkan satu huruf pun
    Misalnya, jika ada typo di kode uji, Claude akan memperbaikinya sambil berpikir “ini jelas typo”, tetapi Codex bisa sampai menulis ulang mesin V8 dan merusak aritmetika demi menyesuaikan diri
    Jadi menurutku Claude cocok untuk iterasi cepat, sedangkan Codex lebih cocok untuk pekerjaan jangka panjang yang menuntut akurasi

    • Aku juga sangat terkesan dengan Codex. Dalam proyek simulator penerbangan yang sudah berjalan 6 bulan, aku harus mengubah sistem koordinat ke ECEF, yang berarti seluruh mesin fisika dan sistem grafis harus ditulis ulang
      Aku cuma memberi instruksi sepanjang satu paragraf, dan dalam 45 menit itu hampir selesai sempurna. Saat kuminta laporan ringkasannya, ternyata semua instruksi benar-benar diikuti tanpa melewatkan satu huruf pun
    • Seorang teman selalu menyuruh Claude memanggilnya “Mr Tinkleberry”, dan katanya setiap kali Claude lupa, itu bisa dipakai untuk mendeteksi apakah instruksi diabaikan
    • Codex bertindak seperti “programmer terakhir di Bumi”. Apa pun yang terjadi, ia akan berusaha menyelesaikan tujuan
      Sikap seperti ini bagus bagi orang yang memperlakukannya sebagai kotak hitam, tetapi aku menginginkan rekan kolaborasi yang masuk akal
      Ini tampaknya menunjukkan perbedaan cara OpenAI dan Anthropic memandang masa depan AI
    • Analogi “memperbaiki tes 1+1===3” benar-benar brilian. Dengan satu kalimat ini saja, kita bisa menjelaskan perbedaan mendasar antara keluarga GPT dan keluarga Claude
      Model GPT lemah dalam coding spontan, tetapi sangat unggul untuk tugas dengan persyaratan yang jelas
    • Aku frustrasi karena Codex sama sekali tidak bisa menghapus kode, dan selalu memperbesar codebase secara tidak perlu
      Baik di Python maupun TypeScript, terlalu banyak kode defensif seperti .getattr() dan typeof
  • Kita jago melatih model, tapi buruk dalam memberi nama 😄
    Versi baru ini mencapai SOTA dengan SWE-Bench-Verified 77.9%, SWE-Lancer 79.9%, dan 58.1% di TerminalBench 2.0
    Ia bisa menangani pekerjaan jangka panjang dengan memadatkan beberapa context window, serta meningkatkan efisiensi token 30%
    Ingin dengar pendapat orang-orang

    • Saat ini aku memakai GPT‑5.1‑Codex‑High, dan penasaran bagaimana perbedaan biaya dan batas kredit untuk versi Max
      Kalau “penghematan token”, rasanya harusnya lebih murah, tapi nama “Max” terdengar mahal
    • Codex adalah produk hebat, jadi upgrade bertahap pun tetap disambut baik. Aku akan segera mencobanya
    • Aku penasaran apakah issue #6426 sudah diperbaiki.
      Dulu 5.1 memakai token terlalu banyak sehingga aku kembali ke 5.0
    • Akan bagus kalau model ini juga bisa dipakai di antarmuka Chat
    • Aku suka fitur subagent di Claude Code. Ini berguna untuk mengelola konteks dalam codebase yang kompleks
      Aku melihat contoh agent, dan akan bagus kalau Codex CLI juga punya fitur seperti ini
  • Hari ini aku membandingkan GPT‑5.1‑Codex‑Max dan Gemini 3 Pro di CLI
    Gemini sulit ditangani sebagai rekan kolaborasi. Saat kita bertanya, ia menebak maksud lalu langsung menulis kode lebih dulu
    Sebaliknya, Codex langsung menjawab pertanyaan
    Dari sisi kualitas kode, gaya Gemini lebih mudah dibaca manusia, tetapi dalam perencanaan dan akurasi implementasi, Codex jauh lebih unggul
    Gemini punya masalah seperti halusinasi nama kolom DB, fitur yang hilang, dan kurangnya integrasi
    Secara keseluruhan, Codex jelas pemenangnya

    • Google membanggakan Gemini 3 sebagai yang terbaik di semua benchmark, tetapi ini menunjukkan bahwa kenyataannya tidak begitu
    • Saat memakai Gemini, pengaturan temperature harus dibiarkan pada default 1.0. Jika diturunkan, bisa muncul loop atau penurunan performa
      Lihat dokumentasi resmi
    • Aku juga sudah bilang ke Gemini “jangan tulis kode”, tapi dia tetap menulis ulang kode terus
  • OpenAI sering merilis modelnya tepat sebelum pengumuman pesaing
    GPT‑4o juga diumumkan sehari sebelum Google I/O. Codex kali ini kemungkinan besar juga hanya pembaruan bertahap

    • GPT‑5.1 / Codex sudah unggul di benchmark dibanding Gemini 3, dan pembaruan kali ini makin melebarkan jaraknya
    • Anthropic juga merilis Opus 4.1 bertepatan dengan waktu peluncuran GPT‑5. Sekarang persaingannya makin ketat
    • Berkat persaingan seperti ini, perkembangan jadi makin cepat. Kita patut berterima kasih atas persaingan yang sehat
    • Gemini sedang menggerus pasar, dan OpenAI juga tahu itu
    • Persaingan soal timing pengumuman seperti ini sekarang sudah terasa biasa
  • Jika melihat contoh rendering SVG,
    tingkat medium terasa seimbang dan menunjukkan perbedaan gaya yang disengaja dibanding high/low
    Perbandingan seperti ini membantu memahami konsistensi kreatif model

    • Tapi benchmark output SVG seperti ini rasanya sekarang makin kurang bermakna. Bisa jadi itu hasil pelatihan khusus lewat RLHF
  • Andai saja tiap perusahaan memakai 1% dari usaha pelatihan model mereka untuk memperbaiki pengalaman pembayaran dan login
    Claude nyaris tidak punya sistem login yang layak, OpenAI perlu memperbaiki bug Codex CLI (#2798), dan Google punya struktur produk serta pembayaran yang terlalu rumit. Semua itu harus disatukan dalam satu halaman harga

    • Aku juga menyerah karena sistem pembayaran Google. Aku bahkan tidak paham apa itu Google Payments, dan akun perusahaan berusia 18 tahun milikku dibekukan karena error verifikasi akun
    • Lini produk Google berantakan. Vertex AI, AI Studio, Maker Studio, Gemini, dan lainnya punya dokumentasi yang tumpang tindih dan tidak jelas
    • Opsi opt-out pelatihan data untuk Gemini menghilang, dan tidak jelas akun mana yang masuk ke pelatihan
      Bahkan akun Workspace pun tidak aman. Syarat layanan harus dibaca dengan cermat
      Saat ini OpenAI terasa memberikan pengalaman pelanggan yang jauh lebih tepercaya
    • Ada kecurigaan bahwa Gemini 3 Pro di-post-train memakai data yang tidak diizinkan
      Ada juga kontroversi terkait di issue #12121
    • Claude merepotkan saat login karena tidak ada opsi kata sandi atau passkey
  • Kalimat “langkah baru untuk menjadi partner coding yang bisa dipercaya” dan “model yang dioptimalkan untuk pekerjaan jangka panjang” terdengar seperti kontradiksi
    Kalau benar partner, seharusnya bekerja bersama dalam iterasi singkat, bukan bekerja lama sendirian

    • Dalam pekerjaan jangka panjang, Codex terlalu otoriter, sampai mengambil pendekatan berisiko seperti menulis ulang pustaka TLS
    • (anggota tim Codex) Kami menargetkan model rekan kerja yang bisa menangani baik iterasi singkat maupun tugas delegasi jangka panjang
      Arah itu bisa dilihat dari grafik token di blog resmi
    • Model Composer milik Cursor juga direkomendasikan. Sangat cepat, dan kalau hasilnya kurang, bisa dicoba lagi dalam 30 detik
  • Aku terkesan dengan kecepatan mode plan di Codex. Kualitas kodenya juga lumayan
    Tapi saat kubilang “jalankan npm run build lalu perbaiki semua masalah”, ia malah mengamuk dengan memasang paket terkait eslint
    Claude Code menyelesaikan tugas yang sama dalam waktu kurang dari 1 menit. Codex tampaknya masih belum stabil

    • Aku penasaran apa itu mode plan
  • Codex kuat untuk pekerjaan backend atau yang berpusat pada data, tetapi untuk tugas UI sederhana, ia cenderung menghasilkan hal yang aneh

  • Akhir pekan lalu aku memakai Claude dan Codex bersama-sama, dan Codex memberi hasil yang jauh lebih baik pada kode fisika/grafik TypeScript
    Dari ribuan baris, hanya beberapa ratus baris yang benar-benar kutulis sendiri.
    Sekarang aku berencana menyuruh Codex yang baru untuk mereview pekerjaan Codex sebelumnya