Membangun Lebih Banyak dengan GPT‑5.1‑Codex‑Max

(openai.com)

5 poin oleh GN⁺ 2025-11-20 | 2 komentar | Bagikan ke WhatsApp

GPT‑5.1‑Codex‑Max yang baru diperkenalkan OpenAI adalah model coding agentik terbaru yang dirancang untuk menangani tugas pengembangan jangka panjang dan kompleks, serta tersedia di lingkungan Codex
Melalui teknik ‘compaction’ baru, model ini dapat bekerja lintas beberapa jendela konteks dan menangani proyek berskala jutaan token secara konsisten
Efisiensi token ditingkatkan sehingga pada tingkat penalaran yang sama, model ini mencapai performa lebih baik dengan 30% lebih sedikit token, sehingga diharapkan dapat menekan biaya
Dapat bekerja secara mandiri dalam waktu lama dan melakukan refactoring serta debugging yang berlangsung lebih dari 24 jam
Dengan penguatan sandbox keamanan dan sistem pemantauan keamanan siber, model ini terus berkembang menjadi mitra coding AI yang aman

Pengenalan GPT‑5.1‑Codex‑Max

GPT‑5.1‑Codex‑Max adalah model coding agentik baru dari OpenAI, versi pembaruan model berbasis penalaran yang telah dilatih pada berbagai tugas di bidang rekayasa perangkat lunak, matematika, riset, dan lainnya
- Langsung tersedia di Codex CLI, ekstensi IDE, cloud, dan lingkungan code review
- Akses API akan segera tersedia
Model ini menghadirkan peningkatan pada kecepatan, kecerdasan, dan efisiensi token, sehingga dapat menjadi mitra coding yang lebih andal di seluruh siklus pengembangan
Melalui proses Compaction, model ini dapat menangani pekerjaan berskala jutaan token secara konsisten sambil berpindah di antara beberapa jendela konteks

Performa coding frontier

Dilatih dengan tugas rekayasa perangkat lunak nyata (pembuatan PR, code review, coding frontend, Q&A), model ini menunjukkan performa unggul di banyak evaluasi dibanding model sebelumnya
Ini adalah model Codex pertama yang berjalan di lingkungan Windows, dan juga mencakup pekerjaan untuk meningkatkan kolaborasi di Codex CLI
Selain peningkatan benchmark, perbaikan juga terlihat pada kegunaan di dunia nyata

Kecepatan dan efisiensi biaya

Berdasarkan SWE‑bench Verified, pada tingkat penalaran yang sama, model ini mencapai performa lebih tinggi dengan 30% lebih sedikit token dibanding GPT‑5.1‑Codex
Mode penalaran ‘xhigh’ memberikan peningkatan kualitas melalui waktu berpikir yang lebih panjang, sedangkan mode ‘medium’ direkomendasikan untuk pekerjaan umum
Peningkatan efisiensi token diperkirakan akan berujung pada penghematan biaya bagi developer
- Contoh: GPT‑5.1‑Codex‑Max dapat menghasilkan desain frontend dengan fungsi dan estetika serupa dengan biaya yang jauh lebih rendah

Tugas berjalan jangka panjang

Dengan fitur Compaction, model ini dapat menjalankan refactoring kompleks dan loop agen jangka panjang yang melampaui batas konteks
- Saat sesi mencapai batasnya, model akan secara otomatis melakukan compact untuk mempertahankan pekerjaan yang sedang berjalan sambil membuka konteks baru
Dalam evaluasi internal, ditemukan kasus pekerjaan berkelanjutan selama lebih dari 24 jam
- Melalui perbaikan kegagalan tes dan implementasi berulang, hasil akhir berhasil dicapai
Kemampuan menjaga konsistensi jangka panjang adalah fondasi utama menuju sistem AI yang umum dan andal

Membangun agen AI yang aman dan dapat dipercaya

Pada evaluasi penalaran jangka panjang, performanya meningkat signifikan, memberikan hasil yang lebih baik pada tugas keamanan siber dan coding jangka panjang
Menurut Cybersecurity Preparedness Framework, model ini belum mencapai tingkat ‘High’, tetapi memiliki performa keamanan siber terkuat di antara model yang telah dirilis sejauh ini
- Pemanfaatan defensif juga diperkuat melalui program Aardvark dan lainnya
Dengan pemantauan khusus keamanan siber, upaya penyalahgunaan dideteksi dan diblokir, sementara aktivitas mencurigakan diteruskan ke sistem tinjauan kebijakan
Secara default, Codex berjalan di dalam sandbox keamanan, dengan akses file dan penggunaan jaringan yang dibatasi
- Saat mengakses internet, terdapat risiko prompt injection
Developer perlu meninjau pekerjaan agen sebelum deployment
- Codex mencatat log terminal, pemanggilan alat, dan hasil tes, serta berperan sebagai pendamping, bukan pengganti tinjauan manusia
Karena kemampuan keamanan siber dapat digunakan baik untuk pertahanan maupun serangan, deployment bertahap dan penguatan langkah perlindungan dilakukan secara bersamaan

Ketersediaan dan deployment

GPT‑5.1‑Codex‑Max tersedia di Codex untuk paket ChatGPT Plus, Pro, Business, Edu, Enterprise
Juga akan segera tersedia bagi developer yang menggunakan Codex CLI dengan API key
Mulai hari ini, GPT‑5.1‑Codex‑Max menggantikan GPT‑5.1‑Codex sebagai model default di Codex
- GPT‑5.1 adalah model serbaguna, sedangkan Codex‑Max direkomendasikan khusus untuk tugas coding agentik

Kesimpulan

GPT‑5.1‑Codex‑Max merupakan lompatan besar dalam ketahanan tugas coding jangka panjang, pengelolaan workflow kompleks, dan implementasi berkualitas tinggi
Dikombinasikan dengan peningkatan pada CLI, ekstensi IDE, integrasi cloud, dan alat code review, model ini menghasilkan peningkatan produktivitas engineering sebesar 70%
- 95% engineer internal OpenAI menggunakan Codex setiap minggu
Seiring meluasnya kemampuan agen, kita memasuki tahap baru produktivitas pengembangan

Lampiran: hasil evaluasi model

SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
SWE‑Lancer IC SWE: 66.3% → 79.9%
Terminal‑Bench 2.0: 52.8% → 58.1%

2 komentar

kaydash 2025-11-27

Codex, sampai jumpa di MS AOIA 😊

GN⁺ 2025-11-20

Komentar Hacker News

Belakangan ini aku banyak mencoba Claude dan Codex
Claude hampir mengabaikan instruksi (misalnya CLAUDE.md), sementara Codex mengikuti dengan sangat fanatik, seolah tak mau melewatkan satu huruf pun
Misalnya, jika ada typo di kode uji, Claude akan memperbaikinya sambil berpikir “ini jelas typo”, tetapi Codex bisa sampai menulis ulang mesin V8 dan merusak aritmetika demi menyesuaikan diri
Jadi menurutku Claude cocok untuk iterasi cepat, sedangkan Codex lebih cocok untuk pekerjaan jangka panjang yang menuntut akurasi
- Aku juga sangat terkesan dengan Codex. Dalam proyek simulator penerbangan yang sudah berjalan 6 bulan, aku harus mengubah sistem koordinat ke ECEF, yang berarti seluruh mesin fisika dan sistem grafis harus ditulis ulang
  Aku cuma memberi instruksi sepanjang satu paragraf, dan dalam 45 menit itu hampir selesai sempurna. Saat kuminta laporan ringkasannya, ternyata semua instruksi benar-benar diikuti tanpa melewatkan satu huruf pun
- Seorang teman selalu menyuruh Claude memanggilnya “Mr Tinkleberry”, dan katanya setiap kali Claude lupa, itu bisa dipakai untuk mendeteksi apakah instruksi diabaikan
- Codex bertindak seperti “programmer terakhir di Bumi”. Apa pun yang terjadi, ia akan berusaha menyelesaikan tujuan
  Sikap seperti ini bagus bagi orang yang memperlakukannya sebagai kotak hitam, tetapi aku menginginkan rekan kolaborasi yang masuk akal
  Ini tampaknya menunjukkan perbedaan cara OpenAI dan Anthropic memandang masa depan AI
- Analogi “memperbaiki tes 1+1===3” benar-benar brilian. Dengan satu kalimat ini saja, kita bisa menjelaskan perbedaan mendasar antara keluarga GPT dan keluarga Claude
  Model GPT lemah dalam coding spontan, tetapi sangat unggul untuk tugas dengan persyaratan yang jelas
- Aku frustrasi karena Codex sama sekali tidak bisa menghapus kode, dan selalu memperbesar codebase secara tidak perlu
  Baik di Python maupun TypeScript, terlalu banyak kode defensif seperti .getattr() dan typeof
Kita jago melatih model, tapi buruk dalam memberi nama 😄
Versi baru ini mencapai SOTA dengan SWE-Bench-Verified 77.9%, SWE-Lancer 79.9%, dan 58.1% di TerminalBench 2.0
Ia bisa menangani pekerjaan jangka panjang dengan memadatkan beberapa context window, serta meningkatkan efisiensi token 30%
Ingin dengar pendapat orang-orang
- Saat ini aku memakai GPT‑5.1‑Codex‑High, dan penasaran bagaimana perbedaan biaya dan batas kredit untuk versi Max
  Kalau “penghematan token”, rasanya harusnya lebih murah, tapi nama “Max” terdengar mahal
- Codex adalah produk hebat, jadi upgrade bertahap pun tetap disambut baik. Aku akan segera mencobanya
- Aku penasaran apakah issue #6426 sudah diperbaiki.
  Dulu 5.1 memakai token terlalu banyak sehingga aku kembali ke 5.0
- Akan bagus kalau model ini juga bisa dipakai di antarmuka Chat
- Aku suka fitur subagent di Claude Code. Ini berguna untuk mengelola konteks dalam codebase yang kompleks
  Aku melihat contoh agent, dan akan bagus kalau Codex CLI juga punya fitur seperti ini
Hari ini aku membandingkan GPT‑5.1‑Codex‑Max dan Gemini 3 Pro di CLI
Gemini sulit ditangani sebagai rekan kolaborasi. Saat kita bertanya, ia menebak maksud lalu langsung menulis kode lebih dulu
Sebaliknya, Codex langsung menjawab pertanyaan
Dari sisi kualitas kode, gaya Gemini lebih mudah dibaca manusia, tetapi dalam perencanaan dan akurasi implementasi, Codex jauh lebih unggul
Gemini punya masalah seperti halusinasi nama kolom DB, fitur yang hilang, dan kurangnya integrasi
Secara keseluruhan, Codex jelas pemenangnya
- Google membanggakan Gemini 3 sebagai yang terbaik di semua benchmark, tetapi ini menunjukkan bahwa kenyataannya tidak begitu
- Saat memakai Gemini, pengaturan temperature harus dibiarkan pada default 1.0. Jika diturunkan, bisa muncul loop atau penurunan performa
  Lihat dokumentasi resmi
- Aku juga sudah bilang ke Gemini “jangan tulis kode”, tapi dia tetap menulis ulang kode terus
OpenAI sering merilis modelnya tepat sebelum pengumuman pesaing
GPT‑4o juga diumumkan sehari sebelum Google I/O. Codex kali ini kemungkinan besar juga hanya pembaruan bertahap
- GPT‑5.1 / Codex sudah unggul di benchmark dibanding Gemini 3, dan pembaruan kali ini makin melebarkan jaraknya
- Anthropic juga merilis Opus 4.1 bertepatan dengan waktu peluncuran GPT‑5. Sekarang persaingannya makin ketat
- Berkat persaingan seperti ini, perkembangan jadi makin cepat. Kita patut berterima kasih atas persaingan yang sehat
- Gemini sedang menggerus pasar, dan OpenAI juga tahu itu
- Persaingan soal timing pengumuman seperti ini sekarang sudah terasa biasa
Jika melihat contoh rendering SVG,
tingkat medium terasa seimbang dan menunjukkan perbedaan gaya yang disengaja dibanding high/low
Perbandingan seperti ini membantu memahami konsistensi kreatif model
- Tapi benchmark output SVG seperti ini rasanya sekarang makin kurang bermakna. Bisa jadi itu hasil pelatihan khusus lewat RLHF
Andai saja tiap perusahaan memakai 1% dari usaha pelatihan model mereka untuk memperbaiki pengalaman pembayaran dan login
Claude nyaris tidak punya sistem login yang layak, OpenAI perlu memperbaiki bug Codex CLI (#2798), dan Google punya struktur produk serta pembayaran yang terlalu rumit. Semua itu harus disatukan dalam satu halaman harga
- Aku juga menyerah karena sistem pembayaran Google. Aku bahkan tidak paham apa itu Google Payments, dan akun perusahaan berusia 18 tahun milikku dibekukan karena error verifikasi akun
- Lini produk Google berantakan. Vertex AI, AI Studio, Maker Studio, Gemini, dan lainnya punya dokumentasi yang tumpang tindih dan tidak jelas
- Opsi opt-out pelatihan data untuk Gemini menghilang, dan tidak jelas akun mana yang masuk ke pelatihan
  Bahkan akun Workspace pun tidak aman. Syarat layanan harus dibaca dengan cermat
  Saat ini OpenAI terasa memberikan pengalaman pelanggan yang jauh lebih tepercaya
- Ada kecurigaan bahwa Gemini 3 Pro di-post-train memakai data yang tidak diizinkan
  Ada juga kontroversi terkait di issue #12121
- Claude merepotkan saat login karena tidak ada opsi kata sandi atau passkey
Kalimat “langkah baru untuk menjadi partner coding yang bisa dipercaya” dan “model yang dioptimalkan untuk pekerjaan jangka panjang” terdengar seperti kontradiksi
Kalau benar partner, seharusnya bekerja bersama dalam iterasi singkat, bukan bekerja lama sendirian
- Dalam pekerjaan jangka panjang, Codex terlalu otoriter, sampai mengambil pendekatan berisiko seperti menulis ulang pustaka TLS
- (anggota tim Codex) Kami menargetkan model rekan kerja yang bisa menangani baik iterasi singkat maupun tugas delegasi jangka panjang
  Arah itu bisa dilihat dari grafik token di blog resmi
- Model Composer milik Cursor juga direkomendasikan. Sangat cepat, dan kalau hasilnya kurang, bisa dicoba lagi dalam 30 detik
Aku terkesan dengan kecepatan mode plan di Codex. Kualitas kodenya juga lumayan
Tapi saat kubilang “jalankan npm run build lalu perbaiki semua masalah”, ia malah mengamuk dengan memasang paket terkait eslint
Claude Code menyelesaikan tugas yang sama dalam waktu kurang dari 1 menit. Codex tampaknya masih belum stabil
- Aku penasaran apa itu mode plan
Codex kuat untuk pekerjaan backend atau yang berpusat pada data, tetapi untuk tugas UI sederhana, ia cenderung menghasilkan hal yang aneh
Akhir pekan lalu aku memakai Claude dan Codex bersama-sama, dan Codex memberi hasil yang jauh lebih baik pada kode fisika/grafik TypeScript
Dari ribuan baris, hanya beberapa ratus baris yang benar-benar kutulis sendiri.
Sekarang aku berencana menyuruh Codex yang baru untuk mereview pekerjaan Codex sebelumnya

Membangun Lebih Banyak dengan GPT‑5.1‑Codex‑Max

Pengenalan GPT‑5.1‑Codex‑Max

Performa coding frontier

Kecepatan dan efisiensi biaya

Tugas berjalan jangka panjang

Membangun agen AI yang aman dan dapat dipercaya

Ketersediaan dan deployment

Kesimpulan

Lampiran: hasil evaluasi model

Bacaan terkait

2 komentar

Komentar Hacker News