Membangun Lebih Banyak dengan GPT‑5.1‑Codex‑Max
(openai.com)- GPT‑5.1‑Codex‑Max yang baru diperkenalkan OpenAI adalah model coding agentik terbaru yang dirancang untuk menangani tugas pengembangan jangka panjang dan kompleks, serta tersedia di lingkungan Codex
- Melalui teknik ‘compaction’ baru, model ini dapat bekerja lintas beberapa jendela konteks dan menangani proyek berskala jutaan token secara konsisten
- Efisiensi token ditingkatkan sehingga pada tingkat penalaran yang sama, model ini mencapai performa lebih baik dengan 30% lebih sedikit token, sehingga diharapkan dapat menekan biaya
- Dapat bekerja secara mandiri dalam waktu lama dan melakukan refactoring serta debugging yang berlangsung lebih dari 24 jam
- Dengan penguatan sandbox keamanan dan sistem pemantauan keamanan siber, model ini terus berkembang menjadi mitra coding AI yang aman
Pengenalan GPT‑5.1‑Codex‑Max
- GPT‑5.1‑Codex‑Max adalah model coding agentik baru dari OpenAI, versi pembaruan model berbasis penalaran yang telah dilatih pada berbagai tugas di bidang rekayasa perangkat lunak, matematika, riset, dan lainnya
- Langsung tersedia di Codex CLI, ekstensi IDE, cloud, dan lingkungan code review
- Akses API akan segera tersedia
- Model ini menghadirkan peningkatan pada kecepatan, kecerdasan, dan efisiensi token, sehingga dapat menjadi mitra coding yang lebih andal di seluruh siklus pengembangan
- Melalui proses Compaction, model ini dapat menangani pekerjaan berskala jutaan token secara konsisten sambil berpindah di antara beberapa jendela konteks
Performa coding frontier
- Dilatih dengan tugas rekayasa perangkat lunak nyata (pembuatan PR, code review, coding frontend, Q&A), model ini menunjukkan performa unggul di banyak evaluasi dibanding model sebelumnya
- Ini adalah model Codex pertama yang berjalan di lingkungan Windows, dan juga mencakup pekerjaan untuk meningkatkan kolaborasi di Codex CLI
- Selain peningkatan benchmark, perbaikan juga terlihat pada kegunaan di dunia nyata
Kecepatan dan efisiensi biaya
- Berdasarkan SWE‑bench Verified, pada tingkat penalaran yang sama, model ini mencapai performa lebih tinggi dengan 30% lebih sedikit token dibanding GPT‑5.1‑Codex
- Mode penalaran ‘xhigh’ memberikan peningkatan kualitas melalui waktu berpikir yang lebih panjang, sedangkan mode ‘medium’ direkomendasikan untuk pekerjaan umum
- Peningkatan efisiensi token diperkirakan akan berujung pada penghematan biaya bagi developer
- Contoh: GPT‑5.1‑Codex‑Max dapat menghasilkan desain frontend dengan fungsi dan estetika serupa dengan biaya yang jauh lebih rendah
Tugas berjalan jangka panjang
- Dengan fitur Compaction, model ini dapat menjalankan refactoring kompleks dan loop agen jangka panjang yang melampaui batas konteks
- Saat sesi mencapai batasnya, model akan secara otomatis melakukan compact untuk mempertahankan pekerjaan yang sedang berjalan sambil membuka konteks baru
- Dalam evaluasi internal, ditemukan kasus pekerjaan berkelanjutan selama lebih dari 24 jam
- Melalui perbaikan kegagalan tes dan implementasi berulang, hasil akhir berhasil dicapai
- Kemampuan menjaga konsistensi jangka panjang adalah fondasi utama menuju sistem AI yang umum dan andal
Membangun agen AI yang aman dan dapat dipercaya
- Pada evaluasi penalaran jangka panjang, performanya meningkat signifikan, memberikan hasil yang lebih baik pada tugas keamanan siber dan coding jangka panjang
- Menurut Cybersecurity Preparedness Framework, model ini belum mencapai tingkat ‘High’, tetapi memiliki performa keamanan siber terkuat di antara model yang telah dirilis sejauh ini
- Pemanfaatan defensif juga diperkuat melalui program Aardvark dan lainnya
- Dengan pemantauan khusus keamanan siber, upaya penyalahgunaan dideteksi dan diblokir, sementara aktivitas mencurigakan diteruskan ke sistem tinjauan kebijakan
- Secara default, Codex berjalan di dalam sandbox keamanan, dengan akses file dan penggunaan jaringan yang dibatasi
- Saat mengakses internet, terdapat risiko prompt injection
- Developer perlu meninjau pekerjaan agen sebelum deployment
- Codex mencatat log terminal, pemanggilan alat, dan hasil tes, serta berperan sebagai pendamping, bukan pengganti tinjauan manusia
- Karena kemampuan keamanan siber dapat digunakan baik untuk pertahanan maupun serangan, deployment bertahap dan penguatan langkah perlindungan dilakukan secara bersamaan
Ketersediaan dan deployment
- GPT‑5.1‑Codex‑Max tersedia di Codex untuk paket ChatGPT Plus, Pro, Business, Edu, Enterprise
- Juga akan segera tersedia bagi developer yang menggunakan Codex CLI dengan API key
- Mulai hari ini, GPT‑5.1‑Codex‑Max menggantikan GPT‑5.1‑Codex sebagai model default di Codex
- GPT‑5.1 adalah model serbaguna, sedangkan Codex‑Max direkomendasikan khusus untuk tugas coding agentik
Kesimpulan
- GPT‑5.1‑Codex‑Max merupakan lompatan besar dalam ketahanan tugas coding jangka panjang, pengelolaan workflow kompleks, dan implementasi berkualitas tinggi
- Dikombinasikan dengan peningkatan pada CLI, ekstensi IDE, integrasi cloud, dan alat code review, model ini menghasilkan peningkatan produktivitas engineering sebesar 70%
- 95% engineer internal OpenAI menggunakan Codex setiap minggu
- Seiring meluasnya kemampuan agen, kita memasuki tahap baru produktivitas pengembangan
Lampiran: hasil evaluasi model
- SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
- SWE‑Lancer IC SWE: 66.3% → 79.9%
- Terminal‑Bench 2.0: 52.8% → 58.1%
2 komentar
Codex, sampai jumpa di MS AOIA 😊
Komentar Hacker News
Belakangan ini aku banyak mencoba Claude dan Codex
Claude hampir mengabaikan instruksi (misalnya CLAUDE.md), sementara Codex mengikuti dengan sangat fanatik, seolah tak mau melewatkan satu huruf pun
Misalnya, jika ada typo di kode uji, Claude akan memperbaikinya sambil berpikir “ini jelas typo”, tetapi Codex bisa sampai menulis ulang mesin V8 dan merusak aritmetika demi menyesuaikan diri
Jadi menurutku Claude cocok untuk iterasi cepat, sedangkan Codex lebih cocok untuk pekerjaan jangka panjang yang menuntut akurasi
Aku cuma memberi instruksi sepanjang satu paragraf, dan dalam 45 menit itu hampir selesai sempurna. Saat kuminta laporan ringkasannya, ternyata semua instruksi benar-benar diikuti tanpa melewatkan satu huruf pun
Sikap seperti ini bagus bagi orang yang memperlakukannya sebagai kotak hitam, tetapi aku menginginkan rekan kolaborasi yang masuk akal
Ini tampaknya menunjukkan perbedaan cara OpenAI dan Anthropic memandang masa depan AI
Model GPT lemah dalam coding spontan, tetapi sangat unggul untuk tugas dengan persyaratan yang jelas
Baik di Python maupun TypeScript, terlalu banyak kode defensif seperti
.getattr()dantypeofKita jago melatih model, tapi buruk dalam memberi nama 😄
Versi baru ini mencapai SOTA dengan SWE-Bench-Verified 77.9%, SWE-Lancer 79.9%, dan 58.1% di TerminalBench 2.0
Ia bisa menangani pekerjaan jangka panjang dengan memadatkan beberapa context window, serta meningkatkan efisiensi token 30%
Ingin dengar pendapat orang-orang
Kalau “penghematan token”, rasanya harusnya lebih murah, tapi nama “Max” terdengar mahal
Dulu 5.1 memakai token terlalu banyak sehingga aku kembali ke 5.0
Aku melihat contoh agent, dan akan bagus kalau Codex CLI juga punya fitur seperti ini
Hari ini aku membandingkan GPT‑5.1‑Codex‑Max dan Gemini 3 Pro di CLI
Gemini sulit ditangani sebagai rekan kolaborasi. Saat kita bertanya, ia menebak maksud lalu langsung menulis kode lebih dulu
Sebaliknya, Codex langsung menjawab pertanyaan
Dari sisi kualitas kode, gaya Gemini lebih mudah dibaca manusia, tetapi dalam perencanaan dan akurasi implementasi, Codex jauh lebih unggul
Gemini punya masalah seperti halusinasi nama kolom DB, fitur yang hilang, dan kurangnya integrasi
Secara keseluruhan, Codex jelas pemenangnya
Lihat dokumentasi resmi
OpenAI sering merilis modelnya tepat sebelum pengumuman pesaing
GPT‑4o juga diumumkan sehari sebelum Google I/O. Codex kali ini kemungkinan besar juga hanya pembaruan bertahap
Jika melihat contoh rendering SVG,
tingkat medium terasa seimbang dan menunjukkan perbedaan gaya yang disengaja dibanding high/low
Perbandingan seperti ini membantu memahami konsistensi kreatif model
Andai saja tiap perusahaan memakai 1% dari usaha pelatihan model mereka untuk memperbaiki pengalaman pembayaran dan login
Claude nyaris tidak punya sistem login yang layak, OpenAI perlu memperbaiki bug Codex CLI (#2798), dan Google punya struktur produk serta pembayaran yang terlalu rumit. Semua itu harus disatukan dalam satu halaman harga
Bahkan akun Workspace pun tidak aman. Syarat layanan harus dibaca dengan cermat
Saat ini OpenAI terasa memberikan pengalaman pelanggan yang jauh lebih tepercaya
Ada juga kontroversi terkait di issue #12121
Kalimat “langkah baru untuk menjadi partner coding yang bisa dipercaya” dan “model yang dioptimalkan untuk pekerjaan jangka panjang” terdengar seperti kontradiksi
Kalau benar partner, seharusnya bekerja bersama dalam iterasi singkat, bukan bekerja lama sendirian
Arah itu bisa dilihat dari grafik token di blog resmi
Aku terkesan dengan kecepatan mode plan di Codex. Kualitas kodenya juga lumayan
Tapi saat kubilang “jalankan
npm run buildlalu perbaiki semua masalah”, ia malah mengamuk dengan memasang paket terkait eslintClaude Code menyelesaikan tugas yang sama dalam waktu kurang dari 1 menit. Codex tampaknya masih belum stabil
Codex kuat untuk pekerjaan backend atau yang berpusat pada data, tetapi untuk tugas UI sederhana, ia cenderung menghasilkan hal yang aneh
Akhir pekan lalu aku memakai Claude dan Codex bersama-sama, dan Codex memberi hasil yang jauh lebih baik pada kode fisika/grafik TypeScript
Dari ribuan baris, hanya beberapa ratus baris yang benar-benar kutulis sendiri.
Sekarang aku berencana menyuruh Codex yang baru untuk mereview pekerjaan Codex sebelumnya