- GPT‑5.1‑Codex‑Max yang baru diperkenalkan OpenAI adalah model coding agentik terbaru yang dirancang untuk menangani tugas pengembangan jangka panjang dan kompleks, serta tersedia di lingkungan Codex
- Melalui teknik ‘compaction’ baru, model ini dapat bekerja lintas beberapa jendela konteks dan menangani proyek berskala jutaan token secara konsisten
- Efisiensi token ditingkatkan sehingga pada tingkat penalaran yang sama, model ini mencapai performa lebih baik dengan 30% lebih sedikit token, sehingga diharapkan dapat menekan biaya
- Dapat bekerja secara mandiri dalam waktu lama dan melakukan refactoring serta debugging yang berlangsung lebih dari 24 jam
- Dengan penguatan sandbox keamanan dan sistem pemantauan keamanan siber, model ini terus berkembang menjadi mitra coding AI yang aman
Pengenalan GPT‑5.1‑Codex‑Max
- GPT‑5.1‑Codex‑Max adalah model coding agentik baru dari OpenAI, versi pembaruan model berbasis penalaran yang telah dilatih pada berbagai tugas di bidang rekayasa perangkat lunak, matematika, riset, dan lainnya
- Langsung tersedia di Codex CLI, ekstensi IDE, cloud, dan lingkungan code review
- Akses API akan segera tersedia
- Model ini menghadirkan peningkatan pada kecepatan, kecerdasan, dan efisiensi token, sehingga dapat menjadi mitra coding yang lebih andal di seluruh siklus pengembangan
- Melalui proses Compaction, model ini dapat menangani pekerjaan berskala jutaan token secara konsisten sambil berpindah di antara beberapa jendela konteks
Performa coding frontier
- Dilatih dengan tugas rekayasa perangkat lunak nyata (pembuatan PR, code review, coding frontend, Q&A), model ini menunjukkan performa unggul di banyak evaluasi dibanding model sebelumnya
- Ini adalah model Codex pertama yang berjalan di lingkungan Windows, dan juga mencakup pekerjaan untuk meningkatkan kolaborasi di Codex CLI
- Selain peningkatan benchmark, perbaikan juga terlihat pada kegunaan di dunia nyata
Kecepatan dan efisiensi biaya
- Berdasarkan SWE‑bench Verified, pada tingkat penalaran yang sama, model ini mencapai performa lebih tinggi dengan 30% lebih sedikit token dibanding GPT‑5.1‑Codex
- Mode penalaran ‘xhigh’ memberikan peningkatan kualitas melalui waktu berpikir yang lebih panjang, sedangkan mode ‘medium’ direkomendasikan untuk pekerjaan umum
- Peningkatan efisiensi token diperkirakan akan berujung pada penghematan biaya bagi developer
- Contoh: GPT‑5.1‑Codex‑Max dapat menghasilkan desain frontend dengan fungsi dan estetika serupa dengan biaya yang jauh lebih rendah
Tugas berjalan jangka panjang
- Dengan fitur Compaction, model ini dapat menjalankan refactoring kompleks dan loop agen jangka panjang yang melampaui batas konteks
- Saat sesi mencapai batasnya, model akan secara otomatis melakukan compact untuk mempertahankan pekerjaan yang sedang berjalan sambil membuka konteks baru
- Dalam evaluasi internal, ditemukan kasus pekerjaan berkelanjutan selama lebih dari 24 jam
- Melalui perbaikan kegagalan tes dan implementasi berulang, hasil akhir berhasil dicapai
- Kemampuan menjaga konsistensi jangka panjang adalah fondasi utama menuju sistem AI yang umum dan andal
Membangun agen AI yang aman dan dapat dipercaya
- Pada evaluasi penalaran jangka panjang, performanya meningkat signifikan, memberikan hasil yang lebih baik pada tugas keamanan siber dan coding jangka panjang
- Menurut Cybersecurity Preparedness Framework, model ini belum mencapai tingkat ‘High’, tetapi memiliki performa keamanan siber terkuat di antara model yang telah dirilis sejauh ini
- Pemanfaatan defensif juga diperkuat melalui program Aardvark dan lainnya
- Dengan pemantauan khusus keamanan siber, upaya penyalahgunaan dideteksi dan diblokir, sementara aktivitas mencurigakan diteruskan ke sistem tinjauan kebijakan
- Secara default, Codex berjalan di dalam sandbox keamanan, dengan akses file dan penggunaan jaringan yang dibatasi
- Saat mengakses internet, terdapat risiko prompt injection
- Developer perlu meninjau pekerjaan agen sebelum deployment
- Codex mencatat log terminal, pemanggilan alat, dan hasil tes, serta berperan sebagai pendamping, bukan pengganti tinjauan manusia
- Karena kemampuan keamanan siber dapat digunakan baik untuk pertahanan maupun serangan, deployment bertahap dan penguatan langkah perlindungan dilakukan secara bersamaan
Ketersediaan dan deployment
- GPT‑5.1‑Codex‑Max tersedia di Codex untuk paket ChatGPT Plus, Pro, Business, Edu, Enterprise
- Juga akan segera tersedia bagi developer yang menggunakan Codex CLI dengan API key
- Mulai hari ini, GPT‑5.1‑Codex‑Max menggantikan GPT‑5.1‑Codex sebagai model default di Codex
- GPT‑5.1 adalah model serbaguna, sedangkan Codex‑Max direkomendasikan khusus untuk tugas coding agentik
Kesimpulan
- GPT‑5.1‑Codex‑Max merupakan lompatan besar dalam ketahanan tugas coding jangka panjang, pengelolaan workflow kompleks, dan implementasi berkualitas tinggi
- Dikombinasikan dengan peningkatan pada CLI, ekstensi IDE, integrasi cloud, dan alat code review, model ini menghasilkan peningkatan produktivitas engineering sebesar 70%
- 95% engineer internal OpenAI menggunakan Codex setiap minggu
- Seiring meluasnya kemampuan agen, kita memasuki tahap baru produktivitas pengembangan
Lampiran: hasil evaluasi model
- SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
- SWE‑Lancer IC SWE: 66.3% → 79.9%
- Terminal‑Bench 2.0: 52.8% → 58.1%
Belum ada komentar.