5 poin oleh GN⁺ 2025-11-20 | Belum ada komentar. | Bagikan ke WhatsApp
  • GPT‑5.1‑Codex‑Max yang baru diperkenalkan OpenAI adalah model coding agentik terbaru yang dirancang untuk menangani tugas pengembangan jangka panjang dan kompleks, serta tersedia di lingkungan Codex
  • Melalui teknik ‘compaction’ baru, model ini dapat bekerja lintas beberapa jendela konteks dan menangani proyek berskala jutaan token secara konsisten
  • Efisiensi token ditingkatkan sehingga pada tingkat penalaran yang sama, model ini mencapai performa lebih baik dengan 30% lebih sedikit token, sehingga diharapkan dapat menekan biaya
  • Dapat bekerja secara mandiri dalam waktu lama dan melakukan refactoring serta debugging yang berlangsung lebih dari 24 jam
  • Dengan penguatan sandbox keamanan dan sistem pemantauan keamanan siber, model ini terus berkembang menjadi mitra coding AI yang aman

Pengenalan GPT‑5.1‑Codex‑Max

  • GPT‑5.1‑Codex‑Max adalah model coding agentik baru dari OpenAI, versi pembaruan model berbasis penalaran yang telah dilatih pada berbagai tugas di bidang rekayasa perangkat lunak, matematika, riset, dan lainnya
    • Langsung tersedia di Codex CLI, ekstensi IDE, cloud, dan lingkungan code review
    • Akses API akan segera tersedia
  • Model ini menghadirkan peningkatan pada kecepatan, kecerdasan, dan efisiensi token, sehingga dapat menjadi mitra coding yang lebih andal di seluruh siklus pengembangan
  • Melalui proses Compaction, model ini dapat menangani pekerjaan berskala jutaan token secara konsisten sambil berpindah di antara beberapa jendela konteks

Performa coding frontier

  • Dilatih dengan tugas rekayasa perangkat lunak nyata (pembuatan PR, code review, coding frontend, Q&A), model ini menunjukkan performa unggul di banyak evaluasi dibanding model sebelumnya
  • Ini adalah model Codex pertama yang berjalan di lingkungan Windows, dan juga mencakup pekerjaan untuk meningkatkan kolaborasi di Codex CLI
  • Selain peningkatan benchmark, perbaikan juga terlihat pada kegunaan di dunia nyata

Kecepatan dan efisiensi biaya

  • Berdasarkan SWE‑bench Verified, pada tingkat penalaran yang sama, model ini mencapai performa lebih tinggi dengan 30% lebih sedikit token dibanding GPT‑5.1‑Codex
  • Mode penalaran ‘xhigh’ memberikan peningkatan kualitas melalui waktu berpikir yang lebih panjang, sedangkan mode ‘medium’ direkomendasikan untuk pekerjaan umum
  • Peningkatan efisiensi token diperkirakan akan berujung pada penghematan biaya bagi developer
    • Contoh: GPT‑5.1‑Codex‑Max dapat menghasilkan desain frontend dengan fungsi dan estetika serupa dengan biaya yang jauh lebih rendah

Tugas berjalan jangka panjang

  • Dengan fitur Compaction, model ini dapat menjalankan refactoring kompleks dan loop agen jangka panjang yang melampaui batas konteks
    • Saat sesi mencapai batasnya, model akan secara otomatis melakukan compact untuk mempertahankan pekerjaan yang sedang berjalan sambil membuka konteks baru
  • Dalam evaluasi internal, ditemukan kasus pekerjaan berkelanjutan selama lebih dari 24 jam
    • Melalui perbaikan kegagalan tes dan implementasi berulang, hasil akhir berhasil dicapai
  • Kemampuan menjaga konsistensi jangka panjang adalah fondasi utama menuju sistem AI yang umum dan andal

Membangun agen AI yang aman dan dapat dipercaya

  • Pada evaluasi penalaran jangka panjang, performanya meningkat signifikan, memberikan hasil yang lebih baik pada tugas keamanan siber dan coding jangka panjang
  • Menurut Cybersecurity Preparedness Framework, model ini belum mencapai tingkat ‘High’, tetapi memiliki performa keamanan siber terkuat di antara model yang telah dirilis sejauh ini
    • Pemanfaatan defensif juga diperkuat melalui program Aardvark dan lainnya
  • Dengan pemantauan khusus keamanan siber, upaya penyalahgunaan dideteksi dan diblokir, sementara aktivitas mencurigakan diteruskan ke sistem tinjauan kebijakan
  • Secara default, Codex berjalan di dalam sandbox keamanan, dengan akses file dan penggunaan jaringan yang dibatasi
    • Saat mengakses internet, terdapat risiko prompt injection
  • Developer perlu meninjau pekerjaan agen sebelum deployment
    • Codex mencatat log terminal, pemanggilan alat, dan hasil tes, serta berperan sebagai pendamping, bukan pengganti tinjauan manusia
  • Karena kemampuan keamanan siber dapat digunakan baik untuk pertahanan maupun serangan, deployment bertahap dan penguatan langkah perlindungan dilakukan secara bersamaan

Ketersediaan dan deployment

  • GPT‑5.1‑Codex‑Max tersedia di Codex untuk paket ChatGPT Plus, Pro, Business, Edu, Enterprise
  • Juga akan segera tersedia bagi developer yang menggunakan Codex CLI dengan API key
  • Mulai hari ini, GPT‑5.1‑Codex‑Max menggantikan GPT‑5.1‑Codex sebagai model default di Codex
    • GPT‑5.1 adalah model serbaguna, sedangkan Codex‑Max direkomendasikan khusus untuk tugas coding agentik

Kesimpulan

  • GPT‑5.1‑Codex‑Max merupakan lompatan besar dalam ketahanan tugas coding jangka panjang, pengelolaan workflow kompleks, dan implementasi berkualitas tinggi
  • Dikombinasikan dengan peningkatan pada CLI, ekstensi IDE, integrasi cloud, dan alat code review, model ini menghasilkan peningkatan produktivitas engineering sebesar 70%
    • 95% engineer internal OpenAI menggunakan Codex setiap minggu
  • Seiring meluasnya kemampuan agen, kita memasuki tahap baru produktivitas pengembangan

Lampiran: hasil evaluasi model

  • SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
  • SWE‑Lancer IC SWE: 66.3% → 79.9%
  • Terminal‑Bench 2.0: 52.8% → 58.1%

Belum ada komentar.

Belum ada komentar.