OpenAI merilis pratinjau riset Codex, agen kode berbasis cloud

(openai.com)

8 poin oleh GN⁺ 2025-05-17 | 2 komentar | Bagikan ke WhatsApp

OpenAI merilis agen khusus rekayasa perangkat lunak Codex yang dapat mengotomatiskan tugas berulang, penulisan kode, usulan PR, dan lainnya
Codex bekerja di lingkungan sandbox cloud yang terisolasi, dan hasilnya dapat diverifikasi secara transparan melalui pengujian dan logging
Melalui file AGENTS.md, praktik dan metode pengujian tiap proyek dapat dijelaskan kepada Codex sehingga dapat dioptimalkan untuk codebase pengguna
Codex CLI versi CLI juga disediakan sehingga agen ini dapat dimanfaatkan di lingkungan pengembangan lokal
Peluncuran awal tersedia untuk ChatGPT Pro, Team, dan Enterprise, lalu nantinya akan diperluas ke pengguna Plus dan Edu

Introducing Codex

Apa itu Codex?

Codex adalah agen rekayasa perangkat lunak yang berjalan di cloud, yang dapat membaca codebase pengguna dan menangani berbagai tugas secara otomatis
Dapat menjalankan penambahan fitur kode, menjawab pertanyaan, memperbaiki bug, dan mengusulkan PR secara paralel
Setiap tugas dijalankan secara independen di lingkungan sandbox terisolasi, dengan repositori pengguna telah dimuat sebelumnya

Cara kerjanya

Dari sidebar ChatGPT, mulai tugas melalui fitur Codex dengan perintah “Code” atau “Ask”
Dapat membaca dan mengubah file, serta menjalankan perintah seperti test, linter, type checker, dan lainnya
Tugas biasanya selesai dalam 1~30 menit, dan progresnya dapat dipantau secara real time
Setelah tugas selesai, Codex membuat commit dan menjelaskan perubahan secara transparan dengan mengutip log terminal dan output test
Setelah meninjau hasilnya, pengguna dapat membuat GitHub PR atau mengintegrasikannya langsung

File AGENTS.md

AGENTS.md yang berada di dalam proyek memandu Codex tentang cara menelusuri codebase dan menjalankan pengujian
Dokumen ini berformat mirip README, dan dapat memuat gaya penulisan kode, perintah eksekusi, format pesan PR, dan lainnya
File yang berada di direktori lebih dalam diprioritaskan, dan semua pengujian yang ditentukan harus dijalankan
Codex juga mengikuti aturan bahwa prompt eksplisit memiliki prioritas lebih tinggi daripada AGENTS.md

Performa benchmark internal

Dalam benchmark SWE internal OpenAI, codex-1 mendukung hingga 192k token dan mencapai akurasi yang sangat baik pada pengaturan tingkat kesulitan menengah
Bahkan tanpa AGENTS.md, model ini menunjukkan performa tinggi dan dapat menghasilkan hasil yang sangat selaras dengan gaya kode yang ditulis manusia

Keamanan dan keandalan

Codex dirancang dengan peningkatan transparansi dan fokus pada keamanan, sehingga output dapat diverifikasi
Koneksi internet diblokir selama tugas berjalan, dan hanya repositori serta dependensi yang ditentukan yang dapat diakses
Model ini dilatih untuk memblokir pengembangan kode berbahaya, sambil tetap mengizinkan tugas sah pada level kernel

Contoh pemanfaatan awal

Di internal OpenAI, Codex sudah digunakan untuk refactoring berulang, penulisan test, dokumentasi, dan lainnya
Contoh mitra eksternal:
- Cisco: mengujinya di berbagai produk nyata serta memberikan umpan balik
- Temporal: digunakan untuk debugging, menjalankan test, dan refactoring pada codebase berskala besar
- Superhuman: mendukung QA, perbaikan kegagalan integrasi, dan perubahan kode ringan oleh PM
- Kodiak: mendukung analisis kode teknologi kendaraan otonom dan pengembangan tool

Pembaruan Codex CLI

Codex CLI adalah agen coding ringan berbasis terminal, yang dapat digunakan secara lokal bersama model o3 dan o4-mini
Melalui pembaruan ini, model codex-mini berbasis o4-mini dirilis, dengan optimasi untuk CLI dan respons latensi rendah
Jika login dengan akun ChatGPT, API key akan diatur otomatis, dan kredit gratis tersedia untuk pengguna Plus/Pro

Harga dan cakupan ketersediaan

Codex saat ini tersedia untuk pengguna Pro, Enterprise, dan Team, sementara Plus dan Edu akan segera menyusul
Pada tahap awal, dapat digunakan tanpa biaya tambahan, dan nantinya akan diberlakukan skema harga berbasis penggunaan
codex-mini-latest dikenai tarif $1.50 per 1M token input dan $6 per token output, dengan diskon prompt cache 75%

Rencana ke depan

Dalam jangka panjang, Codex akan berkembang menjadi agen kolaborasi asinkron
Ada rencana integrasi yang lebih dalam dengan Codex CLI, ChatGPT Desktop, issue tracker, dan tool CI
Fitur seperti umpan balik di tengah proses, diskusi strategi implementasi, dan pelaporan progres proaktif akan ditambahkan
OpenAI menantikan masa depan di mana developer dapat melakukan coding lebih cepat dan lebih fokus dengan bantuan AI

Lampiran: ringkasan system message codex-1

Periksa status Git sebelum dan sesudah tugas, dan pastikan tetap dalam keadaan commit selesai
Prosedur verifikasi di file AGENTS.md harus tetap dijalankan semuanya, bahkan untuk perubahan sederhana
Saat membuat PR, ada aturan kutipan berbasis file/terminal (contoh: 【F:main.py†L12】)
Dilarang mengutip isi PR atau komentar sebelumnya; hanya file dan hasil terminal yang boleh digunakan

System message ini digunakan untuk memahami perilaku dasar model guna penyesuaian Codex oleh pengguna.

2 komentar

fortune 2025-05-18

Akhirnya muncul agen generasi berikutnya yang bisa dibedakan dari generasi seperti cursor, cline, dan sebagainya. Saya menantikan seberapa jauh kecepatan perubahan software di dunia akan semakin meningkat. Juga kemunculan agen generasi berikutnya setelah ini.

GN⁺ 2025-05-17

Opini Hacker News

Berbagi pengalaman ikut alpha test Codex di Assembled bersama beberapa engineer tim kami; karena sudah lama memakai agen lokal seperti Cursor dan Claude Code, ekspektasinya tidak terlalu tinggi, tetapi kemampuan Codex menjalankan tugas secara paralel dinilai mengesankan. Beberapa pekerjaan refactor, test, dan boilerplate bisa digabung lalu dijalankan bersamaan tanpa perlu bolak-balik ganti konteks. Solusi sebelumnya sulit melakukan ini, tetapi di Codex cukup menetapkan tugas ke file atau fungsi, lalu sebagian besar scaffolding PR ditangani otomatis, terasa seperti punya junior engineer tak terbatas. Namun, sampai benar-benar masuk ke production tetap butuh banyak pekerjaan lanjutan. Kualitas modelnya lumayan, tetapi saat dibandingkan sejajar dengan Cursor, Gemini 2.5-pro, dan lainnya, belum terlihat keunggulan jelas dalam style, logika, atau penamaan; kesannya lebih ke memenuhi ekspektasi
- Jika kita tidak merekrut junior engineer untuk mengerjakan jenis pekerjaan seperti ini, lalu dari mana senior engineer masa depan akan muncul? Ada cerita tentang realitas pasar kerja: baru-baru ini putrinya lulus ilmu komputer dari universitas bagus, tetapi lowongan untuk developer junior jauh lebih sedikit daripada permintaan untuk senior engineer. Saat perusahaannya memasang lowongan posisi junior baru-baru ini, lamaran yang masuk sangat banyak sampai sulit melakukan evaluasi yang adil. Pada akhirnya, teman-teman anaknya yang berhasil mendapat pekerjaan kebanyakan karena koneksi
- Saat ini jutaan engineer berkontribusi ke open source di GitHub, lalu talenta-talenta hebat memakai kode itu untuk membangun model AI yang kemudian menggantikan engineer tersebut; sebuah struktur sirkular yang menarik. Disebutkan juga dilema mendasar bahwa makin banyak kontribusi open source, makin mudah pula menggantikan pekerjaan terkait. Muncul pertanyaan apakah motivasi untuk berkontribusi ke open source akan makin melemah seiring waktu. Kita mengira pekerjaan kita kreatif, tetapi kenyataannya sebagian besar waktu dihabiskan untuk menggabungkan pengetahuan yang repetitif dan dapat diprediksi, dan AI sangat bagus menggantikan jenis pekerjaan seperti itu. Dari sudut pandang optimistis, dalam jangka panjang kita harus menciptakan pekerjaan yang lebih menarik, tetapi dalam waktu dekat diperkirakan akan ada penderitaan bertahun-tahun akibat kelebihan pasokan software engineer dan kekurangan permintaan
- Mempertanyakan mengapa kemampuan eksekusi paralel Codex itu penting. Dalam praktiknya, LLM menulis kode hanya butuh beberapa detik, dan bagian yang benar-benar memakan waktu adalah spesifikasi tugas serta tahap review/perbaikan. Jadi dipertanyakan apa manfaat nyata dari memparalelkan bagian yang justru paling cepat
- Karena developer junior tidak punya otonomi penuh, pada akhirnya banyak waktu habis untuk mengelola mereka dan melakukan code review. Bahkan jika punya banyak junior, biaya manajemennya mudah menjadi bottleneck. Maka muncul rasa ingin tahu apakah menangani banyak developer virtual seperti Codex juga akan terasa berat, atau justru tingkat otonominya tinggi
- Dari sudut pandang pengguna lama Cursor dan Claude Code, ada harapan mendengar pengalaman serta insight tim terhadap kelebihan dan keterbatasan Claude Code, dan apakah eksekusi paralel di Codex benar-benar jadi pembeda besar. Codex CLI yang baru dirilis belakangan juga terasa di bawah ekspektasi
Dalam video preview Codex dari OpenAI, ada kesepakatan dengan pendapat Katy Shi bahwa “pekerjaan engineering bergeser dari menulis kode ke mereview kode.” Diamati bahwa di era adopsi AI yang serius, developer masih berkutat membaca kode dan test. Jika konsep yang relatif baru seperti simulasi mulai diterapkan, khususnya di frontend, kita bisa memprediksi berbagai hasil alih-alih hanya melihat kode/test. Penulis sedang mengeksplorasi topik ini sendiri belakangan, dan materi peluncuran Codex membuatnya terasa semakin nyata
- Ini mirip dengan argumen saya terkait Graphite: ketika kode dalam jumlah besar dihasilkan AI, yang menjadi inti adalah review, test, dan integrasi. Kami juga membangun sistem AI code review, tetapi kebutuhan akan review manusia akan tetap ada secara permanen, pada dasarnya karena soal tanggung jawab. Komputer tidak akan pernah bisa dimintai tanggung jawab
- Bertanya apakah yang dimaksud dengan “melihat simulasi” adalah memanfaatkan automated test suite
Sebagai salah satu pembuat SWE-bench, menarik bahwa Codex menunjukkan sedikit peningkatan bahkan dibanding hasil o3 yang sudah kuat. Muncul rasa penasaran apakah menaikkan skor Verified dari 75% ke 85% akan membutuhkan waktu sepanjang saat menaikkan dari 20% ke 75%
- Ada anggapan bahwa terjadi over-optimization terhadap benchmark terkait swe-bench; dibagikan juga berbagai hasil pengukuran seperti multi-swe-bench, swe polybench, kotlin bench, dan lain-lain
- Ditanyakan berapa lama waktu yang dibutuhkan untuk mencapai dari 20% ke 75%
Sedang berlangganan versi Pro, tetapi setiap kali mencoba Codex justru diarahkan ke halaman pembayaran paket tim. Bertanya-tanya apakah ini karena belum dibuka penuh atau ada yang terlewat. Sudah lama konsisten memakai produk OpenAI dan benar-benar ingin mencoba Codex
- Hal serupa terjadi setiap ada update besar; reaksinya, ini sulit dipahami
- Saya juga mengalami hal serupa; sepertinya baru tersedia beberapa menit lalu, jadi diduga sedang dirilis bertahap
- Ada informasi bahwa peluncurannya memang masih bertahap
Di live stream disebutkan "microVM", tanpa akses browser/internet. Penggunaan microkernel seperti Firecracker/Unikraft bisa cepat, murah, dan mudah diskalakan secara besar-besaran, tetapi diperkirakan masih ada hambatan teknis besar untuk beralih ke lingkungan komputer penuh yang terisolasi untuk tiap agen. ChatGPT Operator saat ini mendukung akses browser, jadi secara teknis jelas memungkinkan, tetapi skala kebutuhannya tampak berbeda. Masih ada ruang besar bagi perusahaan infrastruktur yang menyediakan lingkungan PC penuh khusus AI dengan dukungan fork/snapshot/screen/human-in-the-loop dan sebagainya. Saat ini implementasi baru sampai fungsi parsial seperti penggunaan browser
- Fitur ini sudah disediakan lewat E2B Desktop, lalu dibagikan tautan demo dan SDK
Saat bekerja di bank, tim legal sering meminta perubahan kecil pada aplikasi, dan sekarang sepertinya mereka bisa memperbaikinya sendiri; diperkirakan tim legal akan sangat bangga
- Memberi kewenangan perubahan kode ke tim legal tanpa eksekusi/test kode dan code review adalah hal yang berbahaya, jadi kemungkinan pada akhirnya tidak akan ada yang benar-benar melakukannya
- Ke depannya bug tracking diperkirakan akan berubah besar: siapa pun di organisasi bisa meninggalkan issue atau permintaan fitur, lalu model akan otomatis menanganinya, dan jika tidak berhasil barulah manusia turun tangan. Pada akhirnya, penilaian dan review tentang “perubahan kode mana yang legal dan sesuai standar perusahaan” akan makin muncul sebagai peran inti bagi peninjau nonteknis
- Janji bahwa secara realistis tim legal tidak akan langsung mengubah kode sendiri
Kekhawatiran soal privasi, opt-out data pelatihan, dan risiko ketika harus bersaing dengan model yang dibangun melalui platform tersebut. Dipertanyakan apakah kebijakan seperti “hasil yang kamu buat tidak boleh kami pakai untuk bersaing denganmu” itu adil. Ada juga kemungkinan pandangan ini terlalu pesimistis. Tetap dipertanyakan bagaimana jika OpenAI tidak bisa dicegah memanfaatkan informasi yang kita buat untuk bersaing dengan kita
- Dijelaskan bahwa di video ada opsi eksplisit untuk memilih secara langsung apakah repo boleh dipakai untuk pelatihan atau tidak
Berbagi pengalaman bermasalah saat memakai fitur "secrets": injeksi berjalan baik saat setup environment, tetapi tidak berfungsi di pekerjaan sebenarnya, dan masalah ini selalu bisa direproduksi meski sudah mencoba metode seperti reset environment
Khawatir karena Codex hanya berjalan di cloud, sehingga kode bisa otomatis di-commit dan di-push tanpa ada waktu bagi saya untuk meninjaunya secara internal. Di aider, lebih suka workflow commit dulu lalu git reset HEAD^, cek perubahan lewat git diff, melakukan revisi seperlunya, baru kemudian commit-push
- Kalau memang selalu me-roll back commit langsung, di Aider disarankan memakai opsi --no-auto-commits
- Secara sederhana, Codex adalah versi managed cloud dari Codex CLI yang sudah ada; inti utamanya adalah model baru itu sendiri, dan kemungkinan segera tersedia juga lewat API
- Dijelaskan bahwa di live stream, setelah tugas selesai, diff langsung ditampilkan, dan hanya setelah meninjau diff itulah pengguna bisa memutuskan apakah ingin membuat GitHub PR
Bertanya bagaimana pendapat orang-orang soal perusahaan yang membagikan codebase ke vendor AI, atau apakah mereka hanya memakai instalasi lokal
- Berbagi kode ke SaaS sudah sangat umum di perusahaan, dan biasanya dicegah dari penggunaan sewenang-wenang lewat kontrak terpisah
- Ada pandangan bahwa sebagian besar kode perusahaan hanya punya nilai yang berarti bagi perusahaan itu sendiri
- Ada juga pendapat bahwa perusahaan seperti OpenAI tidak akan sengaja melihat kode saya sambil mengambil risiko sebesar itu; secara hukum tidak sepadan
- Pada akhirnya semua ini tetap trade-off biaya-manfaat; jika manfaatnya besar, membagikannya tetap layak
- Cursor punya fitur pemaksaan data privacy di enterprise mode