- OpenAI merilis agen khusus rekayasa perangkat lunak Codex yang dapat mengotomatiskan tugas berulang, penulisan kode, usulan PR, dan lainnya
- Codex bekerja di lingkungan sandbox cloud yang terisolasi, dan hasilnya dapat diverifikasi secara transparan melalui pengujian dan logging
- Melalui file AGENTS.md, praktik dan metode pengujian tiap proyek dapat dijelaskan kepada Codex sehingga dapat dioptimalkan untuk codebase pengguna
- Codex CLI versi CLI juga disediakan sehingga agen ini dapat dimanfaatkan di lingkungan pengembangan lokal
- Peluncuran awal tersedia untuk ChatGPT Pro, Team, dan Enterprise, lalu nantinya akan diperluas ke pengguna Plus dan Edu
Introducing Codex
Apa itu Codex?
- Codex adalah agen rekayasa perangkat lunak yang berjalan di cloud, yang dapat membaca codebase pengguna dan menangani berbagai tugas secara otomatis
- Dapat menjalankan penambahan fitur kode, menjawab pertanyaan, memperbaiki bug, dan mengusulkan PR secara paralel
- Setiap tugas dijalankan secara independen di lingkungan sandbox terisolasi, dengan repositori pengguna telah dimuat sebelumnya
Cara kerjanya
- Dari sidebar ChatGPT, mulai tugas melalui fitur Codex dengan perintah “Code” atau “Ask”
- Dapat membaca dan mengubah file, serta menjalankan perintah seperti test, linter, type checker, dan lainnya
- Tugas biasanya selesai dalam 1~30 menit, dan progresnya dapat dipantau secara real time
- Setelah tugas selesai, Codex membuat commit dan menjelaskan perubahan secara transparan dengan mengutip log terminal dan output test
- Setelah meninjau hasilnya, pengguna dapat membuat GitHub PR atau mengintegrasikannya langsung
File AGENTS.md
- AGENTS.md yang berada di dalam proyek memandu Codex tentang cara menelusuri codebase dan menjalankan pengujian
- Dokumen ini berformat mirip README, dan dapat memuat gaya penulisan kode, perintah eksekusi, format pesan PR, dan lainnya
- File yang berada di direktori lebih dalam diprioritaskan, dan semua pengujian yang ditentukan harus dijalankan
- Codex juga mengikuti aturan bahwa prompt eksplisit memiliki prioritas lebih tinggi daripada AGENTS.md
Performa benchmark internal
- Dalam benchmark SWE internal OpenAI, codex-1 mendukung hingga 192k token dan mencapai akurasi yang sangat baik pada pengaturan tingkat kesulitan menengah
- Bahkan tanpa AGENTS.md, model ini menunjukkan performa tinggi dan dapat menghasilkan hasil yang sangat selaras dengan gaya kode yang ditulis manusia
Keamanan dan keandalan
- Codex dirancang dengan peningkatan transparansi dan fokus pada keamanan, sehingga output dapat diverifikasi
- Koneksi internet diblokir selama tugas berjalan, dan hanya repositori serta dependensi yang ditentukan yang dapat diakses
- Model ini dilatih untuk memblokir pengembangan kode berbahaya, sambil tetap mengizinkan tugas sah pada level kernel
Contoh pemanfaatan awal
-
Di internal OpenAI, Codex sudah digunakan untuk refactoring berulang, penulisan test, dokumentasi, dan lainnya
-
Contoh mitra eksternal:
- Cisco: mengujinya di berbagai produk nyata serta memberikan umpan balik
- Temporal: digunakan untuk debugging, menjalankan test, dan refactoring pada codebase berskala besar
- Superhuman: mendukung QA, perbaikan kegagalan integrasi, dan perubahan kode ringan oleh PM
- Kodiak: mendukung analisis kode teknologi kendaraan otonom dan pengembangan tool
Pembaruan Codex CLI
- Codex CLI adalah agen coding ringan berbasis terminal, yang dapat digunakan secara lokal bersama model o3 dan o4-mini
- Melalui pembaruan ini, model codex-mini berbasis o4-mini dirilis, dengan optimasi untuk CLI dan respons latensi rendah
- Jika login dengan akun ChatGPT, API key akan diatur otomatis, dan kredit gratis tersedia untuk pengguna Plus/Pro
Harga dan cakupan ketersediaan
- Codex saat ini tersedia untuk pengguna Pro, Enterprise, dan Team, sementara Plus dan Edu akan segera menyusul
- Pada tahap awal, dapat digunakan tanpa biaya tambahan, dan nantinya akan diberlakukan skema harga berbasis penggunaan
codex-mini-latestdikenai tarif $1.50 per 1M token input dan $6 per token output, dengan diskon prompt cache 75%
Rencana ke depan
- Dalam jangka panjang, Codex akan berkembang menjadi agen kolaborasi asinkron
- Ada rencana integrasi yang lebih dalam dengan Codex CLI, ChatGPT Desktop, issue tracker, dan tool CI
- Fitur seperti umpan balik di tengah proses, diskusi strategi implementasi, dan pelaporan progres proaktif akan ditambahkan
- OpenAI menantikan masa depan di mana developer dapat melakukan coding lebih cepat dan lebih fokus dengan bantuan AI
Lampiran: ringkasan system message codex-1
- Periksa status Git sebelum dan sesudah tugas, dan pastikan tetap dalam keadaan commit selesai
- Prosedur verifikasi di file AGENTS.md harus tetap dijalankan semuanya, bahkan untuk perubahan sederhana
- Saat membuat PR, ada aturan kutipan berbasis file/terminal (contoh:
【F:main.py†L12】) - Dilarang mengutip isi PR atau komentar sebelumnya; hanya file dan hasil terminal yang boleh digunakan
System message ini digunakan untuk memahami perilaku dasar model guna penyesuaian Codex oleh pengguna.
2 komentar
Akhirnya muncul agen generasi berikutnya yang bisa dibedakan dari generasi seperti cursor, cline, dan sebagainya. Saya menantikan seberapa jauh kecepatan perubahan software di dunia akan semakin meningkat. Juga kemunculan agen generasi berikutnya setelah ini.
Opini Hacker News
Berbagi pengalaman ikut alpha test Codex di Assembled bersama beberapa engineer tim kami; karena sudah lama memakai agen lokal seperti Cursor dan Claude Code, ekspektasinya tidak terlalu tinggi, tetapi kemampuan Codex menjalankan tugas secara paralel dinilai mengesankan. Beberapa pekerjaan refactor, test, dan boilerplate bisa digabung lalu dijalankan bersamaan tanpa perlu bolak-balik ganti konteks. Solusi sebelumnya sulit melakukan ini, tetapi di Codex cukup menetapkan tugas ke file atau fungsi, lalu sebagian besar scaffolding PR ditangani otomatis, terasa seperti punya junior engineer tak terbatas. Namun, sampai benar-benar masuk ke production tetap butuh banyak pekerjaan lanjutan. Kualitas modelnya lumayan, tetapi saat dibandingkan sejajar dengan Cursor, Gemini 2.5-pro, dan lainnya, belum terlihat keunggulan jelas dalam style, logika, atau penamaan; kesannya lebih ke memenuhi ekspektasi
Jika kita tidak merekrut junior engineer untuk mengerjakan jenis pekerjaan seperti ini, lalu dari mana senior engineer masa depan akan muncul? Ada cerita tentang realitas pasar kerja: baru-baru ini putrinya lulus ilmu komputer dari universitas bagus, tetapi lowongan untuk developer junior jauh lebih sedikit daripada permintaan untuk senior engineer. Saat perusahaannya memasang lowongan posisi junior baru-baru ini, lamaran yang masuk sangat banyak sampai sulit melakukan evaluasi yang adil. Pada akhirnya, teman-teman anaknya yang berhasil mendapat pekerjaan kebanyakan karena koneksi
Saat ini jutaan engineer berkontribusi ke open source di GitHub, lalu talenta-talenta hebat memakai kode itu untuk membangun model AI yang kemudian menggantikan engineer tersebut; sebuah struktur sirkular yang menarik. Disebutkan juga dilema mendasar bahwa makin banyak kontribusi open source, makin mudah pula menggantikan pekerjaan terkait. Muncul pertanyaan apakah motivasi untuk berkontribusi ke open source akan makin melemah seiring waktu. Kita mengira pekerjaan kita kreatif, tetapi kenyataannya sebagian besar waktu dihabiskan untuk menggabungkan pengetahuan yang repetitif dan dapat diprediksi, dan AI sangat bagus menggantikan jenis pekerjaan seperti itu. Dari sudut pandang optimistis, dalam jangka panjang kita harus menciptakan pekerjaan yang lebih menarik, tetapi dalam waktu dekat diperkirakan akan ada penderitaan bertahun-tahun akibat kelebihan pasokan software engineer dan kekurangan permintaan
Mempertanyakan mengapa kemampuan eksekusi paralel Codex itu penting. Dalam praktiknya, LLM menulis kode hanya butuh beberapa detik, dan bagian yang benar-benar memakan waktu adalah spesifikasi tugas serta tahap review/perbaikan. Jadi dipertanyakan apa manfaat nyata dari memparalelkan bagian yang justru paling cepat
Karena developer junior tidak punya otonomi penuh, pada akhirnya banyak waktu habis untuk mengelola mereka dan melakukan code review. Bahkan jika punya banyak junior, biaya manajemennya mudah menjadi bottleneck. Maka muncul rasa ingin tahu apakah menangani banyak developer virtual seperti Codex juga akan terasa berat, atau justru tingkat otonominya tinggi
Dari sudut pandang pengguna lama Cursor dan Claude Code, ada harapan mendengar pengalaman serta insight tim terhadap kelebihan dan keterbatasan Claude Code, dan apakah eksekusi paralel di Codex benar-benar jadi pembeda besar. Codex CLI yang baru dirilis belakangan juga terasa di bawah ekspektasi
Dalam video preview Codex dari OpenAI, ada kesepakatan dengan pendapat Katy Shi bahwa “pekerjaan engineering bergeser dari menulis kode ke mereview kode.” Diamati bahwa di era adopsi AI yang serius, developer masih berkutat membaca kode dan test. Jika konsep yang relatif baru seperti simulasi mulai diterapkan, khususnya di frontend, kita bisa memprediksi berbagai hasil alih-alih hanya melihat kode/test. Penulis sedang mengeksplorasi topik ini sendiri belakangan, dan materi peluncuran Codex membuatnya terasa semakin nyata
Ini mirip dengan argumen saya terkait Graphite: ketika kode dalam jumlah besar dihasilkan AI, yang menjadi inti adalah review, test, dan integrasi. Kami juga membangun sistem AI code review, tetapi kebutuhan akan review manusia akan tetap ada secara permanen, pada dasarnya karena soal tanggung jawab. Komputer tidak akan pernah bisa dimintai tanggung jawab
Bertanya apakah yang dimaksud dengan “melihat simulasi” adalah memanfaatkan automated test suite
Sebagai salah satu pembuat SWE-bench, menarik bahwa Codex menunjukkan sedikit peningkatan bahkan dibanding hasil o3 yang sudah kuat. Muncul rasa penasaran apakah menaikkan skor Verified dari 75% ke 85% akan membutuhkan waktu sepanjang saat menaikkan dari 20% ke 75%
Ada anggapan bahwa terjadi over-optimization terhadap benchmark terkait swe-bench; dibagikan juga berbagai hasil pengukuran seperti multi-swe-bench, swe polybench, kotlin bench, dan lain-lain
Ditanyakan berapa lama waktu yang dibutuhkan untuk mencapai dari 20% ke 75%
Sedang berlangganan versi Pro, tetapi setiap kali mencoba Codex justru diarahkan ke halaman pembayaran paket tim. Bertanya-tanya apakah ini karena belum dibuka penuh atau ada yang terlewat. Sudah lama konsisten memakai produk OpenAI dan benar-benar ingin mencoba Codex
Hal serupa terjadi setiap ada update besar; reaksinya, ini sulit dipahami
Saya juga mengalami hal serupa; sepertinya baru tersedia beberapa menit lalu, jadi diduga sedang dirilis bertahap
Ada informasi bahwa peluncurannya memang masih bertahap
Di live stream disebutkan "microVM", tanpa akses browser/internet. Penggunaan microkernel seperti Firecracker/Unikraft bisa cepat, murah, dan mudah diskalakan secara besar-besaran, tetapi diperkirakan masih ada hambatan teknis besar untuk beralih ke lingkungan komputer penuh yang terisolasi untuk tiap agen. ChatGPT Operator saat ini mendukung akses browser, jadi secara teknis jelas memungkinkan, tetapi skala kebutuhannya tampak berbeda. Masih ada ruang besar bagi perusahaan infrastruktur yang menyediakan lingkungan PC penuh khusus AI dengan dukungan fork/snapshot/screen/human-in-the-loop dan sebagainya. Saat ini implementasi baru sampai fungsi parsial seperti penggunaan browser
Saat bekerja di bank, tim legal sering meminta perubahan kecil pada aplikasi, dan sekarang sepertinya mereka bisa memperbaikinya sendiri; diperkirakan tim legal akan sangat bangga
Memberi kewenangan perubahan kode ke tim legal tanpa eksekusi/test kode dan code review adalah hal yang berbahaya, jadi kemungkinan pada akhirnya tidak akan ada yang benar-benar melakukannya
Ke depannya bug tracking diperkirakan akan berubah besar: siapa pun di organisasi bisa meninggalkan issue atau permintaan fitur, lalu model akan otomatis menanganinya, dan jika tidak berhasil barulah manusia turun tangan. Pada akhirnya, penilaian dan review tentang “perubahan kode mana yang legal dan sesuai standar perusahaan” akan makin muncul sebagai peran inti bagi peninjau nonteknis
Janji bahwa secara realistis tim legal tidak akan langsung mengubah kode sendiri
Kekhawatiran soal privasi, opt-out data pelatihan, dan risiko ketika harus bersaing dengan model yang dibangun melalui platform tersebut. Dipertanyakan apakah kebijakan seperti “hasil yang kamu buat tidak boleh kami pakai untuk bersaing denganmu” itu adil. Ada juga kemungkinan pandangan ini terlalu pesimistis. Tetap dipertanyakan bagaimana jika OpenAI tidak bisa dicegah memanfaatkan informasi yang kita buat untuk bersaing dengan kita
Berbagi pengalaman bermasalah saat memakai fitur "secrets": injeksi berjalan baik saat setup environment, tetapi tidak berfungsi di pekerjaan sebenarnya, dan masalah ini selalu bisa direproduksi meski sudah mencoba metode seperti reset environment
Khawatir karena Codex hanya berjalan di cloud, sehingga kode bisa otomatis di-commit dan di-push tanpa ada waktu bagi saya untuk meninjaunya secara internal. Di aider, lebih suka workflow commit dulu lalu
git reset HEAD^, cek perubahan lewatgit diff, melakukan revisi seperlunya, baru kemudian commit-pushKalau memang selalu me-roll back commit langsung, di Aider disarankan memakai opsi
--no-auto-commitsSecara sederhana, Codex adalah versi managed cloud dari Codex CLI yang sudah ada; inti utamanya adalah model baru itu sendiri, dan kemungkinan segera tersedia juga lewat API
Dijelaskan bahwa di live stream, setelah tugas selesai, diff langsung ditampilkan, dan hanya setelah meninjau diff itulah pengguna bisa memutuskan apakah ingin membuat GitHub PR
Bertanya bagaimana pendapat orang-orang soal perusahaan yang membagikan codebase ke vendor AI, atau apakah mereka hanya memakai instalasi lokal
Berbagi kode ke SaaS sudah sangat umum di perusahaan, dan biasanya dicegah dari penggunaan sewenang-wenang lewat kontrak terpisah
Ada pandangan bahwa sebagian besar kode perusahaan hanya punya nilai yang berarti bagi perusahaan itu sendiri
Ada juga pendapat bahwa perusahaan seperti OpenAI tidak akan sengaja melihat kode saya sambil mengambil risiko sebesar itu; secara hukum tidak sepadan
Pada akhirnya semua ini tetap trade-off biaya-manfaat; jika manfaatnya besar, membagikannya tetap layak
Cursor punya fitur pemaksaan data privacy di enterprise mode