GPT-5-Codex
(openai.com)- GPT-5-Codex adalah model yang dioptimalkan untuk rekayasa perangkat lunak nyata, mendukung semuanya mulai dari sesi percakapan singkat hingga pekerjaan mandiri jangka panjang
- Model baru ini memperkuat kemampuan code review, menangkap cacat penting lebih awal melalui penelusuran dependensi, menjalankan pengujian, dan membandingkan niat dengan implementasi
- Menunjukkan performa unggul dalam hal seperti refaktorisasi kode skala besar, serta menyesuaikan waktu kerja secara dinamis sesuai kebutuhan pengguna
- Codex CLI dan ekstensi IDE diperbarui agar lebih cocok untuk workflow agen, dengan peningkatan seperti lampiran gambar, pelacakan progres pekerjaan, pencarian web, dan integrasi MCP
- Melalui integrasi GitHub, kini dimungkinkan review PR otomatis hingga saran perbaikan, mengurangi beban review tim dan meningkatkan keandalan rilis
- Codex kini termasuk dalam paket ChatGPT Plus, Pro, Business, Edu, Enterprise
GPT-5-Codex
- GPT-5-Codex adalah model yang dikhususkan untuk tugas rekayasa nyata yang kompleks (build proyek, penambahan fitur, refaktorisasi skala besar, debugging, code review)
- Kemampuan mematuhi instruksi AGENTS.md ditingkatkan, sehingga hasil yang diinginkan bisa diperoleh tanpa perlu penjelasan panjang tentang gaya atau kebersihan kode
- Menyesuaikan waktu berpikir secara dinamis sesuai tingkat kesulitan tugas
- Merespons cepat untuk permintaan sederhana, dan untuk pekerjaan besar dapat berjalan mandiri selama berjam-jam sambil terus menyempurnakan hasil
- Dioptimalkan untuk code review, melakukan verifikasi akurat melalui penelusuran codebase, analisis dependensi, dan menjalankan pengujian
- Dalam verifikasi commit proyek open source, review GPT-5-Codex dinilai lebih andal
- Juga kuat untuk pekerjaan frontend, dan di cloud dapat memanfaatkan input gambar untuk meninjau progres secara visual serta membagikan hasil sebagai screenshot
- Sementara GPT-5 adalah model umum, GPT-5-Codex dirancang untuk tugas coding bergaya agen khusus di lingkungan Codex
Pembaruan Codex
- Codex CLI dan ekstensi IDE didesain ulang dengan fokus pada pengalaman coding bergaya agen
- Di CLI kini dimungkinkan melampirkan gambar, mengelola To-Do progres pekerjaan, dan menghubungkan sistem eksternal
- UI terminal ditingkatkan agar pemanggilan tool dan diff lebih mudah dilihat
- Mode persetujuan disederhanakan untuk memberikan keamanan dan kenyamanan sekaligus
- Ekstensi IDE bekerja di VS Code, Cursor dan lainnya, serta memberikan hasil lebih cepat dengan prompt yang lebih singkat berdasarkan file dan kode yang dipilih
- Mendukung perpindahan mulus antara lingkungan lokal dan cloud, pelacakan pekerjaan yang sedang berjalan, serta peninjauan pekerjaan yang sudah selesai
- Di lingkungan cloud, peningkatan kecepatan melalui caching (pengurangan 90%), pengaturan lingkungan otomatis, dan kontrol akses internet diperkuat
- Gambar dapat digunakan saat membuat spesifikasi desain UI atau laporan bug, dan Codex dapat membuka browsernya sendiri untuk memeriksa hasil lalu melampirkan screenshot ke PR
- Mendukung review PR otomatis dan saran perbaikan melalui integrasi GitHub
- Permintaan review tertentu dapat dilakukan dengan perintah
@codex review - Di internal OpenAI juga, Codex lebih dulu meninjau sebagian besar PR dan menemukan ratusan isu lebih awal
- Permintaan review tertentu dapat dilakukan dengan perintah
Keselamatan dan keamanan
- Codex secara default berjalan di lingkungan sandbox, sehingga akses jaringan dibatasi
- Eksekusi perintah berisiko dapat dikendalikan berdasarkan persetujuan, dan hanya domain tepercaya yang dapat diizinkan
- Developer dapat menyesuaikan tingkat keamanan sesuai lingkungan, dan Codex menyediakan log serta hasil pengujian untuk tiap tugas guna membantu verifikasi
- Disarankan untuk menggunakannya sebagai reviewer pendamping, bukan pengganti human review
- GPT-5-Codex diklasifikasikan sebagai model dengan kemampuan tinggi di domain biologi dan kimia, sehingga pengaman diterapkan
Harga dan ketersediaan
- Codex termasuk dalam paket ChatGPT Plus, Pro, Business, Edu, Enterprise
- Plus/Edu/Business cocok untuk sesi 1–2 kali per minggu, sedangkan Pro mendukung pekerjaan pengembangan mingguan penuh waktu
- Paket Business memungkinkan pembelian kredit tambahan, sementara Enterprise beroperasi dengan pool kredit bersama
- GPT-5-Codex juga akan segera tersedia bagi pengguna API key Codex CLI
- Codex akan berkembang menjadi partner coding yang lebih cepat dan andal, serta memantapkan diri sebagai alat yang membantu tim menjalankan proyek-proyek ambisius
6 komentar
Kemampuan pemecahan masalahnya untuk isu yang perlu mempertimbangkan banyak konteks rendah, dan secara keseluruhan terlalu sering menggunakan kode design pattern yang tidak perlu. Ini sangat memberi kesan bahwa dalam pelatihannya, yang terutama digunakan bukan kode produksi nyata melainkan kode contoh untuk tujuan edukasi.
Secara keseluruhan, ada perbedaan performa yang cukup besar dibandingkan Gemini.
Kalau dibandingkan dengan Claude Code, untuk saat ini apakah Claude Code masih sedikit lebih layak dipakai?
Pada akhirnya, apakah pengalaman pengguna yang baik dari alat AI adalah yang mempertimbangkan tingkat literasi(?) penggunanya, sekaligus menjamin kualitas hasil pada level tertentu?
Menarik juga bahwa pengguna dari semua tingkat secara konsisten mengharapkan sesuatu yang lebih baik dari alat AI.
Claude terlalu tidak nyaman dipakai, jadi rasanya ingin pindah dan mencobanya.
Adakah hal yang membuat Anda kurang nyaman?
Opini Hacker News
Dikonfirmasi bahwa ukuran prompt model baru berkurang hampir setengah dibanding sebelumnya (10KB vs 23KB) (sumber terkait: contoh prompt sebelumnya, contoh prompt yang lebih lama)
Performa berdasarkan SWE-bench mirip dengan gpt-5 yang ada, tetapi
gpt-5-codextampaknya terutama ditingkatkan di bidang refaktor kode (berdasarkan benchmark internal 33.9% -> 51.3%)Baru-baru ini saya mencoba refaktor besar-besaran untuk memisahkan beberapa library internal menjadi paket menggunakan Codex CLI (
gpt-5-high), tetapi modelnya sering memunculkan bug saat proses menghapus lalu menulis ulang file (misalnya file penting hilang)Secara pribadi saya lebih suka pendekatan menyalin file begitu saja lalu memodifikasinya per paket, dan dalam peningkatan kali ini tampaknya tool calling yang lebih baik sudah diterapkan
Selain itu, mereka juga mengklaim model baru ini lebih "steerable" (lebih mudah dikendalikan secara eksplisit), tetapi menurut pengalaman saya Codex CLI (gpt-5) saja sudah jauh lebih mudah dikendalikan daripada Claude Code, jadi peningkatan tambahan ini sangat disambut baik
Saya setuju bahwa skor SWE-bench serupa untuk gpt-5 dan gpt-5-codex, tetapi evaluasi bernama SWE-bench sendiri adalah pengujian yang sangat terbatas
Meskipun skornya sama, pengalaman penggunaan nyata bisa sangat berbeda
Saya juga membagikan thread di X (dulu Twitter) yang membahas detail aspek-aspek yang tidak bisa diukur SWE-bench: tautan
Fakta bahwa model ini "lebih steerable" justru bisa menjadi kelemahan
Karena model ini juga bisa terlalu harfiah mengikuti prompt
Akibatnya, pemahaman tentang cara menulis prompt yang lebih baik dan memanfaatkan model jadi makin diperlukan
Ini bagus untuk insinyur software level tinggi, tetapi bisa jadi sulit bagi developer yang ngoding berdasarkan feel (
vibe-coder)Tiba-tiba ada banyak pendapat bahwa Codex CLI dengan gpt-5-codex sekarang lebih baik daripada Claude Code, dan itu terasa sulit dipercaya begitu saja
Saya penasaran apakah sebagian prompt dipindahkan ke layer yang lebih tinggi, atau di-
bakeke dalam model dengan cara lainSaat melakukan refaktor kode untuk dipindahkan ke paket, saya merekomendasikan memindahkan file secara manual
Lalu cukup beri tahu Codex, "dulu file ini ada di lokasi lain, jadi tolong perbaiki agar tetap berfungsi"
Tampaknya konsep pemindahan file masih belum ditangani dengan baik oleh Codex maupun CLI lain
Khususnya penghapusan/pemindahan file hampir tidak pernah terlacak dengan benar saat membuat git commit
Saya sudah lama jadi pengguna berat kombinasi claude-4-sonnet + Cursor, tetapi dalam 2 bulan terakhir penggunaan saya melonjak tajam
Setelah berlangganan Cursor versi dasar lalu upgrade ke Pro, saya masih mentok pada batasan, dan akhirnya memakai API key Claude sendiri hingga menghabiskan sekitar $70 per minggu (terasa tidak mungkin dipertahankan)
Lalu muncul grok-code-fast-1, saya sambungkan ke Cursor dan memakainya setiap hari; cepat, murah (sejauh ini gratis), dan saya sangat puas
Belakangan saya juga mencoba GPT-5 melalui ekstensi resmi Codex untuk VSCode, dan hasilnya benar-benar mengejutkan bagus
Dengan gpt-5-medium saya melakukan refaktor besar pada aplikasi React Native, memperbaiki struktur dan performa aplikasi hanya dalam semalam (kalau saya kerjakan sendiri setidaknya butuh 2 hari)
Sekarang saya sedang menyuruh gpt-5-medium-codex mengerjakan ulang seluruh struktur routing aplikasi, dan jumlah tool call-nya banyak, dengan pemahaman perintah dan eksekusi yang sangat sistematis
Ke depannya stack saya kemungkinan adalah Cursor + grok-code-fast-1 (untuk penggunaan harian), dan Codex/GPT saat diperlukan
Sebagai catatan, saya benar-benar menyiksa gpt-5-medium seharian penuh, tetapi dengan akun ChatGPT Plus saya belum pernah sekali pun kena limit, jadi saya berterima kasih pada tim OpenAI
Saya penasaran dengan workflow saat mencoba refaktor menggunakan gpt-5-medium
Karena saya belum punya contoh yang layak diuji sendiri, saya ingin tahu bagaimana Anda memberi prompt ke model, saran seperti apa yang Anda terima, dan seberapa besar pengetahuan saya sebagai developer akan membantu
Saya juga penasaran apakah pengalaman yang bisa saya pahami ini berada pada level yang mungkin dicapai SWE rata-rata, atau developer rata-rata
Setelah 1 tahun memakai Cursor, untuk pertama kalinya saya melewati batas penggunaan
Saya pernah kena limit di Claude, GPT, dan juga Grok
Jadi saya memilih tambah pembayaran penggunaan dalam langganan Cursor Pro (bulanan $25, yaitu $20+$5) untuk terus memakai Claude, karena menurut saya dia lebih cepat daripada Grok
Saya juga akhirnya mengambil keputusan yang hampir sama
grok-code-fast-1 bekerja baik untuk sebagian besar tugas coding
Saya memakainya di opencode, dan tampaknya ada kuota gratis tertentu; saya bahkan bisa memakainya tanpa menambahkan key grok terpisah
Saya sangat terkesan dengan kualitas Codex CLI IDE
Kalau sebelumnya Anda merasa biasa saja, saya sarankan mencobanya lagi lewat ekstensi vscode karena untuk langganan Plus kuota penggunaannya terasa diberikan dengan sangat royal
Saya meninggalkan langganan Claude code max dan beralih ke paket ChatGPT pro $200
Jauh lebih cepat, dan sejauh ini belum pernah kena limit
Saya menggunakan kombinasi aider dan gemini pro untuk pengembangan proyek
Secara spesifik saya membagikan proyek tool yang saya buat: aretecodex.tools
Saya memakai Cursor di paket $20, tetapi baru 15 hari sudah kena limit dan sisa sebulan ini jadi harus membayar biaya tambahan
Saya penasaran solusi apa yang layak direkomendasikan
Saya penasaran apa sebenarnya yang dimaksud dengan CLI IDE
Sekarang apakah ini juga bisa dipakai dengan model langganan seperti claude code, atau hanya tersedia lewat API, saya jadi bingung
Menarik melihat banyak pengguna di thread ini beralih ke Codex atau meninggalkan Claude Code
Masalah terbesar Claude Code adalah kalau diberi terlalu banyak tugas, dia sering membuat implementasi mock atau kode palsu yang justru memperburuk keadaan dalam praktik
Saya mencoba menyesuaikan prompt input, tetapi sulit membaik, dan akhirnya saya menggantinya dengan Codex
Memang Codex punya keuntungan karena bekerja di dalam codebase yang sudah tersetup sepenuhnya, tetapi dari sisi pengalaman nyata Codex terasa jauh lebih baik
Sistem lain tidak punya mode "planning" terpisah, jadi dari awal langsung mencoba implementasi dan akibatnya prompt harus dituning dengan sangat hati-hati
Claude mendukung struktur "rencana > eksekusi" secara terpisah, jadi pendekatannya memang berbeda
Dari pengamatan saya selama dua minggu terakhir, Claude Code performanya banyak menurun dan alokasi penggunaannya juga menyusut tajam, sedangkan OpenAI Codex justru terasa meningkat performanya dan kuotanya jauh lebih longgar
Kalau ada yang belum memakainya lagi selama lebih dari sebulan, saya sarankan coba tes Codex CLI sekali lagi
Dari sudut pandang pengguna akhir, menurut saya yang terpenting adalah "bisa keluar kapan saja"
Kita harus terus membandingkan layanan dan memilih yang rasio harga/kinerjanya paling baik
Selama setahun terakhir banyak perusahaan bersaing dengan berbagai kelebihan dan kekurangan, tetapi tidak ada layanan yang benar-benar revolusioner
Tidak ada alasan untuk fanatik pada satu layanan tertentu, dan justru penyedia SaaS-lah yang sedang berusaha keras mempertahankan pengguna
Saya penasaran apakah Codex CLI masih punya kebiasaan bertindak dengan gaya "YOLO (langsung kerjakan semua)" setiap kali ada git di proyek
Hal yang paling saya inginkan dari tool bantu coding adalah
rmharus selalu minta persetujuanSaya tidak terlalu peduli ada atau tidaknya build hook atau fitur sub-agent
Ada satu hal yang saya ingin tahu: bagaimana cara memakai mode yang setara dengan "normal mode" milik Claude di Codex CLI
Codex sepertinya hanya mendukung vibe coding atau plan mode, dan tidak ada mode interaktif di tengah yang bertanya "bolehkah saya mengerjakan tugas ini (a/b)?", sehingga terasa frustrasi
Sulit memahami mengapa saya hanya boleh memilih antara menyalin-tempel editan kode yang dihasilkan, atau menerimanya secara otomatis
Lalu saya meninjau loop rencana itu beberapa kali sebelum menyuruhnya mengeksekusi
Kadang LLM "lupa" pada rencananya, jadi saya menyalin dan menyimpan rencana itu secara terpisah
Saya juga memintanya menyerahkan pekerjaan ke saya per tahap, atau melakukan verifikasi di setiap tonggak seperti build/unit test
Terasa sangat mengesankan
Saat mengembangkan "shared presence" animation (web app yang latarnya berubah sesuai posisi kursor semua pengguna), saya bereksperimen memakai Claude dan Codex sekaligus
Sampai kemarin kedua model sama-sama kesulitan, meski Claude sedikit lebih unggul
Dalam situasi ketika harus membuat sesuatu yang "kreatif", hasil kedua model cenderung agak generik (
stock), dan implementasi simulasi cukup sulitHari ini saat saya mengerjakan tugas yang sama dengan Codex, sisi desainnya masih tetap hambar, tetapi bagian simulasinya performanya jauh lebih baik
Kalau diberi atribut UI tambahan atau instruksi seperti "tolong sesuaikan dengan desain aplikasi yang sudah ada", hasilnya akan jauh lebih baik
Saya ingin mencoba lagi AI coding, jadi saya berlangganan ChatGPT dan mencoba Codex, tetapi rasanya sangat lambat
Padahal repositorinya nyaris kosong dan tugasnya sederhana, modelnya malah hanya "berpikir" selama 20 menit
Pengalaman engineer yang hanya menunggu seperti ini membuat saya ragu pada produktivitas nyatanya
Kalau agen asinkron, memang beberapa bisa dijalankan paralel, tetapi tetap butuh codebase yang terstruktur, dan walaupun saya sudah menghabiskan beberapa jam, saya bahkan belum bisa membuat skeleton
Saya sudah membaca dan menonton semua dokumentasi dan videonya, tetapi pada titik ini rasanya jauh lebih cepat kalau saya bangun sendiri dengan tangan
Saya penasaran apakah saya yang melakukan kesalahan, apakah hanya karena server sedang overload, atau memang kemampuan AI saat ini pada dasarnya seperti ini
Begitu terbiasa membuat beberapa agen bekerja bersamaan, menurut saya ini jadi cukup berguna
Saya pernah membaca artikel terkait soal ini, tetapi sekarang sulit menemukannya
Saya pertama kali mencoba Codex akhir pekan lalu, tetapi hasilnya agak aneh
Saya meminta contoh yang sangat sederhana (menjalankan aplikasi Rails dengan Docker Compose lalu menambahkan homepage/Devise), tetapi alih-alih membuat file sungguhan, ia malah meng-hardcode seluruh isi file ke dalam bootstrap.sh
Saya ingin melihat lagi apakah nanti perilakunya akan berbeda dengan cara lain
Sudah sebulan terakhir saya membeli dan memakai chatgpt, dan saya merasa OpenAI akhir-akhir ini banyak meningkatkan pengalaman pengguna
Misalnya mode voice jauh lebih baik daripada Claude, dan nama model yang dulu membingungkan sekarang sudah disederhanakan sehingga lebih mudah dipakai
Bahkan sebagai asisten umum pun performanya terasa lebih baik daripada Claude, dan OpenAI unggul dalam hal kepercayaan karena terus merilis tool baru