GPT-5-Codex

(openai.com)

16 poin oleh GN⁺ 2025-09-17 | 6 komentar | Bagikan ke WhatsApp

GPT-5-Codex adalah model yang dioptimalkan untuk rekayasa perangkat lunak nyata, mendukung semuanya mulai dari sesi percakapan singkat hingga pekerjaan mandiri jangka panjang
Model baru ini memperkuat kemampuan code review, menangkap cacat penting lebih awal melalui penelusuran dependensi, menjalankan pengujian, dan membandingkan niat dengan implementasi
Menunjukkan performa unggul dalam hal seperti refaktorisasi kode skala besar, serta menyesuaikan waktu kerja secara dinamis sesuai kebutuhan pengguna
Codex CLI dan ekstensi IDE diperbarui agar lebih cocok untuk workflow agen, dengan peningkatan seperti lampiran gambar, pelacakan progres pekerjaan, pencarian web, dan integrasi MCP
Melalui integrasi GitHub, kini dimungkinkan review PR otomatis hingga saran perbaikan, mengurangi beban review tim dan meningkatkan keandalan rilis
Codex kini termasuk dalam paket ChatGPT Plus, Pro, Business, Edu, Enterprise

GPT-5-Codex

GPT-5-Codex adalah model yang dikhususkan untuk tugas rekayasa nyata yang kompleks (build proyek, penambahan fitur, refaktorisasi skala besar, debugging, code review)
- Kemampuan mematuhi instruksi AGENTS.md ditingkatkan, sehingga hasil yang diinginkan bisa diperoleh tanpa perlu penjelasan panjang tentang gaya atau kebersihan kode
Menyesuaikan waktu berpikir secara dinamis sesuai tingkat kesulitan tugas
- Merespons cepat untuk permintaan sederhana, dan untuk pekerjaan besar dapat berjalan mandiri selama berjam-jam sambil terus menyempurnakan hasil
Dioptimalkan untuk code review, melakukan verifikasi akurat melalui penelusuran codebase, analisis dependensi, dan menjalankan pengujian
- Dalam verifikasi commit proyek open source, review GPT-5-Codex dinilai lebih andal
Juga kuat untuk pekerjaan frontend, dan di cloud dapat memanfaatkan input gambar untuk meninjau progres secara visual serta membagikan hasil sebagai screenshot
Sementara GPT-5 adalah model umum, GPT-5-Codex dirancang untuk tugas coding bergaya agen khusus di lingkungan Codex

Pembaruan Codex

Codex CLI dan ekstensi IDE didesain ulang dengan fokus pada pengalaman coding bergaya agen
- Di CLI kini dimungkinkan melampirkan gambar, mengelola To-Do progres pekerjaan, dan menghubungkan sistem eksternal
- UI terminal ditingkatkan agar pemanggilan tool dan diff lebih mudah dilihat
- Mode persetujuan disederhanakan untuk memberikan keamanan dan kenyamanan sekaligus
Ekstensi IDE bekerja di VS Code, Cursor dan lainnya, serta memberikan hasil lebih cepat dengan prompt yang lebih singkat berdasarkan file dan kode yang dipilih
- Mendukung perpindahan mulus antara lingkungan lokal dan cloud, pelacakan pekerjaan yang sedang berjalan, serta peninjauan pekerjaan yang sudah selesai
Di lingkungan cloud, peningkatan kecepatan melalui caching (pengurangan 90%), pengaturan lingkungan otomatis, dan kontrol akses internet diperkuat
- Gambar dapat digunakan saat membuat spesifikasi desain UI atau laporan bug, dan Codex dapat membuka browsernya sendiri untuk memeriksa hasil lalu melampirkan screenshot ke PR
Mendukung review PR otomatis dan saran perbaikan melalui integrasi GitHub
- Permintaan review tertentu dapat dilakukan dengan perintah @codex review
- Di internal OpenAI juga, Codex lebih dulu meninjau sebagian besar PR dan menemukan ratusan isu lebih awal

Keselamatan dan keamanan

Codex secara default berjalan di lingkungan sandbox, sehingga akses jaringan dibatasi
- Eksekusi perintah berisiko dapat dikendalikan berdasarkan persetujuan, dan hanya domain tepercaya yang dapat diizinkan
Developer dapat menyesuaikan tingkat keamanan sesuai lingkungan, dan Codex menyediakan log serta hasil pengujian untuk tiap tugas guna membantu verifikasi
Disarankan untuk menggunakannya sebagai reviewer pendamping, bukan pengganti human review
GPT-5-Codex diklasifikasikan sebagai model dengan kemampuan tinggi di domain biologi dan kimia, sehingga pengaman diterapkan

Harga dan ketersediaan

Codex termasuk dalam paket ChatGPT Plus, Pro, Business, Edu, Enterprise
- Plus/Edu/Business cocok untuk sesi 1–2 kali per minggu, sedangkan Pro mendukung pekerjaan pengembangan mingguan penuh waktu
Paket Business memungkinkan pembelian kredit tambahan, sementara Enterprise beroperasi dengan pool kredit bersama
GPT-5-Codex juga akan segera tersedia bagi pengguna API key Codex CLI
Codex akan berkembang menjadi partner coding yang lebih cepat dan andal, serta memantapkan diri sebagai alat yang membantu tim menjalankan proyek-proyek ambisius

6 komentar

aeolian21 2025-09-18

Kemampuan pemecahan masalahnya untuk isu yang perlu mempertimbangkan banyak konteks rendah, dan secara keseluruhan terlalu sering menggunakan kode design pattern yang tidak perlu. Ini sangat memberi kesan bahwa dalam pelatihannya, yang terutama digunakan bukan kode produksi nyata melainkan kode contoh untuk tujuan edukasi.
Secara keseluruhan, ada perbedaan performa yang cukup besar dibandingkan Gemini.

bluekai17 2025-09-18

Kalau dibandingkan dengan Claude Code, untuk saat ini apakah Claude Code masih sedikit lebih layak dipakai?

kuthia 2025-09-18

Pada akhirnya, apakah pengalaman pengguna yang baik dari alat AI adalah yang mempertimbangkan tingkat literasi(?) penggunanya, sekaligus menjamin kualitas hasil pada level tertentu?
Menarik juga bahwa pengguna dari semua tingkat secara konsisten mengharapkan sesuatu yang lebih baik dari alat AI.

slowandsnow 2025-09-17

Claude terlalu tidak nyaman dipakai, jadi rasanya ingin pindah dan mencobanya.

shakespeares 2025-09-18

Adakah hal yang membuat Anda kurang nyaman?

GN⁺ 2025-09-17

Opini Hacker News

Dikonfirmasi bahwa ukuran prompt model baru berkurang hampir setengah dibanding sebelumnya (10KB vs 23KB) (sumber terkait: contoh prompt sebelumnya, contoh prompt yang lebih lama)
Performa berdasarkan SWE-bench mirip dengan gpt-5 yang ada, tetapi gpt-5-codex tampaknya terutama ditingkatkan di bidang refaktor kode (berdasarkan benchmark internal 33.9% -> 51.3%)
Baru-baru ini saya mencoba refaktor besar-besaran untuk memisahkan beberapa library internal menjadi paket menggunakan Codex CLI (gpt-5-high), tetapi modelnya sering memunculkan bug saat proses menghapus lalu menulis ulang file (misalnya file penting hilang)
Secara pribadi saya lebih suka pendekatan menyalin file begitu saja lalu memodifikasinya per paket, dan dalam peningkatan kali ini tampaknya tool calling yang lebih baik sudah diterapkan
Selain itu, mereka juga mengklaim model baru ini lebih "steerable" (lebih mudah dikendalikan secara eksplisit), tetapi menurut pengalaman saya Codex CLI (gpt-5) saja sudah jauh lebih mudah dikendalikan daripada Claude Code, jadi peningkatan tambahan ini sangat disambut baik
- Saya setuju bahwa skor SWE-bench serupa untuk gpt-5 dan gpt-5-codex, tetapi evaluasi bernama SWE-bench sendiri adalah pengujian yang sangat terbatas
  Meskipun skornya sama, pengalaman penggunaan nyata bisa sangat berbeda
  Saya juga membagikan thread di X (dulu Twitter) yang membahas detail aspek-aspek yang tidak bisa diukur SWE-bench: tautan
- Fakta bahwa model ini "lebih steerable" justru bisa menjadi kelemahan
  Karena model ini juga bisa terlalu harfiah mengikuti prompt
  Akibatnya, pemahaman tentang cara menulis prompt yang lebih baik dan memanfaatkan model jadi makin diperlukan
  Ini bagus untuk insinyur software level tinggi, tetapi bisa jadi sulit bagi developer yang ngoding berdasarkan feel (vibe-coder)
- Tiba-tiba ada banyak pendapat bahwa Codex CLI dengan gpt-5-codex sekarang lebih baik daripada Claude Code, dan itu terasa sulit dipercaya begitu saja
- Saya penasaran apakah sebagian prompt dipindahkan ke layer yang lebih tinggi, atau di-bake ke dalam model dengan cara lain
- Saat melakukan refaktor kode untuk dipindahkan ke paket, saya merekomendasikan memindahkan file secara manual
  Lalu cukup beri tahu Codex, "dulu file ini ada di lokasi lain, jadi tolong perbaiki agar tetap berfungsi"
  Tampaknya konsep pemindahan file masih belum ditangani dengan baik oleh Codex maupun CLI lain
  Khususnya penghapusan/pemindahan file hampir tidak pernah terlacak dengan benar saat membuat git commit
Saya sudah lama jadi pengguna berat kombinasi claude-4-sonnet + Cursor, tetapi dalam 2 bulan terakhir penggunaan saya melonjak tajam
Setelah berlangganan Cursor versi dasar lalu upgrade ke Pro, saya masih mentok pada batasan, dan akhirnya memakai API key Claude sendiri hingga menghabiskan sekitar $70 per minggu (terasa tidak mungkin dipertahankan)
Lalu muncul grok-code-fast-1, saya sambungkan ke Cursor dan memakainya setiap hari; cepat, murah (sejauh ini gratis), dan saya sangat puas
Belakangan saya juga mencoba GPT-5 melalui ekstensi resmi Codex untuk VSCode, dan hasilnya benar-benar mengejutkan bagus
Dengan gpt-5-medium saya melakukan refaktor besar pada aplikasi React Native, memperbaiki struktur dan performa aplikasi hanya dalam semalam (kalau saya kerjakan sendiri setidaknya butuh 2 hari)
Sekarang saya sedang menyuruh gpt-5-medium-codex mengerjakan ulang seluruh struktur routing aplikasi, dan jumlah tool call-nya banyak, dengan pemahaman perintah dan eksekusi yang sangat sistematis
Ke depannya stack saya kemungkinan adalah Cursor + grok-code-fast-1 (untuk penggunaan harian), dan Codex/GPT saat diperlukan
Sebagai catatan, saya benar-benar menyiksa gpt-5-medium seharian penuh, tetapi dengan akun ChatGPT Plus saya belum pernah sekali pun kena limit, jadi saya berterima kasih pada tim OpenAI
- Saya penasaran dengan workflow saat mencoba refaktor menggunakan gpt-5-medium
  Karena saya belum punya contoh yang layak diuji sendiri, saya ingin tahu bagaimana Anda memberi prompt ke model, saran seperti apa yang Anda terima, dan seberapa besar pengetahuan saya sebagai developer akan membantu
  Saya juga penasaran apakah pengalaman yang bisa saya pahami ini berada pada level yang mungkin dicapai SWE rata-rata, atau developer rata-rata
- Setelah 1 tahun memakai Cursor, untuk pertama kalinya saya melewati batas penggunaan
  Saya pernah kena limit di Claude, GPT, dan juga Grok
  Jadi saya memilih tambah pembayaran penggunaan dalam langganan Cursor Pro (bulanan $25, yaitu $20+$5) untuk terus memakai Claude, karena menurut saya dia lebih cepat daripada Grok
- Saya juga akhirnya mengambil keputusan yang hampir sama
  grok-code-fast-1 bekerja baik untuk sebagian besar tugas coding
  Saya memakainya di opencode, dan tampaknya ada kuota gratis tertentu; saya bahkan bisa memakainya tanpa menambahkan key grok terpisah
Saya sangat terkesan dengan kualitas Codex CLI IDE
Kalau sebelumnya Anda merasa biasa saja, saya sarankan mencobanya lagi lewat ekstensi vscode karena untuk langganan Plus kuota penggunaannya terasa diberikan dengan sangat royal
Saya meninggalkan langganan Claude code max dan beralih ke paket ChatGPT pro $200
Jauh lebih cepat, dan sejauh ini belum pernah kena limit
- Saya menggunakan kombinasi aider dan gemini pro untuk pengembangan proyek
  Secara spesifik saya membagikan proyek tool yang saya buat: aretecodex.tools
- Saya memakai Cursor di paket $20, tetapi baru 15 hari sudah kena limit dan sisa sebulan ini jadi harus membayar biaya tambahan
  Saya penasaran solusi apa yang layak direkomendasikan
- Saya penasaran apa sebenarnya yang dimaksud dengan CLI IDE
- Sekarang apakah ini juga bisa dipakai dengan model langganan seperti claude code, atau hanya tersedia lewat API, saya jadi bingung
Menarik melihat banyak pengguna di thread ini beralih ke Codex atau meninggalkan Claude Code
Masalah terbesar Claude Code adalah kalau diberi terlalu banyak tugas, dia sering membuat implementasi mock atau kode palsu yang justru memperburuk keadaan dalam praktik
Saya mencoba menyesuaikan prompt input, tetapi sulit membaik, dan akhirnya saya menggantinya dengan Codex
Memang Codex punya keuntungan karena bekerja di dalam codebase yang sudah tersetup sepenuhnya, tetapi dari sisi pengalaman nyata Codex terasa jauh lebih baik
- Saat memakai Claude, pendekatan yang paling efektif adalah 1) membuat rencana di plan-mode, lalu 2) menyuruhnya mengimplementasikan rencana itu
  Sistem lain tidak punya mode "planning" terpisah, jadi dari awal langsung mencoba implementasi dan akibatnya prompt harus dituning dengan sangat hati-hati
  Claude mendukung struktur "rencana > eksekusi" secara terpisah, jadi pendekatannya memang berbeda
Dari pengamatan saya selama dua minggu terakhir, Claude Code performanya banyak menurun dan alokasi penggunaannya juga menyusut tajam, sedangkan OpenAI Codex justru terasa meningkat performanya dan kuotanya jauh lebih longgar
Kalau ada yang belum memakainya lagi selama lebih dari sebulan, saya sarankan coba tes Codex CLI sekali lagi
- Dari sudut pandang pengguna akhir, menurut saya yang terpenting adalah "bisa keluar kapan saja"
  Kita harus terus membandingkan layanan dan memilih yang rasio harga/kinerjanya paling baik
  Selama setahun terakhir banyak perusahaan bersaing dengan berbagai kelebihan dan kekurangan, tetapi tidak ada layanan yang benar-benar revolusioner
  Tidak ada alasan untuk fanatik pada satu layanan tertentu, dan justru penyedia SaaS-lah yang sedang berusaha keras mempertahankan pengguna
- Saya penasaran apakah Codex CLI masih punya kebiasaan bertindak dengan gaya "YOLO (langsung kerjakan semua)" setiap kali ada git di proyek
  Hal yang paling saya inginkan dari tool bantu coding adalah

daftar izin eksekusi perintah (whitelist)
perintah berbahaya seperti rm harus selalu minta persetujuan
dukungan untuk custom slash command
Saya tidak terlalu peduli ada atau tidaknya build hook atau fitur sub-agent

Ada satu hal yang saya ingin tahu: bagaimana cara memakai mode yang setara dengan "normal mode" milik Claude di Codex CLI
Codex sepertinya hanya mendukung vibe coding atau plan mode, dan tidak ada mode interaktif di tengah yang bertanya "bolehkah saya mengerjakan tugas ini (a/b)?", sehingga terasa frustrasi
Sulit memahami mengapa saya hanya boleh memilih antara menyalin-tempel editan kode yang dihasilkan, atau menerimanya secara otomatis
- Biasanya saya menuliskan secara eksplisit di prompt, "buat rencana, dan jangan mulai coding sampai saya menyetujui"
  Lalu saya meninjau loop rencana itu beberapa kali sebelum menyuruhnya mengeksekusi
  Kadang LLM "lupa" pada rencananya, jadi saya menyalin dan menyimpan rencana itu secara terpisah
  Saya juga memintanya menyerahkan pekerjaan ke saya per tahap, atau melakukan verifikasi di setiap tonggak seperti build/unit test
Terasa sangat mengesankan
Saat mengembangkan "shared presence" animation (web app yang latarnya berubah sesuai posisi kursor semua pengguna), saya bereksperimen memakai Claude dan Codex sekaligus
Sampai kemarin kedua model sama-sama kesulitan, meski Claude sedikit lebih unggul
Dalam situasi ketika harus membuat sesuatu yang "kreatif", hasil kedua model cenderung agak generik (stock), dan implementasi simulasi cukup sulit
Hari ini saat saya mengerjakan tugas yang sama dengan Codex, sisi desainnya masih tetap hambar, tetapi bagian simulasinya performanya jauh lebih baik
- UI yang dibuat LLM memang akan selalu menghasilkan output yang biasa dan generik kalau tidak diberi prompt yang sangat detail (desain/skema warna/arahan preferensi desain, dll.)
  Kalau diberi atribut UI tambahan atau instruksi seperti "tolong sesuaikan dengan desain aplikasi yang sudah ada", hasilnya akan jauh lebih baik
Saya ingin mencoba lagi AI coding, jadi saya berlangganan ChatGPT dan mencoba Codex, tetapi rasanya sangat lambat
Padahal repositorinya nyaris kosong dan tugasnya sederhana, modelnya malah hanya "berpikir" selama 20 menit
Pengalaman engineer yang hanya menunggu seperti ini membuat saya ragu pada produktivitas nyatanya
Kalau agen asinkron, memang beberapa bisa dijalankan paralel, tetapi tetap butuh codebase yang terstruktur, dan walaupun saya sudah menghabiskan beberapa jam, saya bahkan belum bisa membuat skeleton
Saya sudah membaca dan menonton semua dokumentasi dan videonya, tetapi pada titik ini rasanya jauh lebih cepat kalau saya bangun sendiri dengan tangan
Saya penasaran apakah saya yang melakukan kesalahan, apakah hanya karena server sedang overload, atau memang kemampuan AI saat ini pada dasarnya seperti ini
- Banyak engineer yang saya lihat terutama mencoba menjalankan pekerjaan secara paralel
  Begitu terbiasa membuat beberapa agen bekerja bersamaan, menurut saya ini jadi cukup berguna
  Saya pernah membaca artikel terkait soal ini, tetapi sekarang sulit menemukannya
Saya pertama kali mencoba Codex akhir pekan lalu, tetapi hasilnya agak aneh
Saya meminta contoh yang sangat sederhana (menjalankan aplikasi Rails dengan Docker Compose lalu menambahkan homepage/Devise), tetapi alih-alih membuat file sungguhan, ia malah meng-hardcode seluruh isi file ke dalam bootstrap.sh
Saya ingin melihat lagi apakah nanti perilakunya akan berbeda dengan cara lain
Sudah sebulan terakhir saya membeli dan memakai chatgpt, dan saya merasa OpenAI akhir-akhir ini banyak meningkatkan pengalaman pengguna
Misalnya mode voice jauh lebih baik daripada Claude, dan nama model yang dulu membingungkan sekarang sudah disederhanakan sehingga lebih mudah dipakai
Bahkan sebagai asisten umum pun performanya terasa lebih baik daripada Claude, dan OpenAI unggul dalam hal kepercayaan karena terus merilis tool baru

GPT-5-Codex

GPT-5-Codex

Pembaruan Codex

Keselamatan dan keamanan

Harga dan ketersediaan

Bacaan terkait

6 komentar

Opini Hacker News