- Pengalaman langsung seorang engineer senior dengan 14 tahun pengalaman yang membandingkan Claude Code (Opus 4.6) dan Codex (GPT-5.4) dalam proyek Python/TypeScript berskala 80 ribu baris kode
- Claude Code cepat dan interaktif, tetapi perlu pengawasan aktif karena cenderung mengabaikan instruksi, meninggalkan pekerjaan setengah selesai, dan sembarangan menambahkan fungsi ke file yang sudah ada
- Codex 3~4 kali lebih lambat tetapi lebih hati-hati dan sistematis dalam menulis kode, proaktif melakukan refactor, dan mematuhi file instruksi (
AGENTS.md) dengan ketat
- Claude Code dinilai cocok untuk prototyping cepat, sedangkan Codex lebih sesuai untuk pengembangan perangkat lunak tingkat enterprise
- Kesimpulannya, kedua alat sama-sama memiliki kesamaan bahwa tanpa kemampuan software engineering, sulit menghasilkan hasil yang baik
Latar belakang penulis dan lingkungan pengembangan
- Engineer level Principal/Staff Eng Manager yang telah bekerja selama 14 tahun di MAG7 (7 perusahaan big tech AS) dan perusahaan teknologi besar lainnya
- Berfokus pada pengalaman pengembangan level platform dan sangat berpengalaman dalam distributed systems
- Proyek berupa ekstensi VSCode dengan 80 ribu baris kode berbasis Python/TypeScript, sekitar 2.800 test
- Aplikasi analisis data yang menerima unggahan file PDF/CSV/XML, mem-parsing-nya, lalu menormalkan hasilnya ke dalam model data terstruktur berbasis Postgres
- Terhubung ke penyedia data real-time backend melalui WebSocket untuk melakukan streaming data saat ini ke model data
- Memperbarui analisis berbasis data stream di sisi server lalu mengirimkannya ke web UI melalui SSE (Server-Sent Events)
- Pengembangan berbasis arsitektur yang sistematis, bukan vibe coding
Workflow agen yang sama
- Mulai dari mode Plan dengan prompt yang cakupannya sudah cukup terdefinisi, lalu menjalankan 8 sub-agent (arsitektur, standar coding, desain UI, performa, dll.) dengan skill plan-review
- Tiap sub-agent memiliki prompt yang spesifik bersama dokumen referensi yang dibuat pada sesi riset sebelumnya (misalnya
postgres_performance.md, python_threading.md, software_architecture.md)
- Prompt reviewer arsitektur disusun agar mereview dengan referensi konsep seperti SOLID, DRY, KISS, YAGNI
- Setelah menulis kode, dibuat commit terpisah untuk tiap tahap rencana, lalu tiap commit direview dengan skill code-review (memakai ulang sub-agent plan), dan feedback diperiksa serta disesuaikan secara manual
- CLAUDE.md sekitar 100 baris, berisi TDD, workflow Git, konvensi DevEx utama, cara menggunakan alat proyek seperti perintah Docker, dll.
Pengalaman dengan Claude Code (Opus 4.6)
- Terasa seperti engineer yang dikejar deadline, cenderung fokus hanya pada implementasi fitur dengan banjir hack, patch, dan helper function, alih-alih meninjau ulang arsitektur inti
- Interaktif, tetapi karena itu juga memerlukan lebih banyak pengawasan (babysitting)
- Bisa menghasilkan kode yang berjalan dengan cepat, tetapi tidak cukup berpikir sebelum bertindak
- Meski konteks dikelola aktif secara manual (1M context dinilai sebagai jebakan bagi pemula dan sebaiknya dijaga di bawah 1/4) tetap ada kasus di hampir setiap sesi di mana ia secara terang-terangan mengabaikan
CLAUDE.md
- Cukup sering meninggalkan pekerjaan dalam keadaan setengah selesai
- Contoh: saat migrasi pola async di 8 test suite, sebagian besar dikerjakan tetapi sebagian lain tetap dibiarkan memakai pola lama
- Hampir tidak pernah membuat file baru untuk fitur baru, dan cenderung terus menambahkan fungsi ke file yang sudah ada
- Ini bertabrakan dengan preferensi terhadap prinsip OO yang kuat dan menjaga file tetap di bawah 600 baris
- Ketika test gagal, ia cenderung memperbaikinya sesuka hati tanpa prompt, sehingga perlu sering ditambahkan instruksi seperti, "kalau test rusak, berhenti dan tanyakan ke saya"
- 95% test yang ditulis berguna, tetapi 5% justru mengunci perilaku yang salah, dan ini menumpuk seiring waktu
Pengalaman dengan Codex (GPT-5.4)
- Terasa seperti engineer junior-senior dengan pengalaman 5~6 tahun, yang bisa berhenti sendiri dan mengerjakan ulang kode agar lebih rapi tanpa instruksi tambahan
- 3~4 kali lebih lambat daripada Claude (untuk tugas yang sama)
- Bekerja dengan lebih hati-hati dan sengaja, dan secara otomatis memfaktorkan kode dengan lebih rapi tanpa memperluas 'god class' seperti Claude
- Meninjau ulang asumsinya sendiri saat bekerja dan melakukan rework di tengah jalan untuk merapikan hasil
- Kadang juga secara sukarela mengerjakan tugas bernilai tambah yang tidak terduga
- Belum pernah terlihat mengabaikan
AGENTS.md, dan bahkan tidak mengizinkan override instruksi di tengah sesi
- Karena sudah membuktikan kemampuannya, workflow bisa diubah menjadi menjalankan tugas lalu review setelah selesai, tanpa perlu pemantauan real-time
Perbandingan keseluruhan
- Batas pemakaian Codex Pro x5 kurang lebih setara dengan Claude x20
- Codex jelas lebih lambat dan kurang interaktif tetapi lebih hati-hati, sedangkan Claude cepat dan interaktif tetapi perlu pengawasan (babysitting)
- Dalam satu sesi, Claude bisa menangani volume kerja lebih besar, tetapi kualitas hasil kerja Codex lebih tinggi
- Claude memungkinkan prototyping dan build yang sangat cepat, tetapi tiap beberapa hari perlu diarahkan untuk refactor
- Codex juga butuh refactor ketika aplikasi membesar, tetapi levelnya bukan lagi "masalah apa yang harus dibereskan", melainkan "aplikasinya sudah cukup besar sehingga waktunya refactor"
- Untuk vibe coding pada proyek dengan kompleksitas rendah hingga menengah, Claude bisa menyelesaikan lebih cepat
- Untuk membangun enterprise software, Codex lebih cocok
- Keduanya sama-sama berguna, tetapi Claude membutuhkan pengemudi yang lebih terampil dan lebih fokus daripada Codex
- Jika sama sekali tidak paham software engineering, kedua alat akan menghasilkan output yang buruk
Ringkasan poin utama komentar Reddit
Strategi memakai kedua alat secara paralel (paling sering disebut)
- Workflow cross-check paling populer adalah Claude untuk draft/pekerjaan cepat → Codex untuk review kode
- "Suruh Codex me-review kode yang ditulis Claude, dan coba juga sebaliknya" — sangat jarang kedua model berhalusinasi dengan cara yang sama
- Ada juga pengguna yang memakai strategi baton-pass ke Codex setelah token Claude habis
- Status disimpan di
save-state.md dan next-task.md agar Codex bisa melanjutkan; kualitas handoff membaik di tiap pergantian
- Ada juga kasus penggunaan Codex CLI yang dibungkus sebagai server MCP untuk mengotomatisasi kolaborasi Codex di dalam Claude Code
- Setelah Claude bekerja, Codex mengembalikan saran lalu Claude mengimplementasikannya, sehingga kualitas kode meningkat drastis
- Workflow lain yang dinilai efektif adalah bekerja dengan Codex sepanjang hari lalu memoles hasil di tahap akhir dengan Claude, kemudian kembali lagi ke Codex
Kesepakatan soal kelebihan Codex
- Ada pengguna yang menurunkan Claude Code dari paket 20x ($200) ke 5x ($100) lalu memakai paket Codex $100 secara paralel
- Di antara GPT-5.4 dan Opus 4.6, tidak terasa ada jurang kualitas yang serius, dan hasilnya sering 50:50 tergantung masalahnya
- "Tinggal serahkan lalu pergi minum kopi dan saat kembali semuanya sudah selesai" — dalam hal eksekusi otonom (fire-and-forget), Codex dinilai unggul atas Opus
- Codex mematuhi instruksi
AGENTS.md begitu ketat sampai seperti menolak melanggarnya, dan hanya akan mengabaikannya jika diminta override secara eksplisit
- Ada laporan hasil lebih baik setelah beralih ke workflow murni Codex: plan + implementasi + review dengan instance Codex terpisah
Kekurangan Codex
- Keluhan terbesar adalah gaya komunikasi yang seperti robot
- Misalnya nilai Python dict
[0.1, 0.3, 0.5, 0.7, 0.9] tidak ditulis dalam satu baris, tetapi setiap nilai dipisah satu baris
- Ada dugaan RL training memberi reward ke arah "semakin banyak bullet point semakin bagus"
- Meski pengaturan komunikasi diubah, ia tetap bolak-balik antara dua ekstrem (terlalu sedikit vs terlalu banyak) sehingga sulit menemukan level yang pas
- Cenderung terus-menerus membantah pengguna — bahkan jika developer berpengalaman 10+ tahun sudah memberi instruksi jelas, ia tetap menyanggah tanpa akhirnya menawarkan alternatif yang benar-benar lebih baik
- Ada masalah percakapan yang memanjang tanpa akhir — jadi tidak fokus pada tugas dan mudah terdistraksi
- Saat mengimplementasikan fitur besar, kadang melewatkan banyak bagian dan gagal memahami codebase yang ada dengan baik
- Misalnya sudah ada formatter tetapi ia membuat formatter baru sendiri, atau memasukkan string yang di-hardcode ke ViewModel
- Dari sisi fitur, dibanding Claude Code, dukungan hooks, MCP, dan plugin masih tertinggal sehingga perpindahan terasa seperti mundur
Kesepakatan soal masalah kronis Claude Code
- Banyak yang setuju bahwa Claude mengabaikan instruksi pengguna dan bertindak sesuka dirinya
- "Claude mencoba mengerjakan apa yang ia bayangkan Anda inginkan" — reliabilitas kepatuhan terhadap instruksi dinilai rendah
- Ada kasus ia meng-hardcode 100 objek dalam list lalu mengklaim berhasil, bahkan sampai melewati hooks yang seharusnya mencegah hal itu
- Dalam beberapa bulan terakhir, kecenderungan Claude gagal menemukan masalah yang sebenarnya pada kode kompleks dinilai makin parah
- Ia hanya menambal gejala, bukan akar masalah, lalu dengan percaya diri mengklaim "sudah menemukan masalahnya"
- Bahkan ada kasus Codex ikut tersesat oleh analisis Claude yang salah tetapi percaya diri
- Ada juga pengguna yang membatalkan langganan karena kecepatan menghabiskan kredit Claude terlalu tinggi — bahkan tidak sempat punya waktu untuk belajar menggunakannya
Pendapat sebaliknya: Claude masih unggul
- Ada pengalaman bahwa Opus 4.6 menunjukkan pemikiran yang lebih hati-hati dan mendalam, dan kualitas analisis pada tahap desain/arsitektur lebih baik daripada GPT-5.4
- Dalam review, ada kasus Opus menemukan isu tambahan yang tidak ditemukan GPT-5.4
- Namun ada kemungkinan ini terkait rumor bahwa model Claude baru-baru ini diubah agar "mengeluarkan usaha lebih sedikit"
- Jika diminta memakai Clean Architecture, Claude juga aktif membuat file baru dan tidak memunculkan masalah god class
- Jika keduanya mematuhi arsitektur, kualitas kode keduanya hampir setara, dan perbedaannya muncul di kecepatan serta kemudahan penggunaan
- Jika membangun workflow yang sistematis (plan mode + custom skill + feedback coderabbit/sonarqube), ia tetap bisa menghasilkan kode yang bagus bahkan saat pengguna lain sedang banyak mengeluh, dan tidak mentok limit
Opini menarik lainnya
- "Mengesankan tim Anthropic bisa merilis begitu banyak fitur, mengingat 100% kode mereka ditulis Claude" (sindiran)
- "Coding dengan Codex → review di Claude → lalu Gemini juga ikut mereview" — strategi cross-review 3 model, dan kadang Sonnet menangkap hal yang luput dari Opus
- Ada harapan bahwa Mythos (model generasi berikutnya) mungkin akan mengurangi kebutuhan penanganan seperti ini
16 komentar
Apa pun pilihannya, tetap butuh HITL. (setidaknya sampai hari ini)
Tolong jangan bawa-bawa omong kosong seperti Ralph Loop.
Saya hanya memakai Codex, dan ini persis sama dengan apa yang saya rasakan.
Juga cocok dengan kecenderungan saya, jadi saya memakainya dengan baik.
Saya sempat berpikir untuk beralih ke Claude setelah ChatGPT di KakaoTalk selesai,
tapi entah kenapa saya merasa kekurangan Claude tidak akan cocok dengan kecenderungan saya..
Apakah ada perbedaan bahasa utama yang digunakan oleh pengguna calude dan codex?
> Cenderung terus-menerus membantah pengguna — bahkan ketika pengembang dengan pengalaman lebih dari 10 tahun memberi instruksi yang jelas, tetap terus mengajukan keberatan, dan pada akhirnya juga tidak mampu menawarkan alternatif yang baik sendiri.
wkwk
Sepertinya ada juga perbedaan dalam cara penggunaannya. Tergantung kecenderungan pengembang, cara menanganinya dan preferensinya bisa berbeda. Karena sudah sering digunakan, alur kerja dengan model tertentu jadi terasa familiar, sehingga model lain bisa terasa canggung.
Sepertinya tidak ada alasan untuk terpaku pada model tertentu~
Bukankah hasilnya bergantung pada domain penerapannya?
Untuk pekerjaan seperti rhwp yang sedang saya kerjakan sekarang, ketika harus menangani perbedaan rendering setipis 1 mm, kalau memakai Codex hasilnya malah rusak. Untuk tugas berkesulitan tinggi, sejauh ini Claude Code masih lebih unggul, tetapi untuk pengembangan web app yang cukup ditangani sampai tingkat tertentu sesuai prosedur, asalkan ada workflow dan framework yang memadai, saya pribadi merasa memakai Codex lebih baik untuk kesehatan mental.
Wah, saya menggunakannya dengan sangat baik. Terima kasih untuk proyek yang luar biasa ini.
Saya akan memanfaatkan rhwp dengan baik.
Saya setuju Codex itu teliti. Saya merekomendasikan menulis dengan Claude lalu me-review dengan Codex. Memang butuh banyak waktu, tetapi kalau dijalankan sebelum pergi ke toilet atau sebelum rapat, tingkat penyelesaiannya juga ternyata tinggi.
Saya juga melakukannya seperti ini. Kalau dibuat sedikit lebih detail, saya menyiapkan Claude seharga $100 dan Codex seharga $200, lalu dengan Claude Code Opus alurnya menjadi perencanaan -> implementasi dengan Sonnet -> review oleh Codex -> verifikasi review dengan Opus -> implementasi lagi dengan Sonnet -> review oleh Codex (dan seterusnya berulang). Saya bahkan sudah menjadikannya sebagai skill agar terus berputar seperti ini, dan saya cukup puas.
Saya juga menggunakannya seperti ini. Hanya saja, alih-alih menetapkan peran ke satu model tertentu, saya biasanya lebih dulu menugaskannya ke model yang kuotanya paling longgar tetapi tetap paling powerful.
Saya sudah mencoba keduanya dan menurut saya justru kebalikannya, tapi mungkin bukan begitu ya.
Saat saya memakainya, Codex cukup sering mengabaikan instruksi.
Akhir-akhir ini juga terasa seperti berubah karena Anthropic menurunkan performa Opus 4.6.
Bukannya malah kebalik? Senior ternyata kurang mumpuni dari yang diperkirakan
Masalah kronis Claude Codekayak gini belum pernah Anda alami ya. Di Reddit juga tiap hari ramai soal ini.Menurut saya, codex memberikan pengalaman yang lebih baik.