- Seorang engineer senior dengan 14 tahun pengalaman membandingkan secara langsung Claude Code (Opus 4.6) dan Codex (GPT-5.4) pada proyek Python/TypeScript berskala 80 ribu baris kode
- Claude Code cepat dan interaktif, tetapi perlu pengawasan aktif karena kerap mengabaikan instruksi, meninggalkan pekerjaan setengah jadi, dan sembarangan menambahkan fungsi ke file yang sudah ada
- Codex 3~4 kali lebih lambat tetapi lebih hati-hati dan sistematis saat menulis kode, secara sukarela melakukan refactor, dan sangat patuh pada file instruksi (
AGENTS.md) - Claude Code dinilai cocok untuk prototyping cepat, sementara Codex lebih pas untuk pengembangan perangkat lunak kelas enterprise
- Kesimpulannya, kedua alat ini sama-sama punya keterbatasan bahwa tanpa kemampuan software engineering, sulit menghasilkan hasil yang baik
Latar belakang penulis dan lingkungan pengembangan
- Engineer level Principal/Staff Eng Manager yang bekerja selama 14 tahun di MAG7 (7 perusahaan big tech AS) serta perusahaan teknologi besar lainnya
- Fokus utamanya adalah pengalaman pengembangan level platform, dengan jam terbang tinggi di sistem terdistribusi
- Proyeknya berupa 80 ribu baris kode berbasis Python/TypeScript dalam bentuk ekstensi VSCode, dengan sekitar 2.800 test
- Aplikasi analisis data yang menerima unggahan file PDF/CSV/XML dari pengguna, lalu mem-parsing dan menormalisasikannya ke dalam model data terstruktur berbasis Postgres
- Terhubung ke penyedia data real-time backend melalui WebSocket untuk melakukan streaming data saat ini ke model data
- Di sisi server, analisis berbasis stream data diperbarui dan dikirim ke web UI melalui SSE (Server-Sent Events)
- Pengembangannya bukan sekadar vibe coding, melainkan berbasis arsitektur yang sistematis
Workflow agen yang sama untuk keduanya
- Mulai dari mode Plan dengan prompt yang cakupannya cukup jelas, lalu menjalankan skill plan-review dengan 8 subagen (arsitektur, standar coding, desain UI, performa, dll.)
- Tiap subagen memiliki prompt spesifik bersama dokumen referensi yang dibuat pada sesi riset sebelumnya (mis.
postgres_performance.md,python_threading.md,software_architecture.md)- Reviewer arsitektur diberi prompt untuk melakukan review berdasarkan referensi konsep seperti SOLID, DRY, KISS, YAGNI
- Setelah penulisan kode, dilakukan commit terpisah untuk tiap tahap perencanaan, lalu setiap commit direview dengan skill code-review (memakai ulang subagen plan), dan feedback dicek serta disesuaikan secara manual
CLAUDE.mdterdiri dari sekitar 100 baris, berisi TDD, workflow Git, konvensi utama DevEx, perintah Docker, dan cara memakai alat-alat proyek
Pengalaman dengan Claude Code (Opus 4.6)
- Terasa seperti engineer yang dikejar deadline: cenderung fokus mengimplementasikan fitur dengan banjir hack, patch, dan helper function, alih-alih meninjau ulang arsitektur inti
- Interaktif, tetapi karena itu juga membutuhkan lebih banyak pengawasan aktif (babysitting)
- Cepat menghasilkan kode yang berjalan, tetapi tidak cukup berpikir sebelum bertindak
- Meski konteks dikelola manual secara aktif (1M context dianggap jebakan bagi pemula dan dinilai harus dijaga di bawah 1/4), hampir di setiap sesi ada kasus mengabaikan
CLAUDE.mdsecara terang-terangan - Sering kali meninggalkan pekerjaan dalam kondisi setengah selesai
- Contoh: saat migrasi pola async pada 8 test suite, sebagian besar dikerjakan tetapi beberapa tetap dibiarkan memakai pola lama
- Hampir tidak pernah membuat file baru untuk fitur baru, dan cenderung terus menambahkan fungsi ke file yang sudah ada
- Ini bertentangan dengan preferensi penulis terhadap prinsip OO yang kuat dan ukuran file di bawah 600 baris
- Jika test rusak, ia cenderung memperbaikinya seenaknya tanpa prompt, sehingga perlu sering ditambahkan instruksi seperti, “kalau test gagal, berhenti dan tanyakan ke saya”
- Sekitar 95% test yang ditulis memang berguna, tetapi 5% justru mengunci perilaku yang salah, dan akumulasinya makin besar seiring waktu
Pengalaman dengan Codex (GPT-5.4)
- Terasa seperti engineer junior-senior dengan pengalaman 5~6 tahun, yang bisa berhenti sendiri dan mengerjakan ulang kode agar lebih rapi tanpa perlu diminta
- 3~4 kali lebih lambat daripada Claude untuk tugas yang sama
- Bekerja dengan cara yang lebih hati-hati dan disengaja, dan tidak sekadar memperbesar
god classseperti Claude; ia otomatis memfaktorkan kode menjadi lebih rapat - Di tengah pengerjaan, ia meninjau ulang asumsi sendiri dan melakukan rework di tengah jalan untuk merapikannya
- Kadang juga secara sukarela melakukan pekerjaan bernilai tambah yang tidak terduga
- Penulis tidak pernah melihat Codex mengabaikan
AGENTS.md, dan bahkan ketika instruksi ingin dioverride di tengah sesi, Codex tidak mengizinkannya - Karena sudah membuktikan kapabilitas yang cukup, workflow-nya bisa diubah menjadi jalankan dulu lalu review setelah selesai, tanpa perlu pemantauan real-time
Perbandingan keseluruhan
- Batas pemakaian Codex Pro x5 berada di level yang mirip dengan Claude x20
- Codex jelas lebih lambat dan kurang interaktif, tetapi lebih hati-hati, sedangkan Claude cepat dan interaktif, tetapi butuh pengawasan (babysitting)
- Dalam satu sesi, Claude bisa menyelesaikan volume pekerjaan lebih besar, tetapi kualitas hasil kerja Codex lebih tinggi
- Claude memungkinkan prototyping dan build yang sangat cepat, tetapi perlu diarahkan untuk refactor setiap beberapa hari
- Codex juga tetap perlu refactor saat aplikasi membesar, tetapi levelnya bukan lagi “masalah apa yang harus dibereskan”, melainkan “aplikasinya sudah cukup besar sehingga sekarang saatnya refactor”
- Untuk vibe coding pada proyek berkompleksitas rendah hingga menengah, Claude bisa menuntaskan lebih cepat
- Untuk membangun software enterprise, Codex lebih cocok
- Keduanya sama-sama berguna, tetapi Claude membutuhkan pengemudi yang lebih terampil dan fokus dibanding Codex
- Jika tidak paham software engineering sama sekali, keduanya akan menghasilkan output yang buruk
📋 Ringkasan poin utama komentar Reddit
Strategi memakai kedua alat secara bersamaan (paling sering disebut)
- Workflow validasi silang paling populer adalah Claude untuk draf/pekerjaan cepat → Codex untuk code review
- “Suruh Codex me-review kode yang ditulis Claude, dan lakukan juga sebaliknya” — sangat jarang dua model berhalusinasi dengan cara yang sama
- Ada juga pengguna yang memakai strategi baton-pass ke Codex setelah token Claude habis
- Status disimpan di
save-state.mddannext-task.mdagar Codex bisa melanjutkan, dan kualitas handoff membaik di setiap pergantian
- Status disimpan di
- Ada pula kasus Codex CLI dibungkus sebagai server MCP untuk mengotomatiskan kolaborasi Codex di dalam Claude Code
- Setelah Claude bekerja, Codex mengembalikan saran, lalu Claude mengimplementasikannya, sehingga kualitas kode meningkat drastis
- Workflow lain yang efektif: bekerja seharian dengan Codex, lalu memoles hasil akhir dengan Claude, kemudian kembali lagi ke Codex
Kesepakatan soal kelebihan Codex
- Muncul pengguna yang menurunkan paket Claude Code dari 20x ($200) ke 5x ($100) lalu memakainya bersamaan dengan paket Codex $100
- Tidak terasa ada kesenjangan kualitas yang sangat besar antara GPT-5.4 dan Opus 4.6; tergantung masalahnya bisa 50:50
- “Tinggal jalankan, minum kopi, balik lagi, sudah selesai” — dalam hal eksekusi otonom (fire-and-forget), Codex dianggap unggul atas Opus
- Codex begitu patuh pada instruksi di
AGENTS.mdsampai-sampai menolak melanggarnya, kecuali diminta override secara eksplisit - Ada laporan hasil yang lebih baik setelah beralih ke sistem murni Codex: plan + implementasi + review dengan instance Codex terpisah
Kekurangan Codex
- Keluhan terbesar adalah gaya komunikasi yang terasa robotik
- Misalnya menulis nilai Python dict
[0.1, 0.3, 0.5, 0.7, 0.9]tidak dalam satu baris, tetapi satu nilai per baris - Ada spekulasi bahwa pelatihan RL-nya memberi reward ke arah “semakin banyak bullet point semakin baik”
- Bahkan setelah pengaturan komunikasi diubah, ia tetap berayun di antara dua ekstrem (terlalu minim vs terlalu berlebihan) sehingga sulit menemukan titik pas
- Misalnya menulis nilai Python dict
- Cenderung terus membantah pengguna — bahkan jika developer berpengalaman 10+ tahun sudah memberi instruksi jelas, ia tetap mengajukan keberatan dan pada akhirnya juga tidak menawarkan alternatif yang lebih baik
- Percakapannya cenderung memanjang tanpa henti, sehingga fokus pada pekerjaan terganggu
- Saat mengerjakan fitur besar, kadang banyak bagian yang terlewat dan codebase yang ada tidak benar-benar dipahami
- Misalnya padahal formatter sudah ada, ia membuat formatter baru sendiri, atau menyisipkan string hardcoded ke ViewModel
- Dari sisi fitur, dibanding Claude Code, Codex masih tertinggal di hooks, dukungan MCP, plugin, dan lain-lain, sehingga terasa seperti kemunduran saat pindah
Kesepakatan soal masalah kronis Claude Code
- Banyak yang setuju soal pola Claude yang mengabaikan instruksi pengguna dan bertindak sesuka dirinya
- “Claude mencoba menjalankan apa yang ia bayangkan Anda inginkan” — reliabilitas kepatuhan instruksinya rendah
- Ada yang melihat Claude meng-hardcode 100 objek dalam list lalu mengklaim itu sukses, bahkan sampai melewati hooks yang dipasang untuk mencegahnya
- Dalam beberapa bulan terakhir, ada kesan Claude makin sulit menemukan akar masalah yang sebenarnya pada kode kompleks
- Ia hanya menambal gejala, bukan penyebab utama, sambil dengan percaya diri mengklaim “masalahnya sudah ketemu”
- Codex kadang ikut terseret oleh analisis Claude yang terdengar meyakinkan, padahal salah
- Ada juga pengguna yang membatalkan langganan karena laju konsumsi kredit Claude terlalu cepat — bahkan tidak sempat punya waktu untuk belajar
Pandangan sebaliknya: Claude masih unggul
- Ada pengalaman bahwa Opus 4.6 menunjukkan pemikiran yang lebih hati-hati dan mendalam, dan kualitas analisisnya pada tahap desain/arsitektur lebih baik daripada GPT-5.4
- Dalam review, Opus kadang menemukan isu tambahan yang tidak tertangkap GPT-5.4
- Namun ada kemungkinan ini terkait rumor bahwa model Claude belakangan diubah agar “mengeluarkan usaha lebih sedikit”
- Jika diminta menerapkan Clean Architecture, Claude juga bisa aktif membuat file baru sehingga masalah
god classtidak muncul- Jika keduanya dipaksa patuh pada arsitektur, kualitas kode nyaris setara; perbedaannya ada pada kecepatan dan kemudahan penggunaan
- Jika workflow sistematis dibangun dengan baik (plan mode + custom skill + feedback coderabbit/sonarqube), pengguna tetap bisa menghasilkan kode yang bagus bahkan saat pengguna lain sedang banyak mengeluh, tanpa mentok batas penggunaan
Opini menarik lainnya
- “Mengesankan juga tim Anthropic bisa merilis begitu banyak fitur, kalau mengingat 100% kode mereka ditulis oleh Claude” (sindiran)
- “Ngoding pakai Codex → review di Claude → lalu Gemini juga ikut review” — strategi cross-review 3 model, dan kadang Sonnet menangkap hal yang lolos dari Opus
- Ada harapan bahwa Mythos (model generasi berikutnya) mungkin akan mengurangi banyak masalah penanganan seperti ini
18 komentar
Apa pun pilihannya, tetap butuh HITL. (setidaknya sampai hari ini)
Tolong jangan bawa-bawa omong kosong seperti Ralph Loop.
Saya hanya memakai Codex, dan ini persis sama dengan apa yang saya rasakan.
Juga cocok dengan kecenderungan saya, jadi saya memakainya dengan baik.
Saya sempat berpikir untuk beralih ke Claude setelah ChatGPT di KakaoTalk selesai,
tapi entah kenapa saya merasa kekurangan Claude tidak akan cocok dengan kecenderungan saya..
Apakah ada perbedaan bahasa utama yang digunakan oleh pengguna calude dan codex?
wkwk
Sepertinya ada juga perbedaan dalam cara penggunaannya. Tergantung kecenderungan pengembang, cara menanganinya dan preferensinya bisa berbeda. Karena sudah sering digunakan, alur kerja dengan model tertentu jadi terasa familiar, sehingga model lain bisa terasa canggung.
Sepertinya tidak ada alasan untuk terpaku pada model tertentu~
Bukankah hasilnya bergantung pada domain penerapannya?
Untuk pekerjaan seperti rhwp yang sedang saya kerjakan sekarang, ketika harus menangani perbedaan rendering setipis 1 mm, kalau memakai Codex hasilnya malah rusak. Untuk tugas berkesulitan tinggi, sejauh ini Claude Code masih lebih unggul, tetapi untuk pengembangan web app yang cukup ditangani sampai tingkat tertentu sesuai prosedur, asalkan ada workflow dan framework yang memadai, saya pribadi merasa memakai Codex lebih baik untuk kesehatan mental.
Saya menggunakannya dengan sangat baik
Di Mac, kecepatan loading-nya juga lebih cepat daripada penampil, jadi ini yang terbaik!
Terima kasih banyak.
Wah, saya menggunakannya dengan sangat baik. Terima kasih untuk proyek yang luar biasa ini.
Saya akan memanfaatkan rhwp dengan baik.
Saya setuju Codex itu teliti. Saya merekomendasikan menulis dengan Claude lalu me-review dengan Codex. Memang butuh banyak waktu, tetapi kalau dijalankan sebelum pergi ke toilet atau sebelum rapat, tingkat penyelesaiannya juga ternyata tinggi.
Saya juga melakukannya seperti ini. Kalau dibuat sedikit lebih detail, saya menyiapkan Claude seharga $100 dan Codex seharga $200, lalu dengan Claude Code Opus alurnya menjadi perencanaan -> implementasi dengan Sonnet -> review oleh Codex -> verifikasi review dengan Opus -> implementasi lagi dengan Sonnet -> review oleh Codex (dan seterusnya berulang). Saya bahkan sudah menjadikannya sebagai skill agar terus berputar seperti ini, dan saya cukup puas.
Saya juga menggunakannya seperti ini. Hanya saja, alih-alih menetapkan peran ke satu model tertentu, saya biasanya lebih dulu menugaskannya ke model yang kuotanya paling longgar tetapi tetap paling powerful.
Saya sudah mencoba keduanya dan menurut saya justru kebalikannya, tapi mungkin bukan begitu ya.
Saat saya memakainya, Codex cukup sering mengabaikan instruksi.
Akhir-akhir ini juga terasa seperti berubah karena Anthropic menurunkan performa Opus 4.6.
Bukannya malah kebalik? Senior ternyata kurang mumpuni dari yang diperkirakan
Masalah kronis Claude Codekayak gini belum pernah Anda alami ya. Di Reddit juga tiap hari ramai soal ini.Menurut saya, codex memberikan pengalaman yang lebih baik.