59 poin oleh GN⁺ 2026-04-15 | 18 komentar | Bagikan ke WhatsApp
  • Seorang engineer senior dengan 14 tahun pengalaman membandingkan secara langsung Claude Code (Opus 4.6) dan Codex (GPT-5.4) pada proyek Python/TypeScript berskala 80 ribu baris kode
  • Claude Code cepat dan interaktif, tetapi perlu pengawasan aktif karena kerap mengabaikan instruksi, meninggalkan pekerjaan setengah jadi, dan sembarangan menambahkan fungsi ke file yang sudah ada
  • Codex 3~4 kali lebih lambat tetapi lebih hati-hati dan sistematis saat menulis kode, secara sukarela melakukan refactor, dan sangat patuh pada file instruksi (AGENTS.md)
  • Claude Code dinilai cocok untuk prototyping cepat, sementara Codex lebih pas untuk pengembangan perangkat lunak kelas enterprise
  • Kesimpulannya, kedua alat ini sama-sama punya keterbatasan bahwa tanpa kemampuan software engineering, sulit menghasilkan hasil yang baik

Latar belakang penulis dan lingkungan pengembangan

  • Engineer level Principal/Staff Eng Manager yang bekerja selama 14 tahun di MAG7 (7 perusahaan big tech AS) serta perusahaan teknologi besar lainnya
  • Fokus utamanya adalah pengalaman pengembangan level platform, dengan jam terbang tinggi di sistem terdistribusi
  • Proyeknya berupa 80 ribu baris kode berbasis Python/TypeScript dalam bentuk ekstensi VSCode, dengan sekitar 2.800 test
  • Aplikasi analisis data yang menerima unggahan file PDF/CSV/XML dari pengguna, lalu mem-parsing dan menormalisasikannya ke dalam model data terstruktur berbasis Postgres
  • Terhubung ke penyedia data real-time backend melalui WebSocket untuk melakukan streaming data saat ini ke model data
  • Di sisi server, analisis berbasis stream data diperbarui dan dikirim ke web UI melalui SSE (Server-Sent Events)
  • Pengembangannya bukan sekadar vibe coding, melainkan berbasis arsitektur yang sistematis

Workflow agen yang sama untuk keduanya

  • Mulai dari mode Plan dengan prompt yang cakupannya cukup jelas, lalu menjalankan skill plan-review dengan 8 subagen (arsitektur, standar coding, desain UI, performa, dll.)
  • Tiap subagen memiliki prompt spesifik bersama dokumen referensi yang dibuat pada sesi riset sebelumnya (mis. postgres_performance.md, python_threading.md, software_architecture.md)
    • Reviewer arsitektur diberi prompt untuk melakukan review berdasarkan referensi konsep seperti SOLID, DRY, KISS, YAGNI
  • Setelah penulisan kode, dilakukan commit terpisah untuk tiap tahap perencanaan, lalu setiap commit direview dengan skill code-review (memakai ulang subagen plan), dan feedback dicek serta disesuaikan secara manual
  • CLAUDE.md terdiri dari sekitar 100 baris, berisi TDD, workflow Git, konvensi utama DevEx, perintah Docker, dan cara memakai alat-alat proyek

Pengalaman dengan Claude Code (Opus 4.6)

  • Terasa seperti engineer yang dikejar deadline: cenderung fokus mengimplementasikan fitur dengan banjir hack, patch, dan helper function, alih-alih meninjau ulang arsitektur inti
  • Interaktif, tetapi karena itu juga membutuhkan lebih banyak pengawasan aktif (babysitting)
  • Cepat menghasilkan kode yang berjalan, tetapi tidak cukup berpikir sebelum bertindak
  • Meski konteks dikelola manual secara aktif (1M context dianggap jebakan bagi pemula dan dinilai harus dijaga di bawah 1/4), hampir di setiap sesi ada kasus mengabaikan CLAUDE.md secara terang-terangan
  • Sering kali meninggalkan pekerjaan dalam kondisi setengah selesai
    • Contoh: saat migrasi pola async pada 8 test suite, sebagian besar dikerjakan tetapi beberapa tetap dibiarkan memakai pola lama
  • Hampir tidak pernah membuat file baru untuk fitur baru, dan cenderung terus menambahkan fungsi ke file yang sudah ada
    • Ini bertentangan dengan preferensi penulis terhadap prinsip OO yang kuat dan ukuran file di bawah 600 baris
  • Jika test rusak, ia cenderung memperbaikinya seenaknya tanpa prompt, sehingga perlu sering ditambahkan instruksi seperti, “kalau test gagal, berhenti dan tanyakan ke saya”
    • Sekitar 95% test yang ditulis memang berguna, tetapi 5% justru mengunci perilaku yang salah, dan akumulasinya makin besar seiring waktu

Pengalaman dengan Codex (GPT-5.4)

  • Terasa seperti engineer junior-senior dengan pengalaman 5~6 tahun, yang bisa berhenti sendiri dan mengerjakan ulang kode agar lebih rapi tanpa perlu diminta
  • 3~4 kali lebih lambat daripada Claude untuk tugas yang sama
  • Bekerja dengan cara yang lebih hati-hati dan disengaja, dan tidak sekadar memperbesar god class seperti Claude; ia otomatis memfaktorkan kode menjadi lebih rapat
  • Di tengah pengerjaan, ia meninjau ulang asumsi sendiri dan melakukan rework di tengah jalan untuk merapikannya
  • Kadang juga secara sukarela melakukan pekerjaan bernilai tambah yang tidak terduga
  • Penulis tidak pernah melihat Codex mengabaikan AGENTS.md, dan bahkan ketika instruksi ingin dioverride di tengah sesi, Codex tidak mengizinkannya
  • Karena sudah membuktikan kapabilitas yang cukup, workflow-nya bisa diubah menjadi jalankan dulu lalu review setelah selesai, tanpa perlu pemantauan real-time

Perbandingan keseluruhan

  • Batas pemakaian Codex Pro x5 berada di level yang mirip dengan Claude x20
  • Codex jelas lebih lambat dan kurang interaktif, tetapi lebih hati-hati, sedangkan Claude cepat dan interaktif, tetapi butuh pengawasan (babysitting)
  • Dalam satu sesi, Claude bisa menyelesaikan volume pekerjaan lebih besar, tetapi kualitas hasil kerja Codex lebih tinggi
    • Claude memungkinkan prototyping dan build yang sangat cepat, tetapi perlu diarahkan untuk refactor setiap beberapa hari
    • Codex juga tetap perlu refactor saat aplikasi membesar, tetapi levelnya bukan lagi “masalah apa yang harus dibereskan”, melainkan “aplikasinya sudah cukup besar sehingga sekarang saatnya refactor”
  • Untuk vibe coding pada proyek berkompleksitas rendah hingga menengah, Claude bisa menuntaskan lebih cepat
  • Untuk membangun software enterprise, Codex lebih cocok
  • Keduanya sama-sama berguna, tetapi Claude membutuhkan pengemudi yang lebih terampil dan fokus dibanding Codex
  • Jika tidak paham software engineering sama sekali, keduanya akan menghasilkan output yang buruk

📋 Ringkasan poin utama komentar Reddit

Strategi memakai kedua alat secara bersamaan (paling sering disebut)

  • Workflow validasi silang paling populer adalah Claude untuk draf/pekerjaan cepat → Codex untuk code review
    • “Suruh Codex me-review kode yang ditulis Claude, dan lakukan juga sebaliknya” — sangat jarang dua model berhalusinasi dengan cara yang sama
  • Ada juga pengguna yang memakai strategi baton-pass ke Codex setelah token Claude habis
    • Status disimpan di save-state.md dan next-task.md agar Codex bisa melanjutkan, dan kualitas handoff membaik di setiap pergantian
  • Ada pula kasus Codex CLI dibungkus sebagai server MCP untuk mengotomatiskan kolaborasi Codex di dalam Claude Code
    • Setelah Claude bekerja, Codex mengembalikan saran, lalu Claude mengimplementasikannya, sehingga kualitas kode meningkat drastis
  • Workflow lain yang efektif: bekerja seharian dengan Codex, lalu memoles hasil akhir dengan Claude, kemudian kembali lagi ke Codex

Kesepakatan soal kelebihan Codex

  • Muncul pengguna yang menurunkan paket Claude Code dari 20x ($200) ke 5x ($100) lalu memakainya bersamaan dengan paket Codex $100
  • Tidak terasa ada kesenjangan kualitas yang sangat besar antara GPT-5.4 dan Opus 4.6; tergantung masalahnya bisa 50:50
  • “Tinggal jalankan, minum kopi, balik lagi, sudah selesai” — dalam hal eksekusi otonom (fire-and-forget), Codex dianggap unggul atas Opus
  • Codex begitu patuh pada instruksi di AGENTS.md sampai-sampai menolak melanggarnya, kecuali diminta override secara eksplisit
  • Ada laporan hasil yang lebih baik setelah beralih ke sistem murni Codex: plan + implementasi + review dengan instance Codex terpisah

Kekurangan Codex

  • Keluhan terbesar adalah gaya komunikasi yang terasa robotik
    • Misalnya menulis nilai Python dict [0.1, 0.3, 0.5, 0.7, 0.9] tidak dalam satu baris, tetapi satu nilai per baris
    • Ada spekulasi bahwa pelatihan RL-nya memberi reward ke arah “semakin banyak bullet point semakin baik”
    • Bahkan setelah pengaturan komunikasi diubah, ia tetap berayun di antara dua ekstrem (terlalu minim vs terlalu berlebihan) sehingga sulit menemukan titik pas
  • Cenderung terus membantah pengguna — bahkan jika developer berpengalaman 10+ tahun sudah memberi instruksi jelas, ia tetap mengajukan keberatan dan pada akhirnya juga tidak menawarkan alternatif yang lebih baik
  • Percakapannya cenderung memanjang tanpa henti, sehingga fokus pada pekerjaan terganggu
  • Saat mengerjakan fitur besar, kadang banyak bagian yang terlewat dan codebase yang ada tidak benar-benar dipahami
    • Misalnya padahal formatter sudah ada, ia membuat formatter baru sendiri, atau menyisipkan string hardcoded ke ViewModel
  • Dari sisi fitur, dibanding Claude Code, Codex masih tertinggal di hooks, dukungan MCP, plugin, dan lain-lain, sehingga terasa seperti kemunduran saat pindah

Kesepakatan soal masalah kronis Claude Code

  • Banyak yang setuju soal pola Claude yang mengabaikan instruksi pengguna dan bertindak sesuka dirinya
    • “Claude mencoba menjalankan apa yang ia bayangkan Anda inginkan” — reliabilitas kepatuhan instruksinya rendah
    • Ada yang melihat Claude meng-hardcode 100 objek dalam list lalu mengklaim itu sukses, bahkan sampai melewati hooks yang dipasang untuk mencegahnya
  • Dalam beberapa bulan terakhir, ada kesan Claude makin sulit menemukan akar masalah yang sebenarnya pada kode kompleks
    • Ia hanya menambal gejala, bukan penyebab utama, sambil dengan percaya diri mengklaim “masalahnya sudah ketemu”
    • Codex kadang ikut terseret oleh analisis Claude yang terdengar meyakinkan, padahal salah
  • Ada juga pengguna yang membatalkan langganan karena laju konsumsi kredit Claude terlalu cepat — bahkan tidak sempat punya waktu untuk belajar

Pandangan sebaliknya: Claude masih unggul

  • Ada pengalaman bahwa Opus 4.6 menunjukkan pemikiran yang lebih hati-hati dan mendalam, dan kualitas analisisnya pada tahap desain/arsitektur lebih baik daripada GPT-5.4
    • Dalam review, Opus kadang menemukan isu tambahan yang tidak tertangkap GPT-5.4
    • Namun ada kemungkinan ini terkait rumor bahwa model Claude belakangan diubah agar “mengeluarkan usaha lebih sedikit”
  • Jika diminta menerapkan Clean Architecture, Claude juga bisa aktif membuat file baru sehingga masalah god class tidak muncul
    • Jika keduanya dipaksa patuh pada arsitektur, kualitas kode nyaris setara; perbedaannya ada pada kecepatan dan kemudahan penggunaan
  • Jika workflow sistematis dibangun dengan baik (plan mode + custom skill + feedback coderabbit/sonarqube), pengguna tetap bisa menghasilkan kode yang bagus bahkan saat pengguna lain sedang banyak mengeluh, tanpa mentok batas penggunaan

Opini menarik lainnya

  • “Mengesankan juga tim Anthropic bisa merilis begitu banyak fitur, kalau mengingat 100% kode mereka ditulis oleh Claude” (sindiran)
  • “Ngoding pakai Codex → review di Claude → lalu Gemini juga ikut review” — strategi cross-review 3 model, dan kadang Sonnet menangkap hal yang lolos dari Opus
  • Ada harapan bahwa Mythos (model generasi berikutnya) mungkin akan mengurangi banyak masalah penanganan seperti ini

18 komentar

 
brainer 2026-04-15

Apa pun pilihannya, tetap butuh HITL. (setidaknya sampai hari ini)
Tolong jangan bawa-bawa omong kosong seperti Ralph Loop.

 
loblue 2026-04-18

Saya hanya memakai Codex, dan ini persis sama dengan apa yang saya rasakan.
Juga cocok dengan kecenderungan saya, jadi saya memakainya dengan baik.
Saya sempat berpikir untuk beralih ke Claude setelah ChatGPT di KakaoTalk selesai,
tapi entah kenapa saya merasa kekurangan Claude tidak akan cocok dengan kecenderungan saya..

 
oberon 2026-04-17

Apakah ada perbedaan bahasa utama yang digunakan oleh pengguna calude dan codex?

 
tested 2026-04-15

Cenderung terus-menerus membantah pengguna — bahkan ketika pengembang dengan pengalaman lebih dari 10 tahun memberi instruksi yang jelas, tetap terus mengajukan keberatan, dan pada akhirnya juga tidak mampu menawarkan alternatif yang baik sendiri.

wkwk

 
clash4970 2026-04-15

Sepertinya ada juga perbedaan dalam cara penggunaannya. Tergantung kecenderungan pengembang, cara menanganinya dan preferensinya bisa berbeda. Karena sudah sering digunakan, alur kerja dengan model tertentu jadi terasa familiar, sehingga model lain bisa terasa canggung.

 
sea715 2026-04-15

Sepertinya tidak ada alasan untuk terpaku pada model tertentu~

 
tangokorea 2026-04-15

Bukankah hasilnya bergantung pada domain penerapannya?
Untuk pekerjaan seperti rhwp yang sedang saya kerjakan sekarang, ketika harus menangani perbedaan rendering setipis 1 mm, kalau memakai Codex hasilnya malah rusak. Untuk tugas berkesulitan tinggi, sejauh ini Claude Code masih lebih unggul, tetapi untuk pengembangan web app yang cukup ditangani sampai tingkat tertentu sesuai prosedur, asalkan ada workflow dan framework yang memadai, saya pribadi merasa memakai Codex lebih baik untuk kesehatan mental.

 
act1000 2026-04-23

Saya menggunakannya dengan sangat baik
Di Mac, kecepatan loading-nya juga lebih cepat daripada penampil, jadi ini yang terbaik!

 
kyg5474 2026-04-21

Terima kasih banyak.

 
ifmkl 2026-04-17

Wah, saya menggunakannya dengan sangat baik. Terima kasih untuk proyek yang luar biasa ini.

 
dhlee0305 2026-04-16

Saya akan memanfaatkan rhwp dengan baik.

  • hormat
 
bungker 2026-04-15

Saya setuju Codex itu teliti. Saya merekomendasikan menulis dengan Claude lalu me-review dengan Codex. Memang butuh banyak waktu, tetapi kalau dijalankan sebelum pergi ke toilet atau sebelum rapat, tingkat penyelesaiannya juga ternyata tinggi.

 
oneforall88 2026-04-15

Saya juga melakukannya seperti ini. Kalau dibuat sedikit lebih detail, saya menyiapkan Claude seharga $100 dan Codex seharga $200, lalu dengan Claude Code Opus alurnya menjadi perencanaan -> implementasi dengan Sonnet -> review oleh Codex -> verifikasi review dengan Opus -> implementasi lagi dengan Sonnet -> review oleh Codex (dan seterusnya berulang). Saya bahkan sudah menjadikannya sebagai skill agar terus berputar seperti ini, dan saya cukup puas.

 
minhoryang 2026-04-15

Saya juga menggunakannya seperti ini. Hanya saja, alih-alih menetapkan peran ke satu model tertentu, saya biasanya lebih dulu menugaskannya ke model yang kuotanya paling longgar tetapi tetap paling powerful.

 
gpdir16 2026-04-15

Saya sudah mencoba keduanya dan menurut saya justru kebalikannya, tapi mungkin bukan begitu ya.
Saat saya memakainya, Codex cukup sering mengabaikan instruksi.
Akhir-akhir ini juga terasa seperti berubah karena Anthropic menurunkan performa Opus 4.6.

 
master6559 2026-04-15

Bukannya malah kebalik? Senior ternyata kurang mumpuni dari yang diperkirakan

 
wedding 2026-04-15

Masalah kronis Claude Code kayak gini belum pernah Anda alami ya. Di Reddit juga tiap hari ramai soal ini.

 
shblue21 2026-04-15

Menurut saya, codex memberikan pengalaman yang lebih baik.