1 poin oleh GN⁺ 1 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Selama 3 bulan coding dengan Claude/Anthropic, tetapi keandalannya menurun pada pekerjaan skala repo sehingga diperlukan workflow pemantauan terpisah
  • Pada era 4.7, model berhalusinasi mengaku pekerjaan sudah selesai padahal implementasi nyatanya hanya sekitar 40%, atau menunjukkan kepercayaan diri berlebihan di sekitar stub/placeholder
  • Meski membayar biaya Max x20, yang terasa justru konsumsi token dan beban supervisi lebih besar daripada produktivitas
  • Codex lebih baik memahami kode yang berdekatan tanpa prompt berlebihan, menangkap regresi, sehingga loop lint/test dan refactor skala besar menjadi bisa dikelola
  • Migrasi praktis selesai hanya dengan memindahkan CLAUDE.md→AGENTS.md dan mempertahankan hooks, dan untuk workflow ini tidak ada niat untuk kembali

Alur pengembangan yang berubah setelah beralih dari Claude ke Codex

  • Selama 3 bulan terakhir, penulis terutama coding dengan Claude/Anthropic, dan saat Opus 4.6 dirilis, keunggulannya terasa pada pemahaman arsitektur, penanganan konteks besar, dan implementasi fitur yang cepat
  • Seiring waktu, keandalannya menurun pada pekerjaan skala repo, sehingga diperlukan workflow terpisah untuk mengawasi model
    • Beberapa agen untuk memeriksa regresi pada file yang berdekatan
    • Agen “senior reviewer” yang menempel pada tiap commit penting
    • Verifikasi berkelanjutan untuk memeriksa drift implementasi dan implementasi yang belum selesai
    • Pipeline lint/test untuk menangkap pekerjaan yang dengan percaya diri dinyatakan model sudah selesai
  • Pada era 4.7, masalahnya membesar dalam workflow pribadi
    • Model berhalusinasi bahwa sebuah fitur sudah selesai padahal implementasi nyatanya hanya sekitar 40%
    • Menunjukkan kepercayaan diri tanpa dasar di sekitar stub/placeholder
    • Muncul perilaku menghindar seperti berkata “perlu sesi terpisah” atau memperkirakan jadwal yang berlebihan untuk perubahan yang sebenarnya realistis dilakukan
  • Meski membayar biaya Max x20, yang lebih terasa daripada peningkatan produktivitas adalah kenaikan konsumsi token dan beban supervisi
  • Akhirnya pada 12 Mei beralih ke GPT-5.5 + Codex, dan coding dengan AI untuk pertama kalinya dalam beberapa bulan terasa lebih dekat ke kenyamanan daripada stres

Kelebihan yang terasa di GPT-5.5 + Codex

  • Codex dapat memahami kode yang berdekatan dengan baik bahkan tanpa prompt berlebihan, dan lebih baik dalam menangkap regresi
  • Loop umpan balik lint/test bekerja lebih ketat, dan refactor skala besar pun benar-benar menjadi bisa dikelola
  • Keputusan infrastruktur dan perubahan arsitektur terasa mengarah ke arah yang konsisten alih-alih terpecah-pecah, dan model lebih dekat ke benar-benar menuntaskan pekerjaan daripada sekadar berpura-pura selesai
  • /fast kebanyakan dihindari karena tampaknya akan cepat menghabiskan kuota mingguan, tetapi hanya dengan high/xhigh pun peningkatan produktivitasnya besar
  • Memasukkan zip seluruh repositori ke GPT-5.5 Pro extended thinking membantu menyelesaikan masalah yang berulang kali gagal dipecahkan model lain
  • Migrasinya juga hampir tanpa gesekan besar
    • CLAUDE.md dipindahkan ke AGENTS.md
    • hooks tetap berlanjut seperti semula
    • Hampir tidak perlu mengubah keseluruhan workflow
  • Ini bukan berarti semua orang harus segera pindah, tetapi untuk workflow ini, setidaknya untuk sementara waktu tidak ada niat untuk kembali

1 komentar

 
GN⁺ 1 jam lalu
Pendapat Hacker News
  • Tool AI bukan sesuatu yang perlu didukung cuma satu pihak seperti memilih tim olahraga favorit. Pelajari keduanya, kalau bisa semuanya, lalu pakai yang paling cocok minggu ini
    Bulan depan bisa saja berbeda. Saya berlangganan dua layanan, tapi saya juga paham tidak semua orang bisa melakukannya

    • Saat ini memang benar terasa seperti itu, tapi menurut saya sebagian besar karena kecenderungan manusia untuk merasa seolah pilihan orang lain berarti mengatakan bahwa saya salah
      Semua tool itu oke, sebagian orang mendapat hasil lebih baik dari salah satunya, dan seperti yang dibilang, minggu depan pun bisa berubah total
    • Saya juga tidak peduli siapa pun, selama yang dipakai paling cocok buat saya saat ini, dan saya terus menguji serta terus bereksperimen
    • Betul. Model terus berubah. Hari ini Anthropic, besok OpenAI, lalu Anthropic lagi, minggu depan penantang baru dari Tiongkok, bulan depan Google mungkin saja sadar diri. Polanya terus berulang
    • Saya sudah mencoba Codex dan Gemini sekitar seminggu, dan sejauh ini Codex yang paling cocok buat saya
      Tapi saya juga pakai Gemini karena menemukan kupon premium 18 bulan seharga 15€ di Kinguin, jadi kalau kena batas kuota, sebagian pekerjaan saya alihkan ke Gemini
  • Opus 4.7 terasa berfokus pada terlihat berguna dan produktif, serta performa yang sifatnya untuk pamer
    Codex benar-benar menyelesaikan pekerjaan

  • Akan bagus kalau kamu bisa sedikit berbagi alur kerjamu. Saya ingin belajar apa yang kamu lakukan dan bagaimana melakukannya supaya bisa saya tiru
    Saya juga penasaran kenapa seluruh repositori dimasukkan ke GPT, serta teknologi dan buku apa yang dipakai
    Saya biasanya memasukkan prompt, menunggu Codex selesai, lalu menanyakan lagi apakah ia sudah mengerjakan tugas-tugas sekitar yang jelas, yang dulu saya kerjakan sendiri. Setelah itu barulah dikerjakan, lalu saya habiskan waktu untuk /review dan pengujian manual, kemudian lanjut lagi ke unit pekerjaan kecil. Untuk fitur besar saya pakai plan, juga memakai ekstensi VSCode, dan saya sudah mencoba 5.4 maupun 5.5, tapi yang pertama tampaknya lebih cocok buat saya

  • Bagaimana cara memakai model selain OpenAI di sini?

  • Masalah Claude adalah ia tidak terus berjalan seperti Codex. Claude mungkin lebih bagus, tapi Codex berusaha menyelesaikan pekerjaan sampai tuntas
    Claude begitu saja berhenti, dan bahkan kalau memang punya kemampuan itu pun rasanya akan terlalu mahal sehingga tidak banyak bedanya. Mungkin mirip atau malah lebih baik, tapi sekarang saya sudah tidak tahu dan tidak memakainya lagi. 4.5 adalah yang terbaik saat pertama keluar

  • Saya juga merasa Codex seperti sihir, tapi tunggu saja sampai rusak. Sampai 3 hari lalu saya juga merasa begitu, tapi sekarang sejujurnya rasanya malah lebih buruk daripada Claude
    Saya memakainya 24 jam dengan 5 akun Pro, jadi saya bisa bilang dengan yakin, ini bukan seperti seminggu lalu dan sekarang benar-benar jauh lebih buruk

    • Altman mengakui bahwa kondisi Codex berantakan pada Kamis/Jumat, dan katanya mereka sedang mencoba mencari tahu apa yang berubah
    • Ada penurunan performa karena masalah caching, dan ada tweet juga soal itu. Katanya sekarang sudah di-rollback dan performanya kembali ke baseline
    • 5 akun Pro, maksudmu akun Plus?