17 poin oleh GN⁺ 2025-05-21 | 3 komentar | Bagikan ke WhatsApp
  • OpenAI Codex adalah agen kode multitasking berbasis integrasi GitHub yang menyediakan antarmuka untuk memberi instruksi beberapa tugas secara paralel lewat bahasa alami
  • Pengguna dapat dengan cepat menumpahkan pekerjaan untuk satu hari dan menyerahkan pembuatan branch serta pembukaan PR secara otomatis, dan karena juga bisa digunakan di perangkat mobile, pada akhirnya ia dapat mendukung alur kerja yang berpusat pada kerja jarak jauh
  • Namun saat ini, karena masalah seperti penanganan error yang kurang memadai, kualitas kode yang tidak stabil, sulitnya memperbarui branch yang sudah ada, dan pemblokiran jaringan di sandbox eksekusi, alat ini kurang cocok untuk pekerjaan refactor utama
  • Codex berguna untuk mengotomatiskan tugas maintenance kecil dan praktis untuk menangani pekerjaan yang berulang dengan cepat
  • Ke depan, jika peningkatan model, pencampuran multi-model, dan fitur integrasi lanjutan diperkenalkan, ada kemungkinan ia berkembang menjadi alat orkestrasi level tinggi

Cara Kerja OpenAI Codex

  • OpenAI Codex memiliki UI berbasis chat, dan dapat diakses melalui undangan atau langganan Pro seharga $200/bulan
  • Pengguna harus melalui autentikasi multi-faktor dan menyetujui aplikasi Codex GitHub untuk tiap organisasi, lalu Codex mengkloning repositori ke sandbox miliknya sendiri untuk menjalankan perintah dan membuat branch atas nama pengguna
  • Jika Anda mengelola puluhan repositori publik dan privat, efisiensi berpindah antar banyak proyek dan mengelola antrean tugas sangat baik
  • Jika hanya mengelola 1~2 repositori, menggunakan LLM yang sudah ada atau editor berfitur AI bisa menjadi pilihan yang lebih ringan

Kekuatan Codex

  • Pemrosesan paralel multi-tugas dan antarmuka

    • Untuk setiap tugas, repositori dan branch dapat ditentukan, sehingga alur mendaftarkan pekerjaan satu hari secara paralel dengan bahasa alami terasa natural
    • Codex mendorong cara kerja yang memproses banyak tugas sekaligus, dan ini sangat cocok dengan kebiasaan kerja penulis
  • Alur kerja fleksibel dan dukungan mobile

    • Codex berjalan ramah mobile bahkan di smartphone, sehingga potensi bekerja efisien di luar kantor cukup tinggi
    • Ia mengarah pada skenario penggunaan ideal: mendaftarkan beberapa pekerjaan saat mulai bekerja, lalu terus mengelola rencana dan progres bahkan saat berada di luar
  • Umpan balik berbasis chat dan pembuatan PR

    • Log dan status tugas yang sedang berjalan dapat dilihat dengan mudah lewat antarmuka chat, dan instruksi tambahan juga bisa diberikan
    • Jika perubahan yang dihasilkan memuaskan, Codex akan membuat Pull Request (selanjutnya disebut PR) dan melengkapi penjelasannya secara otomatis
    • Menarik karena log eksekusi dan riwayat perintah dapat diperiksa langkah demi langkah

Hal-Hal yang Perlu Ditingkatkan

  • Penanganan error yang belum memadai

    • Ketiadaan umpan balik yang jelas saat memulai tugas atau membuat PR gagal menurunkan kegunaan
  • Kualitas kode dan eksekusi tugas sekali jalan

    • Model Codex berada di keluarga GPT-3 dan mendukung lebih dari 12 bahasa, tetapi saat dijalankan paralel tingkat kepuasan hanya sekitar 40-60%
    • Berguna untuk pekerjaan maintenance kecil, tetapi untuk refactor skala besar, efisiensi penggunaan menurun karena harus membuat PR berulang kali
  • Tidak mendukung pembaruan berkelanjutan dalam branch

    • Karena sulit mengaitkan commit lanjutan ke PR dan branch yang sudah ada, pekerjaan refactor multi-tahap menjadi tidak efisien
    • Saat ini, Codex lebih cocok untuk pekerjaan sederhana yang bisa dijelaskan langsung dalam satu tugas
  • Batasan akses jaringan di sandbox eksekusi

    • Karena desain yang disengaja, akses ke jaringan eksternal tidak dimungkinkan, sehingga ada keterbatasan untuk berbagai pekerjaan praktis seperti pembaruan paket atau penanganan dependensi
    • Contoh: tidak berjalan saat diminta memasang paket eksternal
    • Untuk pekerjaan seperti ini, pengguna tetap harus menanganinya langsung secara lokal atau mengandalkan fungsi bot yang sudah ada seperti Dependabot

Apakah ini memberi saya lonjakan produktivitas yang luar biasa?

  • Penulis belum merasakan peningkatan produktivitas yang eksplosif
  • Agar Codex benar-benar mengarah pada revolusi produktivitas
    • Dibutuhkan peningkatan desain khusus dan algoritme agar lebih banyak tugas bisa diselesaikan tuntas dalam satu kali eksekusi
    • Perbaikan alur pembaruan PR pada branch yang sudah ada
    • Kapabilitas delegasi/manajemen terintegrasi perlu diperkuat, dan integrasi dengan berbagai API OpenAI harus diperluas
    • Codex harus berevolusi menjadi orkestrator level tinggi
  • Saat ini Codex sangat berguna untuk pekerjaan otomatisasi maintenance rutin dan pembaruan skala kecil
  • Untuk pengembangan fitur besar dan refactor, kolaborasi dengan dukungan IDE dan LLM lebih cocok

Pemikiran Akhir

  • Codex adalah alat yang tenang namun menjanjikan
  • Dengan mempertimbangkan fitur-fitur yang akan terus dipoles ke depan, ada peluang besar ia menjadi titik awal dan alat koordinasi pekerjaan
  • Untuk sekarang, ini adalah saat yang tepat untuk fokus pada tugas-tugas ringan dan berulang sambil menunggu peningkatan lebih lanjut

3 komentar

 
yangeok 2025-05-23

Sepertinya suasananya masih belum mendukung untuk membakar $200

 
GN⁺ 2025-05-21
Opini Hacker News
  • Saya adalah pelanggan Plus dan ingin mencoba Codex, jadi saya upgrade ke Pro, tetapi sejujurnya hasilnya agak mengecewakan menurut pengalaman saya
    UX-nya juga masih terasa belum benar-benar matang, dan cukup membuat frustrasi karena tidak tahu berapa lama hasilnya akan keluar
    Berkat sifat Codex yang asinkron, saya setidaknya bisa menjalankan beberapa pekerjaan sekaligus, jadi itu sisi yang lumayan
    Keluhan lain adalah, agar alat ini bisa berguna, kita harus menentukan environment secara terpisah
    Tidak bisa menjalankan container yang dibutuhkan untuk testing, jadi kegunaannya turun jauh
    Environment-nya sepenuhnya terisolasi dari internet sehingga pemakaiannya terbatas
    Salah satu alasan o3 di ChatGPT kuat adalah karena ia bisa memanfaatkan web untuk mencari informasi sendiri, sedangkan Codex kurang di sisi itu
    Sebagai perbandingan, saya juga sering memakai Claude, dan kalau membuat proyek dengan repo GitHub sebagai sumber, ia cukup bagus menemukan bug asing di aplikasi React yang kompleks
    Gemini juga mendukung hal seperti ini dengan baik berkat context window yang luas
    Tentu saja saya paham arah yang ingin dituju OpenAI
    Saya berharap Codex benar-benar bisa menangani banyak tugas seperti rekan kerja sungguhan, tetapi untuk saat ini rasanya terlalu fokus pada pull request
    Jadi saya berencana downgrade lagi ke Plus dan melihat perkembangannya sedikit lebih lama

    • Saya rasa dukungan container itu wajib ada
  • Saya bekerja di OpenAI, tetapi bukan di tim Codex, dan saya punya pengalaman memakai Codex dengan sukses di beberapa proyek
    Cara kerja saya seperti ini
    Saya selalu menjalankan prompt yang sama beberapa kali agar keluar hasil yang berbeda-beda
    Saya membandingkan beberapa implementasi untuk mencari yang terbaik, lalu memikirkan bagaimana prompt-nya bisa diubah agar mengarah ke hasil yang lebih baik
    Bagian yang salah dari model saya perbaiki di prompt lalu diterapkan berulang kali
    Jika pekerjaan dipecah menjadi unit kecil dan eksperimen paralel seperti ini diulang, bahkan proyek besar pun bisa selesai dalam beberapa jam hanya dengan penyesuaian prompt dan review kode
    Pendekatan ini sangat berguna bukan hanya untuk pekerjaan migrasi API, tetapi juga untuk kode yang dalam seperti kernel Triton

    • "Saya memilih yang terbaik dari beberapa implementasi, lalu memikirkan apa lagi yang seharusnya ditambahkan ke prompt agar hasilnya lebih baik"
      Saya penasaran bagaimana orang nonahli bisa membedakan mana yang 'terbaik'
      Pada akhirnya, untuk menemukan arah yang benar tetap dibutuhkan keahlian di bidang tersebut, dan menurut saya ini jadi bukti bahwa LLM tidak bisa menghapus pekerjaan software engineer

    • Saya merasa cara kerja manual yang Anda lakukan sendiri itu sebenarnya bisa menjadi dasar reinforcement learning (RL)
      Kalau pengalaman di UI ini sedikit dipoles lalu dipakai sebagai data nyata, sepertinya bisa menghasilkan dataset pelatihan yang bagus

    • Saya penasaran seberapa jauh cara ini benar-benar lebih cepat daripada menulis kode langsung sendiri

    • Saya penasaran apakah ketika prompt diubah baru dan ada hal penting yang berubah, Anda kadang membuang semua pekerjaan yang sudah dilakukan sejauh ini
      Perubahan kecil bisa berdampak besar pada hasil, dan kalau itu masalah tanpa contoh sebelumnya, sepertinya akan lebih sulit
      Kalau cara kerja seperti ini diulang terus, saya rasa orang bisa jadi lelah atau malah menjauh dari inti persoalan
      Buat saya ini bisa terasa tidak efisien, jadi saya penasaran apakah orang lain memang punya toleransi lebih tinggi untuk pekerjaan berulang seperti ini

  • Saya membagikan review terkait Codex ke pod tim saya (https://latent.space/p/codex)
    Ini model yang sangat bagus untuk menghasilkan kode panjang sekaligus dalam satu jalan (di pod dijelaskan bahwa model ini difine-tune khusus untuk oneshot sesuai tugas OpenAI SWE)
    Fitur integrasinya relatif kurang (misalnya tidak ada integrasi browser, dan koneksi GitHub juga kurang matang — karena meminta membuka pull request baru di setiap iterasi, jadi merepotkan kalau ingin menambahkan commit lanjutan ke branch yang sudah ada)
    Meski begitu, saya berharap fitur integrasi seperti ini akan membaik seiring waktu
    Fakta bahwa kita bisa menjalankan 60 instance Codex secara bersamaan per jam terasa sebagai perbedaan kualitatif yang sangat besar dibanding Devin (5 bersamaan) atau Cursor (1 bersamaan sebelum ada background agent)
    Saya sendiri tidak terlalu merasakan perbedaan performa model Codex secara mencolok, tetapi walau OpenAI menjelaskan Codex sebagai turunan dari GPT-3, kenyataannya ini fine-tuning dari o3

    • Klaim "fine-tuning o3" sendiri terasa cukup membingungkan
      Aturan penamaan OpenAI juga memicu kebingungan, dan ini masalah yang dialami sebagian besar perusahaan AI
      Codex awalnya adalah model lama berbasis GPT-3, dan sekarang nama yang sama dipakai ulang di CLI, tool, dan berbagai tempat lain
      Google juga sama saja, memakai “Gemini Ultra” baik sebagai nama model maupun nama produk langganan sehingga membingungkan

    • Bagian yang paling tidak nyaman bagi saya adalah pembatasan akses jaringan

      1. tidak bisa git fetch, sinkronisasi upstream, atau memperbaiki bug integrasi
      2. tidak bisa mengambil library eksternal baru untuk eksperimen integrasi
        Sepertinya domain untuk apt install juga diblokir di setup script
        Agennya juga terlihat cenderung langsung mencoba git grep alih-alih memahami konteks keseluruhan kode (terlihat di UI), jadi menurut saya biasa saja
    • Saya penasaran apa bedanya dibanding Claude Code

  • Saya rasa kemampuan untuk mengubah banyak repo dengan cepat itu benar-benar keren
    Saya mengelola banyak aplikasi contoh sekaligus, dan kalau perubahan format README atau pergantian link harus diulang di lebih dari 20 tempat, itu benar-benar membosankan
    Kalau pekerjaan remeh seperti ini bisa saya serahkan ke Codex lalu nanti saya tinggal menekan tombol merge, saya akan sangat senang

    • Saya juga merasakan hal yang sama
      Saya perkirakan ini akan segera berkembang ke arah sana
      Untuk sementara, saya mungkin akan menyebarkan pekerjaan maintenance kecil dengan Codex, sambil tetap melakukan refactor besar atau pengembangan penting di IDE
  • Saya penasaran apakah alat seperti ini bisa dipakai oleh nondeveloper untuk melakukan perubahan kode
    Hal-hal seperti revisi konten atau perubahan CSS sederhana benar-benar tidak ingin saya kerjakan sendiri, dan karena testing-nya bisa dicek secara visual, rasanya cukup kalau saya hanya melakukan code review
    Nondeveloper melihat tiketnya, memulai pekerjaan, lalu kalau hasilnya "kelihatan bagus" saya yang meninjau
    Menurut saya ini workflow yang ideal untuk bug kecil atau perbaikan fitur di backlog

    • Saya rasa alat seperti AI Assist pada akhirnya bisa menjadi platform low-code terbaik
      Saya berharap ini bisa membawa kita ke hari ketika software engineer benar-benar tergantikan

    • Namun perubahan konten pun sering membutuhkan pemikiran yang mendalam
      Begitu skalanya sedikit membesar, ada ketergantungan hulu-hilir, dan bahkan menambahkan satu field saja bisa berdampak ke banyak hal di seluruh sistem
      Perubahan kecil seperti CSS juga tampak sepele, tetapi pengguna sulit tahu seberapa kecil dampaknya dalam praktik

    • Soal aksesibilitas, multiplatform (mobile/desktop), dan banyak isu lain juga akan segera dipelajari dengan cepat
      Bahkan alur ini terlihat seperti funnel yang membuat orang "masuk" menjadi software engineer

  • Untuk tugas kecil, saya rasa tingkat keberhasilan 40~60% itu sudah lumayan bagus
    Menarik juga mengetahui bahwa alat ini kesulitan pada tugas yang lebih kompleks dan membutuhkan logika yang lebih dalam

    • Dalam pengujian saya, begitu tugas membutuhkan sedikit saja pemikiran kritis, Codex langsung benar-benar tersesat
      Kinerjanya saat ini setara engineer junior yang sangat buruk
      Misalnya saat diminta melakukan perubahan, demi menghilangkan warning compiler ia mengubah nilai kelas secara massal menjadi nullable
      Sekilas tampak berjalan dan bisa dikompilasi, tetapi hasilnya sepenuhnya salah karena integritas data ikut hilang
      Kasus seperti ini cukup sering terjadi
      Kalau seluruh codebase diserahkan ke Codex tanpa pengawasan, saya yakin technical debt akan cepat menumpuk
  • Ekspektasi bahwa Codex akan membantu kita bekerja dengan baik saat kita tidak ada di tempat terasa terlalu optimistis
    Bagi banyak orang, "bekerja efektif saat kita tidak hadir" sebenarnya beririsan dengan "barisan pengangguran"

    • Menarik juga melihat para developer justru senang dengan perubahan seperti ini
      Saya heran dengan suasana seolah suatu hari nanti kita cukup duduk menonton agen melakukan semuanya sambil tetap digaji
      Sekalipun pekerjaan jadi lebih mudah, arahnya tetap bisa menuju hilangnya pekerjaan itu sendiri

    • Dalam sejarah kenaikan produktivitas, hampir tidak ada preseden pekerja lalu menikmati lebih banyak waktu luang
      Polanya biasanya keuntungan untuk pemegang saham dan eksekutif, beban kerja dua kali lipat untuk separuh karyawan yang tersisa, dan sisanya menganggur

    • Untuk sementara saya rasa masih butuh waktu sebelum sampai ke pengangguran massal
      Agar model seperti ini bisa menangani 90~95% tugas secara benar dalam cakupan luas, dibutuhkan usaha yang sangat besar
      Apa pun itu, 60~70% pertama memang mudah, tetapi 5~10% terakhir yang benar-benar sulit
      Seperti disebut di atas, saat ini jauh lebih mahal untuk menjalankan berkali-kali, menghasilkan banyak variasi, lalu memilih hasilnya, dan kalau ingin menerapkannya ke semua tugas, biaya inferensi juga jadi masalah besar
      Pada titik tertentu, code review justru akan makin wajib untuk kode yang ditulis mesin
      Pada proyek kecil atau fitur berskala kecil, mungkin kita bisa mempercayai hasil kerja mesin, tetapi untuk codebase yang akan dipelihara lama, manusia tetap harus menangani desain struktur dan review
      AI bisa membantu mengeksplorasi banyak pendekatan lebih cepat, tetapi keputusan akhir tetap milik manusia, dan kualitas harus dijaga lewat desain atau review langsung
      Dalam waktu dekat, tim engineering kemungkinan akan mencari cara memanfaatkan background agent secara aktif
      Saya sendiri skeptis terhadap pendekatan seperti sekarang yang seolah menyerahkan semuanya ke model kuat
      Pekerjaan code review AI saat ini cukup membuat frustrasi, jadi dibutuhkan workflow yang lebih baik
      Selama beberapa tahun ke depan, "background agent" sendiri kemungkinan akan menjadi infrastruktur penting yang wajib dimiliki tiap perusahaan
      Sebagian besar perusahaan mungkin akan memakainya lewat API alih-alih meng-host infrastruktur agen seperti ini sendiri
      Infrastruktur engineering berbasis agen masih sangat awal, jadi sepertinya juga akan muncul banyak peluang kerja baru (dalam 3~5 tahun ke depan)

    • Kalau ingin melihatnya secara optimistis, ada juga fakta bahwa makin murah sesuatu dibuat (misalnya kode), justru permintaannya bisa meningkat
      Mungkin nondeveloper bisa berperan sebagai manajer, tetapi dari pengalaman saya, untuk pekerjaan yang makin penting orang justru cenderung ingin menyerahkannya kepada pihak yang lebih bisa dipercaya, yaitu manusia

    • Saya rasa software developer bisa dianalogikan sebagai kuda, sementara agen model baru seperti Codex atau Claude Code adalah mobil
      Saya bertanya-tanya apakah kerangka pikir yang tepat adalah bahwa sebagian kuda menjadi pengemudi mobil, sementara sebagian lain kehilangan pekerjaan karena tak lagi perlu menarik gerobak

  • Saya tidak bisa menemukan tempat yang merangkum daftar bahasa yang didukung
    Tidak dijelaskan dengan baik baik di pengenalan resmi maupun review, dan kebanyakan hanya diterangkan lewat contoh seperti memperbaiki typo di halaman web

  • Kelihatannya ini tingkat alat yang bisa dirakit cepat dalam seminggu dengan gptel-tool

 
horace 2025-05-27

Kalau dipakai sebagai pekerja suruhan, ternyata bagus ya!