- OpenAI Codex adalah agen kode multitasking berbasis integrasi GitHub yang menyediakan antarmuka untuk memberi instruksi beberapa tugas secara paralel lewat bahasa alami
- Pengguna dapat dengan cepat menumpahkan pekerjaan untuk satu hari dan menyerahkan pembuatan branch serta pembukaan PR secara otomatis, dan karena juga bisa digunakan di perangkat mobile, pada akhirnya ia dapat mendukung alur kerja yang berpusat pada kerja jarak jauh
- Namun saat ini, karena masalah seperti penanganan error yang kurang memadai, kualitas kode yang tidak stabil, sulitnya memperbarui branch yang sudah ada, dan pemblokiran jaringan di sandbox eksekusi, alat ini kurang cocok untuk pekerjaan refactor utama
- Codex berguna untuk mengotomatiskan tugas maintenance kecil dan praktis untuk menangani pekerjaan yang berulang dengan cepat
- Ke depan, jika peningkatan model, pencampuran multi-model, dan fitur integrasi lanjutan diperkenalkan, ada kemungkinan ia berkembang menjadi alat orkestrasi level tinggi
Cara Kerja OpenAI Codex
- OpenAI Codex memiliki UI berbasis chat, dan dapat diakses melalui undangan atau langganan Pro seharga $200/bulan
- Pengguna harus melalui autentikasi multi-faktor dan menyetujui aplikasi Codex GitHub untuk tiap organisasi, lalu Codex mengkloning repositori ke sandbox miliknya sendiri untuk menjalankan perintah dan membuat branch atas nama pengguna
- Jika Anda mengelola puluhan repositori publik dan privat, efisiensi berpindah antar banyak proyek dan mengelola antrean tugas sangat baik
- Jika hanya mengelola 1~2 repositori, menggunakan LLM yang sudah ada atau editor berfitur AI bisa menjadi pilihan yang lebih ringan
Kekuatan Codex
-
Pemrosesan paralel multi-tugas dan antarmuka
- Untuk setiap tugas, repositori dan branch dapat ditentukan, sehingga alur mendaftarkan pekerjaan satu hari secara paralel dengan bahasa alami terasa natural
- Codex mendorong cara kerja yang memproses banyak tugas sekaligus, dan ini sangat cocok dengan kebiasaan kerja penulis
-
Alur kerja fleksibel dan dukungan mobile
- Codex berjalan ramah mobile bahkan di smartphone, sehingga potensi bekerja efisien di luar kantor cukup tinggi
- Ia mengarah pada skenario penggunaan ideal: mendaftarkan beberapa pekerjaan saat mulai bekerja, lalu terus mengelola rencana dan progres bahkan saat berada di luar
-
Umpan balik berbasis chat dan pembuatan PR
- Log dan status tugas yang sedang berjalan dapat dilihat dengan mudah lewat antarmuka chat, dan instruksi tambahan juga bisa diberikan
- Jika perubahan yang dihasilkan memuaskan, Codex akan membuat Pull Request (selanjutnya disebut PR) dan melengkapi penjelasannya secara otomatis
- Menarik karena log eksekusi dan riwayat perintah dapat diperiksa langkah demi langkah
Hal-Hal yang Perlu Ditingkatkan
-
Penanganan error yang belum memadai
- Ketiadaan umpan balik yang jelas saat memulai tugas atau membuat PR gagal menurunkan kegunaan
-
Kualitas kode dan eksekusi tugas sekali jalan
- Model Codex berada di keluarga GPT-3 dan mendukung lebih dari 12 bahasa, tetapi saat dijalankan paralel tingkat kepuasan hanya sekitar 40-60%
- Berguna untuk pekerjaan maintenance kecil, tetapi untuk refactor skala besar, efisiensi penggunaan menurun karena harus membuat PR berulang kali
-
Tidak mendukung pembaruan berkelanjutan dalam branch
- Karena sulit mengaitkan commit lanjutan ke PR dan branch yang sudah ada, pekerjaan refactor multi-tahap menjadi tidak efisien
- Saat ini, Codex lebih cocok untuk pekerjaan sederhana yang bisa dijelaskan langsung dalam satu tugas
-
Batasan akses jaringan di sandbox eksekusi
- Karena desain yang disengaja, akses ke jaringan eksternal tidak dimungkinkan, sehingga ada keterbatasan untuk berbagai pekerjaan praktis seperti pembaruan paket atau penanganan dependensi
- Contoh: tidak berjalan saat diminta memasang paket eksternal
- Untuk pekerjaan seperti ini, pengguna tetap harus menanganinya langsung secara lokal atau mengandalkan fungsi bot yang sudah ada seperti Dependabot
Apakah ini memberi saya lonjakan produktivitas yang luar biasa?
- Penulis belum merasakan peningkatan produktivitas yang eksplosif
- Agar Codex benar-benar mengarah pada revolusi produktivitas
- Dibutuhkan peningkatan desain khusus dan algoritme agar lebih banyak tugas bisa diselesaikan tuntas dalam satu kali eksekusi
- Perbaikan alur pembaruan PR pada branch yang sudah ada
- Kapabilitas delegasi/manajemen terintegrasi perlu diperkuat, dan integrasi dengan berbagai API OpenAI harus diperluas
- Codex harus berevolusi menjadi orkestrator level tinggi
- Saat ini Codex sangat berguna untuk pekerjaan otomatisasi maintenance rutin dan pembaruan skala kecil
- Untuk pengembangan fitur besar dan refactor, kolaborasi dengan dukungan IDE dan LLM lebih cocok
Pemikiran Akhir
- Codex adalah alat yang tenang namun menjanjikan
- Dengan mempertimbangkan fitur-fitur yang akan terus dipoles ke depan, ada peluang besar ia menjadi titik awal dan alat koordinasi pekerjaan
- Untuk sekarang, ini adalah saat yang tepat untuk fokus pada tugas-tugas ringan dan berulang sambil menunggu peningkatan lebih lanjut
3 komentar
Sepertinya suasananya masih belum mendukung untuk membakar $200
Opini Hacker News
Saya adalah pelanggan Plus dan ingin mencoba Codex, jadi saya upgrade ke Pro, tetapi sejujurnya hasilnya agak mengecewakan menurut pengalaman saya
UX-nya juga masih terasa belum benar-benar matang, dan cukup membuat frustrasi karena tidak tahu berapa lama hasilnya akan keluar
Berkat sifat Codex yang asinkron, saya setidaknya bisa menjalankan beberapa pekerjaan sekaligus, jadi itu sisi yang lumayan
Keluhan lain adalah, agar alat ini bisa berguna, kita harus menentukan environment secara terpisah
Tidak bisa menjalankan container yang dibutuhkan untuk testing, jadi kegunaannya turun jauh
Environment-nya sepenuhnya terisolasi dari internet sehingga pemakaiannya terbatas
Salah satu alasan o3 di ChatGPT kuat adalah karena ia bisa memanfaatkan web untuk mencari informasi sendiri, sedangkan Codex kurang di sisi itu
Sebagai perbandingan, saya juga sering memakai Claude, dan kalau membuat proyek dengan repo GitHub sebagai sumber, ia cukup bagus menemukan bug asing di aplikasi React yang kompleks
Gemini juga mendukung hal seperti ini dengan baik berkat context window yang luas
Tentu saja saya paham arah yang ingin dituju OpenAI
Saya berharap Codex benar-benar bisa menangani banyak tugas seperti rekan kerja sungguhan, tetapi untuk saat ini rasanya terlalu fokus pada pull request
Jadi saya berencana downgrade lagi ke Plus dan melihat perkembangannya sedikit lebih lama
Saya bekerja di OpenAI, tetapi bukan di tim Codex, dan saya punya pengalaman memakai Codex dengan sukses di beberapa proyek
Cara kerja saya seperti ini
Saya selalu menjalankan prompt yang sama beberapa kali agar keluar hasil yang berbeda-beda
Saya membandingkan beberapa implementasi untuk mencari yang terbaik, lalu memikirkan bagaimana prompt-nya bisa diubah agar mengarah ke hasil yang lebih baik
Bagian yang salah dari model saya perbaiki di prompt lalu diterapkan berulang kali
Jika pekerjaan dipecah menjadi unit kecil dan eksperimen paralel seperti ini diulang, bahkan proyek besar pun bisa selesai dalam beberapa jam hanya dengan penyesuaian prompt dan review kode
Pendekatan ini sangat berguna bukan hanya untuk pekerjaan migrasi API, tetapi juga untuk kode yang dalam seperti kernel Triton
"Saya memilih yang terbaik dari beberapa implementasi, lalu memikirkan apa lagi yang seharusnya ditambahkan ke prompt agar hasilnya lebih baik"
Saya penasaran bagaimana orang nonahli bisa membedakan mana yang 'terbaik'
Pada akhirnya, untuk menemukan arah yang benar tetap dibutuhkan keahlian di bidang tersebut, dan menurut saya ini jadi bukti bahwa LLM tidak bisa menghapus pekerjaan software engineer
Saya merasa cara kerja manual yang Anda lakukan sendiri itu sebenarnya bisa menjadi dasar reinforcement learning (RL)
Kalau pengalaman di UI ini sedikit dipoles lalu dipakai sebagai data nyata, sepertinya bisa menghasilkan dataset pelatihan yang bagus
Saya penasaran seberapa jauh cara ini benar-benar lebih cepat daripada menulis kode langsung sendiri
Saya penasaran apakah ketika prompt diubah baru dan ada hal penting yang berubah, Anda kadang membuang semua pekerjaan yang sudah dilakukan sejauh ini
Perubahan kecil bisa berdampak besar pada hasil, dan kalau itu masalah tanpa contoh sebelumnya, sepertinya akan lebih sulit
Kalau cara kerja seperti ini diulang terus, saya rasa orang bisa jadi lelah atau malah menjauh dari inti persoalan
Buat saya ini bisa terasa tidak efisien, jadi saya penasaran apakah orang lain memang punya toleransi lebih tinggi untuk pekerjaan berulang seperti ini
Saya membagikan review terkait Codex ke pod tim saya (https://latent.space/p/codex)
Ini model yang sangat bagus untuk menghasilkan kode panjang sekaligus dalam satu jalan (di pod dijelaskan bahwa model ini difine-tune khusus untuk oneshot sesuai tugas OpenAI SWE)
Fitur integrasinya relatif kurang (misalnya tidak ada integrasi browser, dan koneksi GitHub juga kurang matang — karena meminta membuka pull request baru di setiap iterasi, jadi merepotkan kalau ingin menambahkan commit lanjutan ke branch yang sudah ada)
Meski begitu, saya berharap fitur integrasi seperti ini akan membaik seiring waktu
Fakta bahwa kita bisa menjalankan 60 instance Codex secara bersamaan per jam terasa sebagai perbedaan kualitatif yang sangat besar dibanding Devin (5 bersamaan) atau Cursor (1 bersamaan sebelum ada background agent)
Saya sendiri tidak terlalu merasakan perbedaan performa model Codex secara mencolok, tetapi walau OpenAI menjelaskan Codex sebagai turunan dari GPT-3, kenyataannya ini fine-tuning dari o3
Klaim "fine-tuning o3" sendiri terasa cukup membingungkan
Aturan penamaan OpenAI juga memicu kebingungan, dan ini masalah yang dialami sebagian besar perusahaan AI
Codex awalnya adalah model lama berbasis GPT-3, dan sekarang nama yang sama dipakai ulang di CLI, tool, dan berbagai tempat lain
Google juga sama saja, memakai “Gemini Ultra” baik sebagai nama model maupun nama produk langganan sehingga membingungkan
Bagian yang paling tidak nyaman bagi saya adalah pembatasan akses jaringan
git fetch, sinkronisasi upstream, atau memperbaiki bug integrasiSepertinya domain untuk
apt installjuga diblokir di setup scriptAgennya juga terlihat cenderung langsung mencoba
git grepalih-alih memahami konteks keseluruhan kode (terlihat di UI), jadi menurut saya biasa sajaSaya penasaran apa bedanya dibanding Claude Code
Saya rasa kemampuan untuk mengubah banyak repo dengan cepat itu benar-benar keren
Saya mengelola banyak aplikasi contoh sekaligus, dan kalau perubahan format README atau pergantian link harus diulang di lebih dari 20 tempat, itu benar-benar membosankan
Kalau pekerjaan remeh seperti ini bisa saya serahkan ke Codex lalu nanti saya tinggal menekan tombol merge, saya akan sangat senang
Saya perkirakan ini akan segera berkembang ke arah sana
Untuk sementara, saya mungkin akan menyebarkan pekerjaan maintenance kecil dengan Codex, sambil tetap melakukan refactor besar atau pengembangan penting di IDE
Saya penasaran apakah alat seperti ini bisa dipakai oleh nondeveloper untuk melakukan perubahan kode
Hal-hal seperti revisi konten atau perubahan CSS sederhana benar-benar tidak ingin saya kerjakan sendiri, dan karena testing-nya bisa dicek secara visual, rasanya cukup kalau saya hanya melakukan code review
Nondeveloper melihat tiketnya, memulai pekerjaan, lalu kalau hasilnya "kelihatan bagus" saya yang meninjau
Menurut saya ini workflow yang ideal untuk bug kecil atau perbaikan fitur di backlog
Saya rasa alat seperti AI Assist pada akhirnya bisa menjadi platform low-code terbaik
Saya berharap ini bisa membawa kita ke hari ketika software engineer benar-benar tergantikan
Namun perubahan konten pun sering membutuhkan pemikiran yang mendalam
Begitu skalanya sedikit membesar, ada ketergantungan hulu-hilir, dan bahkan menambahkan satu field saja bisa berdampak ke banyak hal di seluruh sistem
Perubahan kecil seperti CSS juga tampak sepele, tetapi pengguna sulit tahu seberapa kecil dampaknya dalam praktik
Soal aksesibilitas, multiplatform (mobile/desktop), dan banyak isu lain juga akan segera dipelajari dengan cepat
Bahkan alur ini terlihat seperti funnel yang membuat orang "masuk" menjadi software engineer
Untuk tugas kecil, saya rasa tingkat keberhasilan 40~60% itu sudah lumayan bagus
Menarik juga mengetahui bahwa alat ini kesulitan pada tugas yang lebih kompleks dan membutuhkan logika yang lebih dalam
Kinerjanya saat ini setara engineer junior yang sangat buruk
Misalnya saat diminta melakukan perubahan, demi menghilangkan warning compiler ia mengubah nilai kelas secara massal menjadi nullable
Sekilas tampak berjalan dan bisa dikompilasi, tetapi hasilnya sepenuhnya salah karena integritas data ikut hilang
Kasus seperti ini cukup sering terjadi
Kalau seluruh codebase diserahkan ke Codex tanpa pengawasan, saya yakin technical debt akan cepat menumpuk
Ekspektasi bahwa Codex akan membantu kita bekerja dengan baik saat kita tidak ada di tempat terasa terlalu optimistis
Bagi banyak orang, "bekerja efektif saat kita tidak hadir" sebenarnya beririsan dengan "barisan pengangguran"
Menarik juga melihat para developer justru senang dengan perubahan seperti ini
Saya heran dengan suasana seolah suatu hari nanti kita cukup duduk menonton agen melakukan semuanya sambil tetap digaji
Sekalipun pekerjaan jadi lebih mudah, arahnya tetap bisa menuju hilangnya pekerjaan itu sendiri
Dalam sejarah kenaikan produktivitas, hampir tidak ada preseden pekerja lalu menikmati lebih banyak waktu luang
Polanya biasanya keuntungan untuk pemegang saham dan eksekutif, beban kerja dua kali lipat untuk separuh karyawan yang tersisa, dan sisanya menganggur
Untuk sementara saya rasa masih butuh waktu sebelum sampai ke pengangguran massal
Agar model seperti ini bisa menangani 90~95% tugas secara benar dalam cakupan luas, dibutuhkan usaha yang sangat besar
Apa pun itu, 60~70% pertama memang mudah, tetapi 5~10% terakhir yang benar-benar sulit
Seperti disebut di atas, saat ini jauh lebih mahal untuk menjalankan berkali-kali, menghasilkan banyak variasi, lalu memilih hasilnya, dan kalau ingin menerapkannya ke semua tugas, biaya inferensi juga jadi masalah besar
Pada titik tertentu, code review justru akan makin wajib untuk kode yang ditulis mesin
Pada proyek kecil atau fitur berskala kecil, mungkin kita bisa mempercayai hasil kerja mesin, tetapi untuk codebase yang akan dipelihara lama, manusia tetap harus menangani desain struktur dan review
AI bisa membantu mengeksplorasi banyak pendekatan lebih cepat, tetapi keputusan akhir tetap milik manusia, dan kualitas harus dijaga lewat desain atau review langsung
Dalam waktu dekat, tim engineering kemungkinan akan mencari cara memanfaatkan background agent secara aktif
Saya sendiri skeptis terhadap pendekatan seperti sekarang yang seolah menyerahkan semuanya ke model kuat
Pekerjaan code review AI saat ini cukup membuat frustrasi, jadi dibutuhkan workflow yang lebih baik
Selama beberapa tahun ke depan, "background agent" sendiri kemungkinan akan menjadi infrastruktur penting yang wajib dimiliki tiap perusahaan
Sebagian besar perusahaan mungkin akan memakainya lewat API alih-alih meng-host infrastruktur agen seperti ini sendiri
Infrastruktur engineering berbasis agen masih sangat awal, jadi sepertinya juga akan muncul banyak peluang kerja baru (dalam 3~5 tahun ke depan)
Kalau ingin melihatnya secara optimistis, ada juga fakta bahwa makin murah sesuatu dibuat (misalnya kode), justru permintaannya bisa meningkat
Mungkin nondeveloper bisa berperan sebagai manajer, tetapi dari pengalaman saya, untuk pekerjaan yang makin penting orang justru cenderung ingin menyerahkannya kepada pihak yang lebih bisa dipercaya, yaitu manusia
Saya rasa software developer bisa dianalogikan sebagai kuda, sementara agen model baru seperti Codex atau Claude Code adalah mobil
Saya bertanya-tanya apakah kerangka pikir yang tepat adalah bahwa sebagian kuda menjadi pengemudi mobil, sementara sebagian lain kehilangan pekerjaan karena tak lagi perlu menarik gerobak
Saya tidak bisa menemukan tempat yang merangkum daftar bahasa yang didukung
Tidak dijelaskan dengan baik baik di pengenalan resmi maupun review, dan kebanyakan hanya diterangkan lewat contoh seperti memperbaiki typo di halaman web
Kelihatannya ini tingkat alat yang bisa dirakit cepat dalam seminggu dengan gptel-tool
Kalau dipakai sebagai pekerja suruhan, ternyata bagus ya!