- Belakangan ini terlihat penurunan kualitas keseluruhan alat bantu coding AI, dengan kecepatan kerja dan akurasi hasil yang memburuk dibanding sebelumnya
- Large language model (LLM) terbaru mengurangi kesalahan sintaks, tetapi lebih sering menghasilkan silent failure yang tetap bisa dijalankan namun memberikan hasil yang salah
- Dalam percobaan, GPT-5 menutupi masalah dengan membuat nilai tanpa mengungkap penyebab error, sementara GPT-4 dan Claude versi lama relatif lebih jelas memperlihatkan masalah pada data atau kode itu sendiri
- Perubahan ini berkaitan dengan kaburnya kualitas data akibat proses yang menjadikan penerimaan pengguna sebagai sinyal pembelajaran
- Jika tidak berinvestasi pada data berkualitas tinggi dan verifikasi oleh pakar alih-alih sekadar keberhasilan eksekusi jangka pendek, risiko model mempelajari kembali kesalahan yang dibuatnya sendiri akan makin besar
Fenomena penurunan kinerja alat bantu coding AI
- Dalam beberapa bulan terakhir, efisiensi kerja dan keandalan kode pada alat bantu coding AI menurun bersamaan
- Pekerjaan yang dulu memerlukan 5 jam dengan bantuan AI kini dalam banyak kasus membutuhkan 7~8 jam atau lebih
- Sebagian pengguna kembali memilih LLM generasi sebelumnya karena alasan stabilitas
- Perubahan ini berulang kali teramati di lingkungan pengujian yang menjalankan kode buatan AI tanpa campur tangan manusia
‘Silent failure’ yang makin menonjol pada model baru
- Dulu, masalah utamanya adalah error sintaks atau kesalahan logika yang jelas, sehingga langsung terlihat pada tahap eksekusi
- Model terbaru makin cenderung menghasilkan kode yang tampak berjalan normal tetapi salah secara makna
- Menghapus pemeriksaan keamanan
- Membuat nilai palsu yang hanya menyesuaikan format output
- Error tersembunyi semacam ini terlambat ditemukan, lalu menimbulkan biaya dan kebingungan yang lebih besar pada tahap berikutnya
- Hal ini bertentangan langsung dengan alasan bahasa pemrograman modern dirancang agar gagal dengan cepat dan jelas
Perbedaan yang terlihat dalam pengujian sederhana
- Error pada kode Python yang merujuk ke kolom yang tidak ada diberikan ke beberapa versi ChatGPT
- GPT-4: sebagian besar respons menunjukkan penyebab error atau mendorong proses debugging
- GPT-4.1: mengarahkan pengguna untuk menampilkan kolom dataframe guna memeriksa masalah
- GPT-5: melakukan perhitungan menggunakan indeks yang sebenarnya, seolah kode berhasil dijalankan, tetapi menghasilkan nilai yang tidak bermakna
- Tren serupa juga terlihat pada model Claude
- Versi lama berfokus pada pengenalan masalah
- Versi baru menyajikan solusi yang mengabaikan atau mem-bypass error
Kaitan antara cara pelatihan dan penurunan kualitas
- Model awal terutama dilatih dengan banyak kode yang sudah ada; error memang lebih banyak, tetapi tidak menyembunyikan masalah itu sendiri
- Setelah integrasi dengan IDE, perilaku pengguna (penerimaan kode dan keberhasilan eksekusi) mulai dipakai sebagai sinyal pembelajaran
- Seiring bertambahnya pengguna pemula, sinyal bahwa kode yang sekadar bisa dijalankan dianggap sebagai kode yang baik pun menumpuk dan dipelajari model
- Akibatnya, pola tidak akurat seperti penghapusan pemeriksaan keamanan dan pembuatan data palsu makin diperkuat
- Semakin banyak fitur coding otomatis, semakin sedikit verifikasi manusia, sehingga model terus mengulang pembelajaran yang keliru
Arah yang dibutuhkan ke depan
- Alat bantu coding AI tetap merupakan alat yang sangat meningkatkan produktivitas dan aksesibilitas pengembangan
- Namun, pembelajaran yang berfokus pada keberhasilan eksekusi dapat merusak kualitas kode dalam jangka panjang
- Pengamanan data berkualitas tinggi yang diberi label oleh pakar dan proses pelatihan ulang yang bertanggung jawab adalah hal yang wajib
- Jika tidak, model besar kemungkinan terjebak dalam siklus output salah → pembelajaran salah → output yang lebih buruk
1 komentar
Komentar Hacker News
Menarik melihat para antusias AI mengandalkan pengalaman subjektif saat membicarakan peningkatan produktivitas mereka, tetapi menuntut beban pembuktian yang berlebihan dari pendapat yang berseberangan
Penulisnya bahkan menjanjikan demo live streaming, tetapi pada akhirnya ia tidak berhasil menyelesaikan satu tugas ekspansi sederhana pun dalam satu jam
Kalau saya mengerjakannya sendiri secara manual, sepertinya waktu yang dibutuhkan akan mirip
Jadi saya bertanya di komentar, “mana peningkatan 10 kalinya?”, lalu dia mengelak dengan bilang itu “hanya kesalahan sesaat” atau “sambil menunggu AI menjawab, saya bisa mengerjakan hal lain”
Sejujurnya saya memang skeptis sejak awal, tetapi saya berharap skeptisisme saya salah. Ternyata tidak
Pada akhirnya, beban pembuktian atas klaim peningkatan produktivitas sepenuhnya ada pada pihak yang membuat klaim
Saya tidak menganggap AI mampu melakukan pemikiran orisinal. Sebaliknya, fitur tab autocomplete menghemat banyak waktu untuk loop, penanganan error, dokumentasi, dan sebagainya
Kecepatan menyelesaikan masalah itu sendiri tetap sama, tetapi pada tahap implementasi jelas lebih cepat
Jadi, jika ada “peningkatan 10 kali”, itu bukan pada pemecahan masalah, melainkan kecepatan mengetik yang naik 10 kali
Bahkan pada proyek berbasis C# dengan 1 juta baris kode, produktivitas meningkat besar tanpa penurunan kualitas
Kepada orang-orang yang kritis, saya ingin bilang “tolong lihat langsung”. Ini bukan teknik rahasia, hanya butuh waktu untuk belajar menggunakan alatnya
Tapi kenapa mereka tidak menunjukkan hasil luar biasa yang mereka buat, dan malah repot-repot mencoba meyakinkan saya?
Saya jadi curiga jangan-jangan ada imbalan atau insentif di baliknya
Masalahnya bukan AI memburuk, melainkan reproducibility hasilnya yang rendah
Seperti aplikasi pemesanan taksi atau delivery, ekosistem LLM tampaknya pada akhirnya juga akan menuju struktur kenaikan harga. Saat ini cuma dalam kondisi disubsidi oleh dana investasi
Sekarang memang murah berkat subsidi, tetapi kemungkinan besar nanti juga akan tetap murah tanpa subsidi
Meski begitu, memakai model terbaru (SOTA) bisa jadi lebih mahal. Namun itu persoalan nilai yang berbeda
Dengan 10–20 ribu dolar, Anda bisa merakit mesin yang mampu menghasilkan token sepanjang hari, dan operator skala besar bahkan berjalan lebih efisien berkat economies of scale
Pada bagian seperti ini, masih sulit untuk dipercaya
Begitu dana investasi berhenti, harga pada akhirnya akan naik, dan baru setelah kompetisi menghilang struktur biaya yang sebenarnya akan terlihat
Ada pengguna yang menganggap pengujian “AI memburuk” itu aneh
Misalnya, jika dalam kode ada referensi ke kolom yang sebenarnya tidak ada lalu kita memerintahkan “berikan hanya kode lengkap tanpa komentar”, AI pada dasarnya tidak punya pilihan selain menghasilkan kode yang salah
Developer yang kompeten seharusnya menunjukkan bahwa “permintaan ini salah”. Tes ini adalah eksperimen yang valid untuk menyingkap sycophantism
Diam-diam menghasilkan keluaran yang salah itu berbahaya
index_valuetidak ada, jadi harus memakaidf.index”Kesalahan seperti ini lebih dekat ke hallucination tingkat GPT-2
Saya suka alat bantu pengembangan AI, tetapi saya tidak tahu apakah itu selalu keuntungan absolut
Dulu saya makan Huel untuk mengurangi waktu makan siang, tetapi akhirnya saya malah kehilangan nilai dari waktu istirahat
Kalau AI melewatkan detail, pada akhirnya justru muncul waktu untuk mundur dan memperbaiki ulang
Karena itu saya membuat file Markdown 15k token yang berisi seluruh konteks dan batasan proyek, lalu memasukkannya ke prompt setiap kali
Semacam dokumen “model dunia”
Kita akan mengerjakan lebih banyak hal sebanyak waktu yang kita hemat, dan efikasi diri serta kemampuan memecahkan masalah pun melemah
Kita mudah lupa bahwa “inefisiensi” seperti ini sebenarnya adalah proses memperoleh pengetahuan dan wawasan
Peningkatan produktivitas dari AI mungkin dinilai terlalu tinggi jika dibandingkan dengan biaya operasional yang sesungguhnya
Saya mengharapkan makalah teknis dari IEEE, jadi agak kecewa karena tulisan ini hanya setingkat opinion piece
Saya setuju bahwa GPT-5 terlalu fokus pada pemecahan masalah dan tidak melihat gambaran besar, tetapi model lain masih bagus
Saya pribadi memakai Gemini-3-flash dan ekstensi pengganti Copilot kustom, dan itu memberi pengalaman pengembangan yang jauh lebih berguna serta lebih personal
Baru-baru ini saya melihat Cursor mengulang
grep,cd,lsseperti loop tak berujungSepertinya terlalu banyak fitur dimasukkan demi membidik para “vibe coder”. Justru versi yang lebih ringan lebih mudah ditangani
“Gagal dijalankan” belum tentu sinyal buruk
Kadang itu justru jawaban yang paling mendekati benar atau petunjuk untuk menemukan bug
Namun, menghapus logika validasi atau mengubah makna hanya agar bisa dijalankan adalah hasil yang paling buruk
Saya penasaran apa yang akan terjadi setelah LLM menghabiskan semua informasi di internet
Jika Stack Overflow dan kode open source menghilang, bukankah pada akhirnya model akan belajar dari dirinya sendiri lalu runtuh (model collapse)?
Namun ada juga banyak peneliti yang menilai risikonya tidak besar pada skala data dunia nyata
Model NVIDIA Nemotron 3 Nano terbaru dilatih dengan 33% synthetic data
Simulasi bisa dijalankan dengan memasukkan fungsi nilai seperti kemudahan maintenance
Jika AI tidak dapat mengenali kesalahannya sendiri, ada kemungkinan kolaps diri akan terjadi
Internet “sharing is caring” mungkin akan hilang
AI bukan memburuk, melainkan membaik tetapi cara memakainya berubah
Jika memiliki scaffolding yang tepat, hasilnya bisa jauh lebih baik
Menyimpulkan “AI bodoh” hanya dari tes sederhana adalah keliru
Misalnya, ketika ditanya “penjualan bulan Desember”, sebagian besar model menjumlahkan semua Desember tanpa kondisi tahun
Kesalahan logis seperti ini menimbulkan masalah dalam pekerjaan nyata
Sepertinya penguasaan kosakata teknis dan kemampuan ekspresi memengaruhi performa
Saya juga merasakan fluktuasi kualitas model dari bulan ke bulan
Seolah model melupakan penanganan error atau aturan penamaan variabel yang dulu dikerjakannya dengan baik
Ada juga kasus kualitas menurun semakin panjang percakapan. Sepertinya ada titik optimal panjang prompt
pekerjaan baru sebaiknya dimulai di thread baru, dan permintaan yang tidak perlu sebaiknya dihapus