- Joshua Rogers menemukan daftar besar potensi masalah dalam codebase curl menggunakan rangkaian alat berbasis AI miliknya sendiri
- Daftar ini mencakup bukan hanya cacat gaya kode yang sepele, tetapi juga bug kecil dan celah keamanan potensial
- Sebagian besar masalah yang ditemukan adalah bug kecil, tetapi 1–2 di antaranya bisa merupakan cacat keamanan yang kritis
- Karena ini adalah masalah yang sebelumnya tidak terdeteksi, hasilnya benar-benar sangat bernilai
- Berdasarkan laporan tersebut, 22 perbaikan bug sudah selesai dilakukan
- Masih ada lebih dari dua kali lipat isu yang belum terverifikasi, sehingga peninjauan dan perbaikan terus berlangsung
- Masalah rinci ditandai sebagai "Reported in Joshua's sarif data", dan jika tertarik, Anda dapat memeriksa data tersebut secara langsung
1 komentar
Komentar Hacker News
Daripada menulis atau memperbaiki kode secara langsung, saya ingin AI berperan memberi tahu bagian kode yang mencurigakan dan lokasi yang perlu saya periksa lebih detail
Saat saya meminta Claude mencari bug di library C saya yang panjangnya 20 ribu baris, ternyata ia memecah file lalu melakukan grep terhadap pola kode tertentu, dan pada akhirnya hanya menampilkan komentar FIXME saya sendiri (haha)
Sebenarnya itu setara dengan yang bisa dilakukan skrip bash sederhana, jadi cukup mengecewakan
ChatGPT malah lebih tidak berguna lagi, hanya mengulang "semuanya terlihat bagus! hebat sekali! tos dulu~"
Sejauh ini, static analysis tradisional jauh lebih membantu untuk menemukan bug nyata, tetapi hasil static analysis yang bersih tidak berarti tidak ada bug logika
Justru di titik inilah saya pikir LLM seharusnya benar-benar bersinar
Jika untuk mendapatkan informasi bug potensial yang lebih berguna dari LLM kita harus membangun lingkungan yang sangat dikustomisasi, maka pada akhirnya kegunaannya juga akan turun, sama seperti alat static analysis yang jarang dipakai saat butuh konfigurasi rumit
Arah bahwa AI menulis kode lalu programmer hanya melakukan review terasa seperti alur yang keliru
Tentu saya paham kenapa pendekatan itu dijual dengan gaya "jumlah baris kode meningkat~"
Misalnya, bertanya "Prompt seperti apa yang harus saya pakai agar Claude Code menyusun rencana untuk mereview bug logika secara efektif sambil mengabaikan komentar seperti FIXME dan TODO?"
Prompt hasilnya terlalu panjang untuk ditulis di sini, tetapi bisa dilihat pada contoh yang dibagikan lewat gist
Berdasarkan hasil itu, kita juga bisa terus menyempurnakannya dan menjadikannya agen
Setelah masa uji coba gratis, alat itu populer di tim pengembangan kami sehingga kami mengadopsinya secara resmi
Selain kasus salah deteksi sesekali, alat ini sangat berguna
Baik penulis PR maupun reviewer sama-sama banyak menghemat waktu
Masalah yang sebelumnya mungkin butuh berjam-jam bisa saya selesaikan setelah mendapat petunjuk
Saya sangat antusias dengan kemungkinan pemanfaatan AI seperti ini
Agak mengejutkan kalau ada respons seperti "semuanya terlihat bagus"
Saat dipakai di Codex CLI, model ini sering mengajukan pertanyaan atau keraguan
Gemini 2.5 Pro juga lumayan baik di bagian ini
Mungkin ada baiknya melihat riwayatnya: tautan pencarian HN terkait curl+AI
Pada akhirnya, sudut pandang yang lebih tepat tampaknya adalah perbedaan antara orang yang benar-benar paham cara memakainya dan orang yang hanya coding mengikuti vibe
Ini kontras dengan masa lalu ketika Daniel Stenberg dibuat pusing oleh isu keamanan palsu berkualitas buruk yang dibuat AI
Terkait HackerOne: "Pelapor isu sampah buatan AI langsung saya ban. Praktis setara serangan DDoS. Rasanya sampai ingin menagih waktu yang terbuang"
Lihat juga tulisan blog Daniel pada Januari tahun ini: The I in LLM stands for Intelligence?
printfyang salah untuksize_t, sebenarnya bisa terdeteksi hanya dengan mengatur flag warning compiler dengan benarAkan cukup berguna jika AI bisa memberi saran seperti, "flag peringatan compiler penting Anda belum diaktifkan"
Sepertinya sebagian PR mungkin karena kecocokan dependabot, dan jika mencari "Joshua sarif data" Anda bisa melihat daftar PR yang lebih spesifik tautan
Saya menduga itu alasan kesan Daniel Stenberg ikut berubah
Banyak yang mendorong adopsi teknologi SAST berbasis AI dan produk terkait juga sudah dirilis, tetapi mayoritasnya masih di bawah ekspektasi
Kalau hanya mengecewakan mungkin masih untung, masalahnya bisa berbahaya jika sampai menimbulkan rasa aman yang keliru terhadap keamanan
Pandangan kritis dan alasannya terhadap pemindai SAST berbasis AI diperkenalkan di sini
Dalam situasi ketika berbagai alat sebelumnya gagal menemukan bug, saya penasaran kenapa strategi kali ini lebih efektif
Tautan Mastodon tampaknya dipakai untuk mengonfirmasi bahwa meskipun ada cuplikan kode yang salah, bug-nya memang nyata