Pengalaman menemukan zero-day open source dengan workflow multi-agent LLM

nell93 · 2026-03-12T09:11:57+09:00

Sambil mengikuti tren kompetisi AIxCC dan lomba peretasan, saya merasakan perubahan paradigma di industri keamanan dan membangun sendiri workflow penemuan kerentanan dunia nyata (Real World). Pada awalnya saya mempertimbangkan kerentanan memori dan peretasan black-box, tetapi mengubah arah karena keterbatasan kebijakan dan risiko server crash. Sebagai gantinya, saya menargetkan web open source skala besar yang kodenya dipublikasikan secara transparan dan analisis logika bisnis yang kompleksnya sangat bisa memanfaatkan kemampuan pemahaman konteks LLM, seperti Nextcloud, Matomo, dan Grafana. Untuk mengatasi masalah biaya (keberlanjutan) akibat konsumsi token, saya merancang arsitektur routing 3 tahap berbasis model GLM yang sangat efisien dari sisi biaya, dengan merujuk pada tulisan benchmark yang saya temukan di GeekNews. Finding (GLM-4.7): meningkatkan jumlah pemanggilan versi 4.7 yang sekitar 3 kali lebih murah daripada model tingkat atas untuk menjelajahi kandidat kerentanan dalam jumlah besar Semi-Triage (GLM-5): memfilter False Positive yang jelas pada tahap pertama Triage (Codex 5.3): hanya data yang lolos yang diverifikasi akhir oleh model tingkat atas, lalu notifikasi otomatis dikirim ke Discord/Notion (sebelum pelaporan, reproduksi dan verifikasi tetap dilakukan langsung oleh manusia) Melalui prompt engineering, saya mengendalikan sifat malas khas LLM yang cenderung "sekadar memindai sepintas". Memaksa 3 elemen "kondisi penyerang, kondisi server, dampak keamanan (CIA)" untuk selalu ditampilkan dalam respons Membuatnya melakukan cross-check terhadap kebijakan keamanan resmi dan dokumentasi open source agar bisa membedakan dengan jelas antara bug biasa dan kerentanan keamanan Hasilnya, AI berhasil menunjukkan celah logika halus yang mudah terlewat ketika manusia membandingkan puluhan ribu baris kode routing dan mesin otorisasi lalu kehilangan fokus. Secara khusus, AI menemukan kelemahan pada API pengelolaan izin dashboard Grafana, yaitu parameter scope yang terlewat dalam verifikasi izin internal, dan saya melaporkan kerentanan eskalasi hak akses serius yang memungkinkan pengambilalihan kendali dashboard lain (CVE-2026-21721, CVSS 8.1). Selain itu, saya juga memperoleh banyak zero-day (CVE) dan bounty pada Nextcloud (XSS, bypass autentikasi), Protobuf (DoS), Airflow, Discourse, dan lainnya. Ke depannya, pekerjaan penemuan kerentanan sederhana (red team) tampaknya akan banyak digantikan oleh AI. Penulis membagikan insight bahwa kemampuan merancang sendiri workflow keamanan AI seperti ini dan menyusun strategi pertahanan dari sudut pandang blue team yang sesuai dengan situasi bisnis akan menjadi semakin penting bagi para hacker.

(se1en.tistory.com)

7 poin oleh nell93 2026-03-12 | Belum ada komentar. | Bagikan ke WhatsApp

Sambil mengikuti tren kompetisi AIxCC dan lomba peretasan, saya merasakan perubahan paradigma di industri keamanan dan membangun sendiri workflow penemuan kerentanan dunia nyata (Real World).
Pada awalnya saya mempertimbangkan kerentanan memori dan peretasan black-box, tetapi mengubah arah karena keterbatasan kebijakan dan risiko server crash. Sebagai gantinya, saya menargetkan web open source skala besar yang kodenya dipublikasikan secara transparan dan analisis logika bisnis yang kompleksnya sangat bisa memanfaatkan kemampuan pemahaman konteks LLM, seperti Nextcloud, Matomo, dan Grafana.
Untuk mengatasi masalah biaya (keberlanjutan) akibat konsumsi token, saya merancang arsitektur routing 3 tahap berbasis model GLM yang sangat efisien dari sisi biaya, dengan merujuk pada tulisan benchmark yang saya temukan di GeekNews.
- Finding (GLM-4.7): meningkatkan jumlah pemanggilan versi 4.7 yang sekitar 3 kali lebih murah daripada model tingkat atas untuk menjelajahi kandidat kerentanan dalam jumlah besar
- Semi-Triage (GLM-5): memfilter False Positive yang jelas pada tahap pertama
- Triage (Codex 5.3): hanya data yang lolos yang diverifikasi akhir oleh model tingkat atas, lalu notifikasi otomatis dikirim ke Discord/Notion (sebelum pelaporan, reproduksi dan verifikasi tetap dilakukan langsung oleh manusia)
Melalui prompt engineering, saya mengendalikan sifat malas khas LLM yang cenderung "sekadar memindai sepintas".
- Memaksa 3 elemen "kondisi penyerang, kondisi server, dampak keamanan (CIA)" untuk selalu ditampilkan dalam respons
- Membuatnya melakukan cross-check terhadap kebijakan keamanan resmi dan dokumentasi open source agar bisa membedakan dengan jelas antara bug biasa dan kerentanan keamanan
Hasilnya, AI berhasil menunjukkan celah logika halus yang mudah terlewat ketika manusia membandingkan puluhan ribu baris kode routing dan mesin otorisasi lalu kehilangan fokus.
Secara khusus, AI menemukan kelemahan pada API pengelolaan izin dashboard Grafana, yaitu parameter scope yang terlewat dalam verifikasi izin internal, dan saya melaporkan kerentanan eskalasi hak akses serius yang memungkinkan pengambilalihan kendali dashboard lain (CVE-2026-21721, CVSS 8.1).
Selain itu, saya juga memperoleh banyak zero-day (CVE) dan bounty pada Nextcloud (XSS, bypass autentikasi), Protobuf (DoS), Airflow, Discourse, dan lainnya.
Ke depannya, pekerjaan penemuan kerentanan sederhana (red team) tampaknya akan banyak digantikan oleh AI. Penulis membagikan insight bahwa kemampuan merancang sendiri workflow keamanan AI seperti ini dan menyusun strategi pertahanan dari sudut pandang blue team yang sesuai dengan situasi bisnis akan menjadi semakin penting bagi para hacker.

Pengalaman menemukan zero-day open source dengan workflow multi-agent LLM

Bacaan terkait

Belum ada komentar.