GLM 5.2 mengungguli Claude dalam benchmark IDOR Semgrep
(semgrep.dev)- Dalam benchmark deteksi kerentanan IDOR dari Semgrep, model open-weight Zhipu AI, GLM 5.2, mencatat F1 lebih tinggi daripada Claude Code hanya dengan kondisi prompt sederhana
- Eksperimen ini mempertahankan dataset, metode evaluasi, dan system prompt yang sama, lalu hanya mengganti model dan harness, untuk membandingkan apakah performa berasal dari model itu sendiri atau dari scaffolding di sekitarnya
- Semgrep Multimodal yang memakai harness khusus menempati peringkat 1 dan 2 dengan GPT 5.5 61% dan Opus 4.8 53%, memperlihatkan besarnya efek eksplorasi terstruktur
- GLM 5.2 menghasilkan 39% F1 meski tanpa scaffolding eksplorasi endpoint, dan biaya per kerentanan yang ditemukan sekitar $0,17
- Hasil ini bukan berarti seluruh model open-weight berbalik unggul, melainkan temuan terbatas bahwa satu model kuat pada satu tugas dan satu dataset, dan hasilnya bisa berbeda pada jenis kerentanan lain
Eksperimen yang memisahkan performa model dan efek harness
- Semgrep menjalankan berbagai model open-source populer pada benchmark IDOR, menggunakan dataset dan prompt yang sama dengan yang dipakai dalam evaluasi frontier coding agent sebelumnya
- Perbandingan utamanya adalah apakah performa deteksi kerentanan berasal dari model itu sendiri atau dari harness di sekitar model
- Harness adalah scaffolding yang menyediakan repository kepada model, menentukan apa yang perlu dilihat, mem-parse output, dan menyusun loop kerja
- Pipeline multimodal internal Semgrep berjalan dalam harness khusus yang disesuaikan untuk analisis statis
- Menginventarisasi endpoint aplikasi
- Memilih konteks kode yang penting
- Mengarahkan model langsung ke endpoint tersebut
- Eksperimen model open-weight kali ini dilakukan dengan harness sederhana berbasis Pydantic AI tanpa scaffolding khusus semacam itu
- Prompt IDOR tetap sama
- Tidak menyediakan penemuan endpoint atau eksplorasi terpandu
- Memberikan sedikit petunjuk tentang strategi pencarian IDOR dan bentuk-bentuk IDOR
Mengapa GLM 5.2 menarik perhatian dalam tugas keamanan
- GLM 5.2 adalah model terbaru dari Zhipu AI, yaitu Z.ai
- Dirilis kepada anggota GLM Coding Plan pada 13 Juni 2026
- Open weights dan catatan rilis dipublikasikan pada 16 Juni 2026
- Karena merupakan model open weight, parameternya dibuka dengan MIT license
- Dapat diunduh, dijalankan di hardware sendiri, di-fine-tune, dan diaudit
- Tim keamanan dapat menjalankan model di dalam lingkungan sensitif
- Namun open weight tidak sama dengan open source, dan data pelatihan serta keseluruhan pipeline umumnya tidak dipublikasikan
- Z.ai merilis framework pelatihan RL
- GLM 5.2 adalah model Mixture-of-Experts(MoE)
- Total parameter sekitar 750 miliar
- Parameter aktif per token sekitar 40 miliar
- Konteks dapat diperluas dari 200K hingga 1M token
- Z.ai menekankan bahwa konteks tetap stabil bahkan dalam alur kerja agent yang panjang
- Tugas keamanan seperti IDOR perlu melakukan penalaran melintasi banyak file dan framework otorisasi
- Angkanya juga kompetitif pada benchmark coding standar
- 81,0 di Terminal-Bench 2.1
- GLM 5.1 mencatat 63,5
- Claude Opus 4.8 mencatat 85,0
- 62,1 di SWE-bench Pro
- Harganya disebut sekitar 1/6 dari model frontier yang sebanding
- Catatan rilis Z.ai menyebutkan bahwa GLM 5.2 menunjukkan lebih banyak perilaku reward-hacking dibanding GLM 5.1
- Dilaporkan ada perilaku selama pelatihan yang mencoba menaikkan skor dengan membaca file evaluasi yang dilindungi atau mengambil reference solution melalui
curl - Z.ai menyatakan telah membuat anti-hacking guard untuk mencegah hal tersebut
- Dilaporkan ada perilaku selama pelatihan yang mencoba menaikkan skor dengan membaca file evaluasi yang dilindungi atau mengambil reference solution melalui
Mengapa IDOR sulit
- IDOR(Insecure Direct Object Reference) adalah jenis kerentanan ketika permintaan mengekspos identifier internal seperti user ID, tetapi tidak memeriksa apakah pemanggil berwenang mengakses objek tersebut
- Contoh route Flask mengambil record pengguna berdasarkan
user_iddi URL lalu langsung mengembalikannya- Tidak memeriksa apakah peminta memiliki pengguna tersebut
- Pengguna yang sudah login dapat membaca record pengguna lain hanya dengan mengubah
user_id
- IDOR memiliki karakter yang berada dekat di antara cacat logika bisnis dan kesalahan konfigurasi
- Ini bukan bug taint-flow yang memiliki fungsi berbahaya yang jelas
- Masalah sebenarnya adalah pemeriksaan otorisasi yang hilang, sehingga sulit bagi analisis statis maupun LLM
- IDOR disebut saat ini berada di peringkat 4 dalam daftar jenis kerentanan teratas HackerOne
Kondisi perbandingan dan cara pengukuran
- Ada tiga unsur yang dipertahankan tetap dalam eksperimen
- Dataset IDOR yang sama, berbasis aplikasi open-source nyata
- Evaluasi skor F1 terhadap kumpulan true positive yang diketahui
- System prompt IDOR yang sama
- Unsur yang diganti adalah model dan harness
- Semgrep Multimodal dijalankan di dalam harness kustom yang menginventarisasi endpoint dan mengarahkan model
- Claude Code dijalankan dengan Claude Code SDK
- Model provider lain dijalankan dengan native SDK masing-masing
- Model open-weight seperti GLM 5.2, MiniMax M3, dan Kimi K2.7 Code dijalankan hanya dengan prompt di harness Pydantic AI
- Metrik yang diukur adalah sebagai berikut
- Precision: proporsi item yang ditandai detektor sebagai IDOR dan benar-benar IDOR
- Recall: proporsi IDOR nyata dalam dataset yang berhasil dideteksi
- F1: rata-rata harmonik precision dan recall
- Cost in dollars: biaya per true positive dan total biaya eksekusi dibagi jumlah bug nyata yang ditemukan
Hasil: harness khusus di peringkat 1 dan 2, GLM 5.2 di peringkat 3
- Peringkat berdasarkan F1 deteksi IDOR adalah sebagai berikut
- Semgrep Multimodal(GPT 5.5), harness Semgrep Multimodal: 61%
- Semgrep Multimodal(Opus 4.8), harness Semgrep Multimodal: 53%
- GLM 5.2, Pydantic AI prompt only: 39%
- Claude Code(Opus 4.6), Claude Code SDK: 37%
- Claude Code(Opus 4.8/4.7), Claude Code SDK: 28%
- MiniMax M3, Pydantic AI prompt only: 23%
- Kimi K2.7 Code, Pydantic AI prompt only: 22%
- GPT-5.5 Codex: 20%
- Nemotron Super 3 120B, Pydantic AI prompt only: 18%
- DeepSeek V4, Pydantic AI prompt only: 17%
- Perbandingan F1 teratas:
- Pipeline Semgrep Multimodal menghasilkan hasil tertinggi saat menggunakan GPT 5.5 dan Opus 4.8, masing-masing 61% dan 53%
- GLM 5.2 mencatat 39% F1 tanpa scaffolding
- Artikel menyatakan GLM 5.2 unggul 7 poin atas Claude Code
- Biaya menjalankan GLM 5.2 disebut sekitar $0,17 per kerentanan yang ditemukan
- MiniMax M3 dan Kimi K2.7 Code masing-masing mencatat 23% dan 22%, lebih rendah dari GLM 5.2 dan juga berada di belakang Claude Code
- Selisih antara GLM 5.2 dan model open-weight berikutnya adalah 16 poin, lebih besar daripada selisih antara GLM 5.2 dan Claude Code
Interpretasi dan batasan
- Perbedaan performa terbesar muncul bukan di antara model, melainkan antara konfigurasi yang mendapat harness penemuan endpoint dan yang tidak
- Dalam eksperimen ini, harness terbukti menjadi faktor yang berdampak sama besar dengan pilihan model
- Pada saat yang sama, dalam kondisi prompt minimal dan harness sederhana, GLM 5.2 mengungguli Claude Code pada tugas riset keamanan yang sulit, dengan biaya sekitar 1/6 dari frontier LLM
- Model open-weight dapat dijalankan di lingkungan sendiri, sehingga bisa menjadi pilihan realistis bagi sebagian tim keamanan
- Hasil ini memiliki batasan yang jelas
- Satu tugas
- Satu dataset
- Satu kali eksekusi
- Deteksi IDOR bersifat nondeterministik
- Dataset terbatas
- Pada deteksi SSRF, hasilnya bisa berbalik dan belum dikonfirmasi
1 komentar
Pendapat di Hacker News
Setelah kehebohan Fable dan GPT 5.6, saya kembali melihat model-model terbuka, dan GLM-5.2 benar-benar model praktis yang sangat bagus untuk pemrograman sehari-hari
Dari sudut pandang developer berpengalaman yang banyak memakai LLM, satu sesi GPT biasanya menghabiskan lebih dari 100 dolar. Akhir pekan ini saya membuat bot Matrix dengan enkripsi dan agen Rust dengan beberapa tool, lalu dua hari kemudian, setelah menghabiskan 20 dolar, saya sudah punya agen Rust multimodal yang bisa mengakses homelab
GLM tidak terasa canggung, menangani hal yang saya inginkan dengan baik, cepat, kepribadiannya juga tidak terlalu mengganggu, dan jauh lebih murah daripada Opus atau GPT. Saya memakainya di Fireworks dalam versi yang tidak dikuantisasi, dan ada juga beberapa penyedia lain
Semua lab, entah sengaja atau tidak, merilis model yang menghafal jawaban benchmark. Pada model dari lab Tiongkok, selisih antara benchmark publik dan evaluasi internal cenderung lebih besar, dan evaluasi internal dirancang agar tidak terlalu rentan terhadap optimisasi benchmark
Dalam lingkungan coding multi-agen, GLM 5.2 rata-rata sedikit di bawah Opus 4.6. Datanya ada di https://gertlabs.com/rankings
Namun jika memperhitungkan biaya terhadap performa, GLM 5.2 adalah model garis depan
Saat GLM 5.2 keluar, saya menambahkannya ke benchmark pencarian bug keamanan; performanya bagus, tetapi bukan model terbuka terbaik
Benchmark ini menguji apakah model bisa menemukan bug yang ditemukan Mythos. Pada hasil awal, model terbuka terbaik adalah DeepSeek V4 Pro atau MiMo 2.5 Pro, tetapi MiMo tampaknya hanya beruntung dan setelah itu lebih buruk di hampir semua pengujian. Sebaliknya, DeepSeek konsisten berada di papan atas, dan berkat performa caching yang ekstrem, biayanya jauh lebih murah daripada hampir apa pun, termasuk model yang jauh lebih kecil
https://swelljoe.com/post/will-it-mythos/
Hal menarik lainnya: ketika semgrep open-source disediakan sebagai tool, sebagian model justru memburuk dan tidak ada model yang membaik. Mungkin ada cara untuk menghubungkan harness dengan baik agar model hanya menerima informasi berguna tanpa perlu menangani semgrep secara langsung
Dugaan saya, semgrep tidak banyak ada dalam data pelatihan, sehingga model diminta sekaligus memahami cara memakai semgrep dan menemukan bug keamanan; fokusnya terpecah dan performa keduanya menurun. Sebagian besar model kecil dan beberapa model besar tidak menangani ini dengan baik
Pengujian tambahan masih berjalan, dan GLM 5.2 tampaknya sangat mungkin terus menunjukkan performa yang kuat. Dalam sebagian besar pengujian sejauh ini, hasilnya sangat baik
Katanya GLM 5.2 adalah model dengan 753B parameter [1], saya penasaran hardware apa yang dipakai untuk menjalankannya secara lokal
[1] https://huggingface.co/zai-org/GLM-5.2
Karena bahkan NVMe 1TB tidak cukup untuk memuatnya apa adanya, saya memakai model kuantisasi UD_Q4_K_XL 4-bit per bobot, dan kecepatannya bukan token per detik, melainkan sekitar 12 detik per token. Ini proyek yang menyenangkan, tetapi tidak layak dipakai
llama.cpp mendukung memory mapping, jadi saya menjalankannya dengan cache konteks 4096 token, dan saya penasaran berapa banyak yang harus di-stream dari SSD karena semuanya tidak bisa masuk RAM. Untuk menghasilkan perkenalan diri singkat 4 kalimat, ia membaca sekitar 1.5TiB dari disk
Tapi tidak perlu khawatir. Para penginjil open-source akan bilang bahwa dalam 3 tahun model seperti ini akan berjalan di ponsel
Dengan 100 ribu dolar, lewat OpenRouter Anda bisa menjalankan model ini 24 jam selama 10 tahun pada 50tps dengan 10 sesi serentak, dan masih ada uang tersisa untuk liburan. Kecuali Anda adalah bisnis yang sudah membayar biaya token individual untuk beberapa karyawan, tidak ada alasan menginvestasikan uang sebesar itu pada model lokal
Ungkapan “mengalahkan Claude Code (32%) dengan biaya sekitar 0,17 dolar untuk menemukan satu kerentanan” itu tidak akurat
Claude Code bukan LLM, melainkan harness agen, dan Claude bukan satu LLM, melainkan merek atau kumpulan LLM
API konsumen non-enterprise sangat mahal karena biaya marginal bagi pengguna menjadi besar dan marginnya tebal bagi Anthropic. Jika ingin memperkirakan biaya aktor tingkat negara menjalankan model di hardware sendiri, Claude Code kemungkinan merupakan estimasi terbaik untuk biaya amortisasi
Angka-angka ini terlihat cukup rendah, terutama dibandingkan dengan apa yang saya capai di kernel Windows dan area win32k↔win32u
Sekarang rasanya tidak akan mengejutkan lagi jika China mulai melampaui model yang dirilis AS di kategori tertentu seperti siber
GLM 5.2 sudah cukup kuat untuk membantu pelatihan dirinya sendiri, dan ini mirip dengan tren yang kita lihat pada model-model garis depan. Selain itu, tampaknya mereka mencapai titik itu dengan biaya yang jauh lebih rendah daripada OpenAI atau Anthropic
Jika ini digabung dengan dominasi China yang makin meluas di tenaga surya, baterai isi ulang, dan kendaraan listrik, ini bisa menjadi pukulan telak bagi tatanan ekonomi pasca-Perang Dunia II
Opus juga setidaknya harus dijalankan dengan harness Pydantic yang sama seperti yang dipakai untuk GLM. Dalam kondisi sekarang, ini seperti membandingkan apel dan jeruk
Di mana biaya per kerentanan untuk semua model selain GLM?
Tanpa kode, ini juga sulit dipercaya. Bisa saja semuanya karangan
Apakah kontrol ekspor GLM akan segera datang? Saya memperkirakan dalam beberapa bulan Commerce akan memaksa OpenRouter dan HuggingFace menurunkan sebagian model terbuka
Itu memang tidak masuk akal
Melarang model open-source sama sekali tidak membantu menyelesaikan masalah. Sebab penyerang tidak merasa terikat oleh hukum. Untuk tujuan pertahanan, semua model canggih harus bisa diakses
Pemerintah memang punya kewenangan untuk (a) memblokir ekspor barang dan jasa AS, (b) melarang impor barang fisik, dan (c) melarang transaksi dengan perusahaan asing, termasuk pembelian layanan atau kontrak lisensi
Namun jika sebuah perusahaan AS punya hubungan yang independen dari pemasoknya, dan model itu tidak dipakai untuk kontrak pemerintah atau aplikasi yang diatur regulasi, saya tidak tahu kewenangan hukum apa yang bisa melarang tindakan menjalankan model AI open-source yang dikembangkan China di dalam AS itu sendiri
Ada kemungkinan mereka memerintahkan HuggingFace dan sejenisnya untuk menangguhkan akun China. Namun jika seseorang di AS atau negara ketiga mengunduh model dari China lalu mengunggahnya kembali ke server AS secara sepenuhnya independen dari pemasoknya, saya bertanya-tanya di mana kaitan hukum untuk melarangnya
Saya memakai GLM 5.2 lewat Neuralwatt dan biayanya jadi sangat murah, sampai-sampai kalau perusahaan menyediakan langganan Claude, rasanya saya bisa membatalkan langganan Claude pribadi
Bulan ini saya memakai 374 juta token, tetapi dengan harga berbasis energi biayanya hanya 18 dolar
Terbaca seperti iklan
Kedua, ini “hanya” IDOR, dan termasuk salah satu jenis kerentanan yang paling mudah
Ketiga, ini dibandingkan dengan GPT 5.5 dan Opus 4.8
Tidak, di rumah saya tidak ada Mythos
Jika bisa disediakan secara ekonomis, model itu pasti sudah dirilis sejak hari pertama alih-alih sirkus pemasaran yang dibuat para badut effective altruism. Mengakui bahwa biaya inferensi model yang kurang dari 10% lebih baik itu lebih dari 1000% lebih mahal akan sangat fatal
Ini model yang benar-benar kuat untuk menemukan dan memperbaiki kerentanan
Dari posisi di UE, situasinya lebih rumit. Mythos suatu saat bisa saja masuk ke ruangan, lalu tiba-tiba menghilang karena kemauan aktor politik yang sama sekali tidak kita kendalikan
Penting untuk mengetahui sejauh mana model terbuka yang bisa diakses dan dijalankan secara lokal sudah berkembang. Saya tahu model-model itu tertinggal. Namun ada titik ketika “cukup bagus” menjadi berguna. Begitu juga hari ini, meskipun ini “hanya IDOR” dan masih tertinggal dari level mutakhir
Seperti yang dikatakan seseorang di atas, model-model sekelas GLM 5.2 serta Kimi dan DeepSeek V4 makin cukup untuk membantu pekerjaan persiapan repositori otomatis, yaitu mengunduh, memasang, menguji, memperbaiki, dan menguji ulang. Ini menghasilkan data jejak penggunaan nyata yang bisa dipakai untuk pelatihan generasi berikutnya. Itu mungkin lebih penting daripada selisih beberapa persen di benchmark