4 poin oleh GN⁺ 2026-02-21 | 1 komentar | Bagikan ke WhatsApp
  • Claude Code Security adalah fitur keamanan berbasis AI yang mendeteksi kerentanan dalam codebase dan memberikan usulan patch untuk ditinjau manusia
  • Mendeteksi kerentanan kompleks yang terlewat oleh alat analisis statis yang ada, dengan melacak interaksi kode dan aliran data seperti peneliti manusia
  • Semua hasil ditampilkan di dashboard setelah melalui validasi multi-tahap dan penilaian tingkat keparahan, serta tidak diperbaiki otomatis tanpa persetujuan pengembang
  • Anthropic merilis fitur ini sebagai pratinjau riset terbatas untuk pelanggan Enterprise·Team dan maintainer open source
  • Bertujuan meningkatkan tingkat keamanan di seluruh industri, sebagai persiapan menghadapi era ketika AI dapat menemukan kerentanan lebih cepat daripada penyerang

Ikhtisar Claude Code Security

  • Claude Code Security adalah fitur baru yang terintegrasi ke dalam Claude Code versi web, yang memindai codebase untuk mendeteksi kerentanan keamanan dan mengusulkan patch
    • Tersedia dalam bentuk pratinjau riset, dengan asumsi ada peninjauan manusia
  • Dirancang sebagai alat untuk mengatasi kekurangan tenaga dan kelebihan jumlah kerentanan yang dihadapi tim keamanan saat ini
  • Jika alat analisis yang ada berfokus pada pola yang sudah dikenal, Claude juga dapat mendeteksi kerentanan baru dan yang bergantung pada konteks

Cara Kerja

  • Analisis statis tradisional mendeteksi pola kerentanan yang sudah dikenal berdasarkan aturan, tetapi mudah melewatkan hal seperti kesalahan logika bisnis atau cacat kontrol akses
  • Claude Code Security memahami makna kode dan melakukan penalaran seperti peneliti manusia untuk menangkap kerentanan yang kompleks
    • Melacak interaksi antar komponen dan aliran data
  • Hasil deteksi melalui prosedur validasi multi-tahap untuk meminimalkan false positive
    • Claude meninjau ulang hasilnya sendiri dan memberikan peringkat tingkat keparahan
  • Hasil yang telah divalidasi ditampilkan di dashboard agar tim dapat meninjau dan menyetujuinya
    • Setiap item mencakup skor kepercayaan, dan perbaikan tidak diterapkan tanpa persetujuan manusia

Dasar Riset Keamanan Siber Claude

  • Claude Code Security dikembangkan berdasarkan riset keamanan Claude yang telah berjalan lebih dari 1 tahun
  • Frontier Red Team milik Anthropic mengikutsertakan Claude dalam kompetisi Capture-the-Flag dan bekerja sama dengan Pacific Northwest National Laboratory untuk melakukan eksperimen pertahanan infrastruktur berbasis AI
  • Dengan memanfaatkan model terbaru Claude Opus 4.6, Anthropic menemukan lebih dari 500 kerentanan kode open source
    • Termasuk bug yang masih tersisa meski telah melalui peninjauan pakar selama puluhan tahun
    • Saat ini sedang menjalankan proses responsible disclosure bersama para maintainer
  • Anthropic juga menggunakan Claude untuk keamanan kode internal, dan mengembangkan fitur ini untuk memberikan kemampuan pertahanan yang sama ke pihak luar

Prospek ke Depan

  • Momen ketika AI akan memindai sebagian besar codebase di dunia sudah semakin dekat
    • Model AI dapat secara efektif mendeteksi bug yang tersembunyi dalam jangka panjang
  • Penyerang juga dapat memanfaatkan AI untuk menemukan kerentanan dengan cepat, tetapi risiko dapat dikurangi jika pihak pembela menambal lebih dulu secara proaktif
  • Claude Code Security diposisikan sebagai langkah menuju codebase yang lebih aman dan peningkatan standar keamanan di seluruh industri

Partisipasi dan Akses

  • Dibuka dalam bentuk pratinjau riset untuk pelanggan Enterprise dan Team
    • Peserta dapat bekerja langsung dengan tim Anthropic untuk meningkatkan alat ini
  • Maintainer open source dapat mengajukan akses gratis dengan proses cepat
  • Informasi lebih lanjut tersedia di claude.com/solutions/claude-code-security

1 komentar

 
GN⁺ 2026-02-21
Komentar Hacker News
  • Tidak mengejutkan Anthropic merilis fitur deteksi kerentanan
    karena OpenAI sudah mengumumkan Aardvark, dan Google mengumumkan BigSleep
    Menurut saya, inti persoalannya adalah skala dan akurasi. Anthropic mengatakan menemukan 500 kerentanan ‘bertingkat keparahan tinggi’ dengan Opus 4.6, tetapi masih diragukan apakah semuanya benar-benar serius. BigSleep hanya sekitar 20, dan Aardvark tidak memublikasikan angkanya
    Saat saya mendirikan Semgrep, yang mengesankan adalah bahwa dalam kompetisi DARPA AIxCC, peserta deteksi kerentanan berbasis LLM diminta mengungkapkan biaya per kerentanan dan confusion matrix. Tanpa data seperti ini, sulit mengetahui model mana yang benar-benar unggul
    Jika agen keamanan LLM diberi akses ke alat seperti Semgrep dan CodeQL, tingkat false positive akan turun drastis. Ke depannya, manusia tampaknya akan berperan sebagai manajer appsec yang mengelola agen insinyur keamanan virtual seperti ini

    • Masalah terbesar alat SAST seperti Semgrep adalah false positive. Pengembang hanya menginginkan 0,1% hasil yang benar-benar mengarah ke masalah nyata, tetapi pendekatan pattern matching menghasilkan terlalu banyak noise
      Saya juga pernah mencoba kombinasi pattern matching + LLM, dan hasilnya cukup efektif. Namun itu hanya berlaku untuk SAST; untuk area seperti SCA atau image container, yang menyumbang 90% noise bagi tim keamanan, masih sulit diselesaikan
    • Fitur seperti ini masih masuk akal untuk satu kali pemindaian repo kecil, tetapi dalam kenyataan perubahan kode sangat sering terjadi, sehingga biaya pemindaian ulang terlalu besar. Workflow nyata seperti pembuatan PR, penyelesaian konflik, atau menemukan reviewer juga belum ada
      Menarik untuk riset, tetapi terbatas sebagai alat kerja praktis
    • Saya juga sedang melakukan pendekatan serupa. Kami memperluas alat internal yang berfokus pada keamanan, performa, dan SEO situs web menjadi berbasis agen, dan hasilnya mengejutkan
      Layanannya bernama SquirrelScan, di mana agen menyesuaikan konfigurasi secara dinamis berdasarkan aturan yang ditulis manusia untuk melakukan eliminasi false positive dan verifikasi
  • Ada lelucon, “Anakin: Saya akan menyelamatkan dunia dengan AI vulnerability scanner”
    lalu Padme bertanya, “Jadi kamu memindai untuk memperbaiki kerentanannya, kan?”—humor yang menyindir tujuan AI scanner

    • Saya rasa itulah alasan fitur ini dibatasi sebagai permintaan akses khusus tim dan enterprise.
      Alternatif open source-nya adalah DeepAudit
    • Ada kekhawatiran pengguna jahat akan memindai proyek open source atau paket npm secara massal untuk menemukan zero-day.
      Semoga Anthropic memiliki sistem peringatan dini untuk mendeteksi pola penggunaan yang tidak normal
    • Ironisnya, laboratorium riset justru merilis toolkit peretasan paling kuat, tetapi saham perusahaan pertahanan keamanan siber malah turun. Logika pasar ini sulit dipahami
    • Ada juga tanggapan bahwa mereka tidak terlalu memahami maksud lelucon itu
  • Dari sudut pandang menjalankan perusahaan audit keamanan, makin terasa bahwa perusahaan LLM besar juga mulai masuk ke pasar audit
    Layanan berbasis AI kami seperti zkao.io juga menghadapi tekanan persaingan
    Ke depan tampaknya ada dua skenario.
    Yang pertama, dunia di mana auditor manusia dan developer menghilang; yang kedua, dunia yang berkembang menjadi pasar niche yang tetap membutuhkan keahlian dan intuisi manusia
    Perusahaan yang serius tetap ingin bekerja sama dengan manusia, dan kemungkinan modelnya bertahan sebagai SaaS + dukungan manusia
    Sementara itu, para ‘vibe coder’ akan memakai alat seperti Claude Code Security, dan kualitasnya mungkin akan setara dengan ‘vibe coding’—cukup berguna, tetapi tidak sempurna
    Secara realistis, menurut saya skenario inilah yang lebih mungkin. Alat seperti ini justru membuat tim audit spesialis kecil seperti kami menjadi lebih kuat

    • Koreksi ejaan: yang benar bukan “seize”, melainkan “cease”
    • Developer tidak akan hilang. Mereka hanya akan berevolusi menjadi bentuk developer yang baru. Namun masa depan auditor terlihat suram
  • Menarik bahwa penjelasan Anthropic menyebut “Claude Code Security membaca dan menalar kode seperti peneliti manusia”
    Tim kami juga telah menggabungkan analisis statis dan AI, jadi menurut saya pendekatan ini adalah arah evolusi otomatisasi keamanan

    • Namun kalimat itu tidak benar. LLM pada akhirnya hanyalah mesin pattern matching. Peneliti manusia melakukan lebih dari sekadar pattern matching
      Klaim “menalar seperti manusia” tampak seperti kalimat pemasaran yang berlebihan
  • Claude Code Opus 4.5 mencatat akurasi sekitar 71% pada OpenSSF CVE Benchmark
    Kami menggunakan SAST sebagai filter tahap pertama, lalu membiarkan LLM memanfaatkan artefak hasil analisis statis seperti data flow graph dan dependency graph
    Pendekatan ini jauh lebih efektif daripada sekadar menyuruhnya “bertindak seperti peneliti keamanan”. Saat fitur baru dirilis, kami berencana memperbarui benchmark

  • Produk pesaing selama ini mengecewakan. Kebanyakan hanya mendeteksi ulang masalah yang sudah ditemukan alat analisis statis lama, dan ada banyak false positive dalam pemindaian AI
    Kali ini saya berharap hasilnya lebih baik

  • Banyak skeptisisme apakah AI bisa memiliki pemikiran kreatif setingkat insinyur keamanan senior, tetapi menurut saya itu melewatkan inti persoalan
    Nilai sebenarnya dari alat seperti ini ada pada otomatisasi tugas keamanan yang berulang.
    Masalah sederhana seperti validasi input yang hilang atau penggunaan komponen rentan tidak perlu dilihat oleh tenaga ahli tingkat tinggi
    Semoga alat seperti ini menjadi asisten yang mengurangi pekerjaan remeh tim keamanan

    • LLM, terutama Claude, benar-benar menunjukkan kemampuan setingkat insinyur keamanan. Startup kami sedang membuat agen untuk pengujian penetrasi yang agresif, dan hanya dalam beberapa jam ia bisa menemukan kerentanan aneh yang terlewat manusia
    • Justru di kalangan peneliti kerentanan ada banyak optimisme yang tidak diungkapkan secara terbuka. Jauh lebih banyak pakar yang diam-diam bereksperimen dan melihat potensinya daripada yang secara terbuka bersikap skeptis
    • Sebagai pentester di perusahaan Fortune 500, saya setuju dengan penilaian ini. Sebagian besar temuan internal berada di level ‘best practice’, jadi akan jauh lebih efisien jika agen menangani bagian ini secara otomatis
      Struktur kolaborasi manusia-agen tampaknya akan menjadi cara tim keamanan beroperasi ke depan
    • Kami juga mencoba Claude Opus 4.6, dan tingkat false positive-nya di bawah 50%, sangat mengesankan
  • Saya sedang membakar banyak token Claude untuk membangun sistem pertahanan terhadap bot AI, lalu sempat mengira Anthropic menyadarinya

    • Kami juga telah mengembangkan sistem sendiri selama beberapa tahun. Mungkin referensi Tirreno, yang dibuat langsung oleh engineer kami, bisa membantu