Batas Baru Keamanan Siber AI: Realitas Setelah Mythos

(aisle.com)

2 poin oleh GN⁺ 2026-04-12 | 1 komentar | Bagikan ke WhatsApp

Setelah Claude Mythos milik Anthropic secara otomatis mendeteksi kerentanan zero-day dalam skala besar, model open kecil juga berhasil mendeteksi kerentanan yang sama
Model kelas 3.6B~5.1B parameter mereproduksi bug FreeBSD dan OpenBSD, dan sebagian bahkan mengusulkan jalur exploit kreatif yang berbeda dari Mythos
Hasil eksperimen menunjukkan bahwa ukuran model dan performa bersifat nonlinier, dan pada tugas tertentu model kecil lebih akurat daripada model besar
Kemampuan keamanan AI tidak berkembang mulus, melainkan ‘bergerigi’, dan daya saing yang sesungguhnya terletak pada desain sistem dan pipeline verifikasi, bukan modelnya
Karena itu, moat dalam keamanan bukanlah model melainkan sistem, dan struktur orkestrasi yang menanamkan pengetahuan pakar menjadi inti keamanan AI

Sistem adalah moat, bukan model

Pada 7 April 2026, Anthropic mengumumkan Claude Mythos Preview dan Project Glasswing, serta membentuk konsorsium yang menggunakan model Mythos untuk secara otomatis mendeteksi dan menambal kerentanan keamanan pada perangkat lunak utama
- Menjanjikan kredit penggunaan senilai 100 juta dolar dan donasi 4 juta dolar untuk organisasi keamanan open-source
- Mythos menemukan ribuan kerentanan zero-day, serta secara otonom mendeteksi dan membuat exploit untuk bug OpenBSD berusia 27 tahun, bug FFmpeg berusia 16 tahun, dan kerentanan remote code execution di FreeBSD
AISLE mereproduksi kerentanan yang sama dengan model kecil, murah, dan berbobot terbuka
- 8 dari 8 model mendeteksi exploit FreeBSD
- Model 3.6B parameter (US$0.11 per token) juga berhasil mendeteksinya
- Model 5.1B memulihkan rantai inti bug OpenBSD
- Pada beberapa tugas, model open kecil lebih unggul daripada model besar
Hasilnya, kemampuan keamanan AI bersifat nonlinier dan bergerigi (jagged)
- Tidak ada model tertentu yang unggul di semua tugas
- Inti daya saing keamanan bukanlah model, melainkan sistem, dengan struktur orkestrasi yang menanamkan pengetahuan pakar sebagai pusatnya

Posisi keamanan AI saat ini

Sejak pertengahan 2025, AISLE menerapkan sistem pendeteksian dan penambalan kerentanan berbasis AI pada target nyata
- Menemukan 15 CVE di OpenSSL, 5 CVE di curl, dan total lebih dari 180 CVE yang tervalidasi secara eksternal
- CTO OpenSSL menilai bahwa “kualitas laporan dan proses kolaborasinya sangat baik”
Mereka menggunakan berbagai model, tetapi model Anthropic tidak selalu unggul
- Karena model optimal berbeda per tugas, mereka mengadopsi pendekatan agnostik terhadap model

Mengurai pipeline keamanan AI

Keamanan AI nyata tidak terdiri dari satu model tunggal, melainkan pipeline multi-tahap
- Pemindaian luas, deteksi kerentanan, verifikasi dan klasifikasi, pembuatan patch, dan penyusunan exploit memiliki karakteristik penskalaan yang berbeda pada tiap tahap
Anthropic memaksimalkan input pertama (kecerdasan model), sedangkan AISLE memberi bobot setara pada berbagai faktor seperti biaya per token, kecepatan, dan keahlian keamanan

Kesimpulan: moat adalah sistem

Struktur yang disebut dalam post teknis Mythos, seperti eksekusi container, pemindaian file, verifikasi ASan, dan evaluasi prioritas, mirip dengan sistem AISLE
Pusat nilai bukan pada model, tetapi pada proses penargetan, verifikasi, dan pembangunan kepercayaan
Pendekatan men-deploy model kecil dalam paralel massal untuk menjelajahi seluruh kode secara luas memungkinkan efisiensi ekonomi dan efisiensi deteksi sekaligus
Mythos membuktikan kategorinya, tetapi skala operasional dan jaminan keandalan masih menjadi tantangan

Hasil eksperimen: kemampuan keamanan yang bergerigi

Dilakukan eksperimen model kecil dan murah terhadap kerentanan representatif dari pengumuman Mythos
- Bug NFS FreeBSD, bug SACK OpenBSD, dan uji false positive OWASP
  - Hasilnya menunjukkan bahwa ukuran model, generasi, harga, dan performa bersifat nonlinier
  - Semua model berhasil mendeteksi FreeBSD, hanya sebagian yang berhasil pada OpenBSD, dan untuk OWASP model kecil lebih akurat daripada model besar
  - Deteksi FreeBSD: semua 8 model mendeteksi buffer overflow
  - Bahkan model 3.6B menghitung dengan tepat dan melakukan penilaian kemungkinan RCE
  - DeepSeek R1 melakukan perhitungan yang sesuai dengan struktur stack nyata
  - Dalam logika exploit juga, semua model mengusulkan strategi rantai ROP
  - Beberapa model mengusulkan solusi kreatif yang berbeda dari Mythos (misalnya eskalasi root di user mode alih-alih kernel mode)
  - Bug SACK OpenBSD: model 5.1B memulihkan seluruh rantai dan mengusulkan patch yang benar
  - Qwen3 32B sempurna di FreeBSD, tetapi di sini salah menilai dengan menyebutnya “aman”
  - Peringkat performa antar model benar-benar terbalik tergantung tugasnya
Uji false positive OWASP: pada kode Java sederhana, model kecil lebih akurat daripada model besar
- GPT-OSS-20b, DeepSeek R1, dan OpenAI o3 menilai dengan tepat bahwa “saat ini aman tetapi berpotensi menjadi rentan”
- Banyak model Anthropic dan seri GPT-4.x secara keliru mendeteksi SQL injection

Uji pengenalan patch (pembaruan 9 April 2026)

Dibandingkan kemampuan deteksi bug dan pengenalan perbaikan terhadap kode versi patch FreeBSD
- Semua model mendeteksi bug yang belum ditambal, tetapi setelah patch banyak false positive muncul pada kode
- Hanya GPT-OSS-120b yang akurat di kedua arah
- Sebagian besar model membuat klaim kerentanan yang keliru karena kesalahan interpretasi tanda pada oa_length
Ini menunjukkan bahwa sensitivitas (daya deteksi) tinggi tetapi spesifisitas (akurasi) rendah, dan menegaskan bahwa
sistem verifikasi dan triase di luar model itu wajib ada

Batas penyusunan exploit

Contoh seperti pelarian sandbox browser multi-tahap dan rantai ROP kernel milik Mythos adalah kasus yang sangat canggih
Model open dapat menjelaskan secara logis kemungkinan exploit, teknik, dan strategi bypass, tetapi
mekanisme penyampaian kreatif dalam lingkungan terbatas masih belum memadai
Namun, dalam workflow defensif, keandalan deteksi dan patch lebih penting daripada exploit yang sepenuhnya lengkap

Perspektif makro

Pengumuman Mythos membuktikan realitas dan pentingnya industri keamanan AI
- Pendanaan dan perhatian terhadap keamanan open-source semakin meluas
Namun, klaim bahwa “kemampuan ini hanya ada pada model tertutup tertentu” adalah berlebihan
- Pada praktiknya, tahap deteksi dan analisis sudah dapat diakses secara luas
- Keahlian keamanan, desain sistem, dan pembangunan kepercayaan adalah bottleneck yang sebenarnya
Yang dibutuhkan sekarang bukan model, melainkan pembangunan sistem
- Scaffold, pipeline, sistem kolaborasi, dan integrasi ke workflow pengembangan
- Modelnya sendiri sudah cukup siap

Keterbatasan dan hal yang perlu diperhatikan

Cakupan pengujian terbatas: fungsi rentan dan petunjuk diberikan langsung ke model; ini bukan eksplorasi sepenuhnya otonom
Tidak ada akses tool: tidak menggunakan eksekusi kode, loop, atau lingkungan sandbox
Pembaruan model tercermin: beberapa model Anthropic terbaru kemudian mengalami perbaikan
Memperjelas cakupan klaim: ini tidak menyangkal kemampuan Mythos,
tetapi menekankan bahwa klaim eksklusivitas pada kemampuan deteksi telah dibesar-besarkan

Ringkasan lampiran

Kutipan deteksi FreeBSD
- Kimi K2: “oa_length disalin tanpa validasi sehingga dapat menyebabkan overflow”
- Gemma 4: “Dapat melebihi buffer stack 128-byte”
Tabel perbandingan performa per tugas
- Semua model berhasil pada deteksi FreeBSD, hanya sebagian pada OpenBSD, dan model kecil unggul pada OWASP
Uji kode patch
- Sebagian besar model menghasilkan false positive karena kesalahan tanda pada oa_length
- Hanya GPT-OSS-120b yang sepenuhnya akurat
- Kesimpulan:
- Daya saing inti keamanan AI bukanlah ukuran atau eksklusivitas model, melainkan
- desain sistemik yang menanamkan pengetahuan pakar dan struktur operasi yang dapat dipercaya.
- Model kecil pun cukup kuat, dan pembangunan sistem pertahanan otomatis berskala besar dengan memanfaatkannya sudah memungkinkan saat ini.

1 komentar

GN⁺ 2026-04-12

Komentar Hacker News

Melihat tulisan Mythos Preview dari Anthropic, disebutkan bahwa mereka menemukan kerentanan paling kritis di OpenBSD
Total biaya untuk seribu kali eksekusi kurang dari 20 ribu dolar, dan dalam salah satu eksekusi bug ditemukan dengan biaya kurang dari 50 dolar
Namun angka ini hanya bermakna secara retrospektif, dan ditekankan bahwa kita tidak bisa tahu sebelumnya eksekusi mana yang akan berhasil
Digunakan analogi bahwa Mythos menyisir satu benua penuh seperti tambang emas, dan jika eksperimen yang sama dilakukan pada seluruh codebase FreeBSD maka noise-nya akan terlalu banyak
- Scaffolding Mythos pada dasarnya adalah loop bash yang menelusuri semua file dan menyuruh model mencari kerentanan
  Ingin tahu apakah Anthropic pernah mengungkap rasio false positive
  Di Xitter, ada orang yang bereksperimen dengan model terbuka lain dan hanya berhasil mereproduksi sebagian dari temuan Mythos
  Mythos tampak menunjukkan peningkatan yang bertahap tapi besar dibanding model sebelumnya, sekaligus membuat kompleksitasnya ikut naik
  Pemasaran ala “terlalu kuat untuk dipublikasikan” terasa seperti cara membungkus kenyataan bahwa “menjalankan ini di seluruh codebase butuh 20 ribu dolar”
  Dalam presentasi Nicholas Carlini juga digunakan Opus, dan keamanan memang sudah lama menjadi area fokus Anthropic
- Mythos juga menghasilkan banyak kerentanan halusinasi, tetapi sebagian memang diverifikasi lewat pengujian
  Intinya adalah apakah model kecil juga bisa melakukan tahap verifikasi ini, dan apakah bisa dilakukan dengan lebih murah
- Sebaliknya, riset lain dinilai terlalu ekstrem dalam pendekatannya
  Mereka memisahkan fungsi yang rentan lalu memberikannya ke model untuk dievaluasi, yang setara dengan “langsung memberi tahu ruangan tempat emas disembunyikan”
  Dalam praktik nyata, bagian yang lebih sulit justru menemukan ruangan itu di seluruh benua
- Menghabiskan 20 ribu dolar untuk menemukan satu kerentanan DoS di OpenBSD terasa tidak efisien
  Ada kesan Mythos diperlakukan seperti trofi, padahal rasanya lebih baik langsung berdonasi ke yayasan OpenBSD
- Jika kerentanan yang sama bisa ditemukan dengan model kecil, muncul pertanyaan kenapa perusahaan itu sendiri belum menemukannya sejak awal
Ada riset yang menyebut model terbuka kecil mendeteksi seluruh 8 dari 8 kerentanan FreeBSD yang ditemukan Mythos
Namun karena pengujiannya dilakukan dengan hanya mengambil kode yang relevan, ini terasa berbeda dari use case nyata
Nilai sebenarnya ada pada kemampuan melempar seluruh codebase dan memindainya
- Tim risetnya sendiri mengakui keterbatasan itu
  Karena fungsi rentan dan petunjuknya diberikan langsung ke model, ini hanyalah batas atas dari eksplorasi yang sepenuhnya otonom
  Namun scaffolding yang dirancang dengan baik dapat membangun konteks seperti ini secara otomatis, jadi inti utamanya adalah sistemnya, bukan modelnya
- Menurut post teknis Anthropic, strukturnya adalah menyalakan container, membiarkan model memindai file, membentuk hipotesis, lalu memverifikasinya dengan ASan
  Artinya framework-nya yang melakukan sebagian besar pekerjaan, dan modelnya bisa diganti
- Bahkan dengan model kecil pun bisa dibuat harness otomatis yang terus melempar prompt per file atau per fungsi
  Lalu hanya bagian yang secara konsisten ditandai sebagai rentan yang diverifikasi ulang dengan model besar
  Pada akhirnya, yang penting bukan modelnya melainkan harness-nya
- Pada akhirnya perbedaannya memang hanya di harness. Saya juga bisa membuat harness yang memecah kode per fungsi lalu memasukkannya ke agen analisis
Seperti contoh Heartbleed, kalau hanya potongan kode rentannya yang ditunjukkan, siapa pun bisa menemukan bug-nya
Tetapi yang benar-benar sulit adalah menemukan bagian itu di codebase besar
Agak mengejutkan Aisle menulis artikel seperti ini
- Memang ini tulisan bernuansa promosi, tetapi bisa naik ke puncak HN karena memicu perasaan orang bahwa “model baru ternyata tidak istimewa juga”
- Saat mengerjakan proyek besar, sering kali setelah jeda sejenak lalu kembali, kode yang kita tulis sendiri bisa terlihat berantakan
  Sulitnya mempertahankan konteks adalah salah satu akar penyebab bug
- Manusia lemah dalam pekerjaan yang repetitif dan sangat detail
  Sebaliknya, mesin bisa terus menyapu kode tanpa bosan
  Ungkapan “dengan cukup banyak mata, semua bug jadi dangkal” tidak sesuai dengan kenyataan
- Kalau begitu, proses “melihat dari dekat” itulah yang perlu diotomatisasi
  Cukup buat alat yang menelusuri codebase dan berulang kali memberi prompt ke LLM: “jika ada kerentanan di kode ini, temukan”
  Dengan kata lain, alatnya/harness adalah kunci yang membuat LLM tampak lebih pintar
- Ini seperti mencampuradukkan penyelesaian masalah dengan verifikasi
  Ibarat berkata “kalau faktorisasi prima-nya sudah diberi tahu, maka memecahkan PKI itu mudah”
Metodologi tulisan ini dianggap sebagai perbandingan yang keliru total
Memberikan fungsi rentan dan petunjuk secara langsung adalah tugas yang sama sekali berbeda
Dalam praktiknya, meski potongan kode dibagi-bagi lalu diberikan ke model kecil, hasil setingkat model besar tetap sulit dicapai
Saya sendiri menemukan banyak bug Redis dengan pipeline shell script sederhana
Dengan model lemah hasilnya tidak berhasil. Kalau diuji sendiri, bedanya akan terasa
Selain itu, meskipun model kecil menemukan 80%, kita tetap butuh model yang lebih kuat untuk menemukan 20% sisanya
- Anthropic juga mengatakan mereka hanya mempublikasikan kurang dari 1% dari kerentanan yang mereka temukan
  Menarik kalau model terbuka diuji dengan lingkungan Linux versi lama untuk melihat seberapa banyak yang bisa mereka temukan
- Namun ada juga yang menilai pendekatan ini masuk akal
  Model kecil berhasil menyaring false positive dengan baik, dan dengan harness yang tepat hasilnya bisa mendekati model besar
  Model kecil cepat dan murah, jadi di tangan pengguna berpengalaman bisa jauh lebih efisien
  Ke depan, kombinasi model ringan + harness seperti ini mungkin akan jadi arus utama
- Ada juga yang menanggapi secara satir dengan “Thanks Dario, very cool!”
Banyak komentar mengatakan “karena kodenya dipisah maka hasilnya tidak valid”, tetapi Anthropic juga menjalankan model dengan pendekatan serupa per file
Harness Mythos memberi skor prioritas pada tiap file, lalu membuat instance Claude Code yang fokus pada file tersebut
Jadi pemisahan kode itu sendiri tidak otomatis membatalkan hasil
Dalam video presentasi Nicholas Carlini, teknik yang sama juga diperkenalkan
Membuat LLM meninjau secara mendalam satu file dalam satu waktu memang efektif
“Inovasi” Mythos sebenarnya adalah otomatisasi sederhana prompt per file ini
Bisa jadi justru pendekatan inilah yang membuat biayanya naik sampai 20 ribu dolar
Saya juga mencoba cara yang sama dengan Opus 4.6 dan GPT 5.4, dan hasil review-nya jauh lebih teliti
Artinya, bila satu sesi difokuskan pada satu file, model menganalisis jauh lebih dalam
- Tetapi dengan cara ini, kerentanan yang muncul dari interaksi antarfile bisa terlewat
Ungkapan “model kecil merekonstruksi analisis yang sama” sulit dipercaya karena tidak dikuantifikasi
Verifikasi kerentanan bisa diukur jelas lewat PoC, jadi bukti seperti itu diperlukan
Selain itu, “memberikan kode yang relevan lebih dulu” bukan perbandingan yang adil
Tanpa mengungkap rasio false positive, analisis ini tidak bermakna
Kalau semua baris dianggap mengandung bug maka tingkat deteksi bisa 100%, tetapi tidak ada gunanya
Anthropic dan OpenAI sama-sama tidak mengungkap angka seperti ini sehingga sulit dipercaya
- Namun ada juga bantahan bahwa jika ada oracle yang bisa memverifikasi, false positive dapat diabaikan
- Faktanya model kecil menjawab benar pada uji false positive, sementara Opus salah
  Hanya saja model kecil itu belum sampai ke tingkat verifikasi exploit seperti Mythos
  Hasil Deepseek R1 cukup meyakinkan, tetapi tetap tidak jelas apakah benar-benar berjalan
- Setidaknya cakupan yang dicapai Anthropic harus bisa disamai agar perbandingan ini bermakna
Intinya adalah bahwa kode yang relevan dipisahkan lebih dulu
Zero-day yang kompleks muncul dari interaksi banyak file, jadi pendekatan ini punya keterbatasan
- Tetapi ada yang berargumen Mythos pada akhirnya juga melakukan analisis per file dengan cara serupa
- Tidak jelas apakah Mythos benar-benar menemukan kerentanan lintas file
Mythos mengevaluasi seluruh codebase, sedangkan riset ini menguji hanya kode yang rentan saja
Bedanya seperti “anjing yang menemukan bola di hutan” versus “anjing yang diberi tahu area tempat bola berada”
- Bahkan dianalogikan seperti bola itu sudah diberi bau tertentu, lalu anjingnya dibuat mencium bau itu sebelum dilepas di area sempit
- Karena Mythos tidak bisa memasukkan seluruh kode sekaligus, kemungkinan besar pekerjaan itu dibagi ke beberapa sub-agent
  Pada akhirnya, yang penting bukan modelnya melainkan harness atau sistem alatnya

Batas Baru Keamanan Siber AI: Realitas Setelah Mythos

Sistem adalah moat, bukan model

Posisi keamanan AI saat ini

Mengurai pipeline keamanan AI

Kesimpulan: moat adalah sistem

Hasil eksperimen: kemampuan keamanan yang bergerigi

Bug NFS FreeBSD, bug SACK OpenBSD, dan uji false positive OWASP

Uji false positive OWASP: pada kode Java sederhana, model kecil lebih akurat daripada model besar

Uji pengenalan patch (pembaruan 9 April 2026)

Batas penyusunan exploit

Perspektif makro

Yang dibutuhkan sekarang bukan model, melainkan pembangunan sistem

Keterbatasan dan hal yang perlu diperhatikan

Ringkasan lampiran

Kutipan deteksi FreeBSD

Tabel perbandingan performa per tugas

Uji kode patch

Bacaan terkait

1 komentar

Komentar Hacker News