- Setelah Claude Mythos milik Anthropic secara otomatis mendeteksi kerentanan zero-day dalam skala besar, model open kecil juga berhasil mendeteksi kerentanan yang sama
- Model kelas 3.6B~5.1B parameter mereproduksi bug FreeBSD dan OpenBSD, dan sebagian bahkan mengusulkan jalur exploit kreatif yang berbeda dari Mythos
- Hasil eksperimen menunjukkan bahwa ukuran model dan performa bersifat nonlinier, dan pada tugas tertentu model kecil lebih akurat daripada model besar
- Kemampuan keamanan AI tidak berkembang mulus, melainkan ‘bergerigi’, dan daya saing yang sesungguhnya terletak pada desain sistem dan pipeline verifikasi, bukan modelnya
- Karena itu, moat dalam keamanan bukanlah model melainkan sistem, dan struktur orkestrasi yang menanamkan pengetahuan pakar menjadi inti keamanan AI
Sistem adalah moat, bukan model
- Pada 7 April 2026, Anthropic mengumumkan Claude Mythos Preview dan Project Glasswing, serta membentuk konsorsium yang menggunakan model Mythos untuk secara otomatis mendeteksi dan menambal kerentanan keamanan pada perangkat lunak utama
- Menjanjikan kredit penggunaan senilai 100 juta dolar dan donasi 4 juta dolar untuk organisasi keamanan open-source
- Mythos menemukan ribuan kerentanan zero-day, serta secara otonom mendeteksi dan membuat exploit untuk bug OpenBSD berusia 27 tahun, bug FFmpeg berusia 16 tahun, dan kerentanan remote code execution di FreeBSD
- AISLE mereproduksi kerentanan yang sama dengan model kecil, murah, dan berbobot terbuka
- 8 dari 8 model mendeteksi exploit FreeBSD
- Model 3.6B parameter (US$0.11 per token) juga berhasil mendeteksinya
- Model 5.1B memulihkan rantai inti bug OpenBSD
- Pada beberapa tugas, model open kecil lebih unggul daripada model besar
- Hasilnya, kemampuan keamanan AI bersifat nonlinier dan bergerigi (jagged)
- Tidak ada model tertentu yang unggul di semua tugas
- Inti daya saing keamanan bukanlah model, melainkan sistem, dengan struktur orkestrasi yang menanamkan pengetahuan pakar sebagai pusatnya
Posisi keamanan AI saat ini
- Sejak pertengahan 2025, AISLE menerapkan sistem pendeteksian dan penambalan kerentanan berbasis AI pada target nyata
- Menemukan 15 CVE di OpenSSL, 5 CVE di curl, dan total lebih dari 180 CVE yang tervalidasi secara eksternal
- CTO OpenSSL menilai bahwa “kualitas laporan dan proses kolaborasinya sangat baik”
- Mereka menggunakan berbagai model, tetapi model Anthropic tidak selalu unggul
- Karena model optimal berbeda per tugas, mereka mengadopsi pendekatan agnostik terhadap model
Mengurai pipeline keamanan AI
- Keamanan AI nyata tidak terdiri dari satu model tunggal, melainkan pipeline multi-tahap
- Pemindaian luas, deteksi kerentanan, verifikasi dan klasifikasi, pembuatan patch, dan penyusunan exploit memiliki karakteristik penskalaan yang berbeda pada tiap tahap
- Anthropic memaksimalkan input pertama (kecerdasan model), sedangkan AISLE memberi bobot setara pada berbagai faktor seperti biaya per token, kecepatan, dan keahlian keamanan
Kesimpulan: moat adalah sistem
- Struktur yang disebut dalam post teknis Mythos, seperti eksekusi container, pemindaian file, verifikasi ASan, dan evaluasi prioritas, mirip dengan sistem AISLE
- Pusat nilai bukan pada model, tetapi pada proses penargetan, verifikasi, dan pembangunan kepercayaan
- Pendekatan men-deploy model kecil dalam paralel massal untuk menjelajahi seluruh kode secara luas memungkinkan efisiensi ekonomi dan efisiensi deteksi sekaligus
- Mythos membuktikan kategorinya, tetapi skala operasional dan jaminan keandalan masih menjadi tantangan
Hasil eksperimen: kemampuan keamanan yang bergerigi
- Dilakukan eksperimen model kecil dan murah terhadap kerentanan representatif dari pengumuman Mythos
-
Bug NFS FreeBSD, bug SACK OpenBSD, dan uji false positive OWASP
- Hasilnya menunjukkan bahwa ukuran model, generasi, harga, dan performa bersifat nonlinier
- Semua model berhasil mendeteksi FreeBSD, hanya sebagian yang berhasil pada OpenBSD, dan untuk OWASP model kecil lebih akurat daripada model besar
- Deteksi FreeBSD: semua 8 model mendeteksi buffer overflow
- Bahkan model 3.6B menghitung dengan tepat dan melakukan penilaian kemungkinan RCE
- DeepSeek R1 melakukan perhitungan yang sesuai dengan struktur stack nyata
- Dalam logika exploit juga, semua model mengusulkan strategi rantai ROP
- Beberapa model mengusulkan solusi kreatif yang berbeda dari Mythos (misalnya eskalasi root di user mode alih-alih kernel mode)
- Bug SACK OpenBSD: model 5.1B memulihkan seluruh rantai dan mengusulkan patch yang benar
- Qwen3 32B sempurna di FreeBSD, tetapi di sini salah menilai dengan menyebutnya “aman”
- Peringkat performa antar model benar-benar terbalik tergantung tugasnya
-
Uji false positive OWASP: pada kode Java sederhana, model kecil lebih akurat daripada model besar
- GPT-OSS-20b, DeepSeek R1, dan OpenAI o3 menilai dengan tepat bahwa “saat ini aman tetapi berpotensi menjadi rentan”
- Banyak model Anthropic dan seri GPT-4.x secara keliru mendeteksi SQL injection
Uji pengenalan patch (pembaruan 9 April 2026)
- Dibandingkan kemampuan deteksi bug dan pengenalan perbaikan terhadap kode versi patch FreeBSD
- Semua model mendeteksi bug yang belum ditambal, tetapi setelah patch banyak false positive muncul pada kode
- Hanya GPT-OSS-120b yang akurat di kedua arah
- Sebagian besar model membuat klaim kerentanan yang keliru karena kesalahan interpretasi tanda pada
oa_length
- Ini menunjukkan bahwa sensitivitas (daya deteksi) tinggi tetapi spesifisitas (akurasi) rendah, dan menegaskan bahwa
sistem verifikasi dan triase di luar model itu wajib ada
Batas penyusunan exploit
- Contoh seperti pelarian sandbox browser multi-tahap dan rantai ROP kernel milik Mythos adalah kasus yang sangat canggih
- Model open dapat menjelaskan secara logis kemungkinan exploit, teknik, dan strategi bypass, tetapi
mekanisme penyampaian kreatif dalam lingkungan terbatas masih belum memadai
- Namun, dalam workflow defensif, keandalan deteksi dan patch lebih penting daripada exploit yang sepenuhnya lengkap
Perspektif makro
- Pengumuman Mythos membuktikan realitas dan pentingnya industri keamanan AI
- Pendanaan dan perhatian terhadap keamanan open-source semakin meluas
- Namun, klaim bahwa “kemampuan ini hanya ada pada model tertutup tertentu” adalah berlebihan
- Pada praktiknya, tahap deteksi dan analisis sudah dapat diakses secara luas
- Keahlian keamanan, desain sistem, dan pembangunan kepercayaan adalah bottleneck yang sebenarnya
-
Yang dibutuhkan sekarang bukan model, melainkan pembangunan sistem
- Scaffold, pipeline, sistem kolaborasi, dan integrasi ke workflow pengembangan
- Modelnya sendiri sudah cukup siap
Keterbatasan dan hal yang perlu diperhatikan
- Cakupan pengujian terbatas: fungsi rentan dan petunjuk diberikan langsung ke model; ini bukan eksplorasi sepenuhnya otonom
- Tidak ada akses tool: tidak menggunakan eksekusi kode, loop, atau lingkungan sandbox
- Pembaruan model tercermin: beberapa model Anthropic terbaru kemudian mengalami perbaikan
- Memperjelas cakupan klaim: ini tidak menyangkal kemampuan Mythos,
tetapi menekankan bahwa klaim eksklusivitas pada kemampuan deteksi telah dibesar-besarkan
Ringkasan lampiran
-
Kutipan deteksi FreeBSD
- Kimi K2: “
oa_length disalin tanpa validasi sehingga dapat menyebabkan overflow”
- Gemma 4: “Dapat melebihi buffer stack 128-byte”
-
Tabel perbandingan performa per tugas
- Semua model berhasil pada deteksi FreeBSD, hanya sebagian pada OpenBSD, dan model kecil unggul pada OWASP
-
Uji kode patch
- Sebagian besar model menghasilkan false positive karena kesalahan tanda pada
oa_length
- Hanya GPT-OSS-120b yang sepenuhnya akurat
- Kesimpulan:
- Daya saing inti keamanan AI bukanlah ukuran atau eksklusivitas model, melainkan
- desain sistemik yang menanamkan pengetahuan pakar dan struktur operasi yang dapat dipercaya.
- Model kecil pun cukup kuat, dan pembangunan sistem pertahanan otomatis berskala besar dengan memanfaatkannya sudah memungkinkan saat ini.
1 komentar
Komentar Hacker News
Melihat tulisan Mythos Preview dari Anthropic, disebutkan bahwa mereka menemukan kerentanan paling kritis di OpenBSD
Total biaya untuk seribu kali eksekusi kurang dari 20 ribu dolar, dan dalam salah satu eksekusi bug ditemukan dengan biaya kurang dari 50 dolar
Namun angka ini hanya bermakna secara retrospektif, dan ditekankan bahwa kita tidak bisa tahu sebelumnya eksekusi mana yang akan berhasil
Digunakan analogi bahwa Mythos menyisir satu benua penuh seperti tambang emas, dan jika eksperimen yang sama dilakukan pada seluruh codebase FreeBSD maka noise-nya akan terlalu banyak
Ingin tahu apakah Anthropic pernah mengungkap rasio false positive
Di Xitter, ada orang yang bereksperimen dengan model terbuka lain dan hanya berhasil mereproduksi sebagian dari temuan Mythos
Mythos tampak menunjukkan peningkatan yang bertahap tapi besar dibanding model sebelumnya, sekaligus membuat kompleksitasnya ikut naik
Pemasaran ala “terlalu kuat untuk dipublikasikan” terasa seperti cara membungkus kenyataan bahwa “menjalankan ini di seluruh codebase butuh 20 ribu dolar”
Dalam presentasi Nicholas Carlini juga digunakan Opus, dan keamanan memang sudah lama menjadi area fokus Anthropic
Intinya adalah apakah model kecil juga bisa melakukan tahap verifikasi ini, dan apakah bisa dilakukan dengan lebih murah
Mereka memisahkan fungsi yang rentan lalu memberikannya ke model untuk dievaluasi, yang setara dengan “langsung memberi tahu ruangan tempat emas disembunyikan”
Dalam praktik nyata, bagian yang lebih sulit justru menemukan ruangan itu di seluruh benua
Ada kesan Mythos diperlakukan seperti trofi, padahal rasanya lebih baik langsung berdonasi ke yayasan OpenBSD
Ada riset yang menyebut model terbuka kecil mendeteksi seluruh 8 dari 8 kerentanan FreeBSD yang ditemukan Mythos
Namun karena pengujiannya dilakukan dengan hanya mengambil kode yang relevan, ini terasa berbeda dari use case nyata
Nilai sebenarnya ada pada kemampuan melempar seluruh codebase dan memindainya
Karena fungsi rentan dan petunjuknya diberikan langsung ke model, ini hanyalah batas atas dari eksplorasi yang sepenuhnya otonom
Namun scaffolding yang dirancang dengan baik dapat membangun konteks seperti ini secara otomatis, jadi inti utamanya adalah sistemnya, bukan modelnya
Artinya framework-nya yang melakukan sebagian besar pekerjaan, dan modelnya bisa diganti
Lalu hanya bagian yang secara konsisten ditandai sebagai rentan yang diverifikasi ulang dengan model besar
Pada akhirnya, yang penting bukan modelnya melainkan harness-nya
Seperti contoh Heartbleed, kalau hanya potongan kode rentannya yang ditunjukkan, siapa pun bisa menemukan bug-nya
Tetapi yang benar-benar sulit adalah menemukan bagian itu di codebase besar
Agak mengejutkan Aisle menulis artikel seperti ini
Sulitnya mempertahankan konteks adalah salah satu akar penyebab bug
Sebaliknya, mesin bisa terus menyapu kode tanpa bosan
Ungkapan “dengan cukup banyak mata, semua bug jadi dangkal” tidak sesuai dengan kenyataan
Cukup buat alat yang menelusuri codebase dan berulang kali memberi prompt ke LLM: “jika ada kerentanan di kode ini, temukan”
Dengan kata lain, alatnya/harness adalah kunci yang membuat LLM tampak lebih pintar
Ibarat berkata “kalau faktorisasi prima-nya sudah diberi tahu, maka memecahkan PKI itu mudah”
Metodologi tulisan ini dianggap sebagai perbandingan yang keliru total
Memberikan fungsi rentan dan petunjuk secara langsung adalah tugas yang sama sekali berbeda
Dalam praktiknya, meski potongan kode dibagi-bagi lalu diberikan ke model kecil, hasil setingkat model besar tetap sulit dicapai
Saya sendiri menemukan banyak bug Redis dengan pipeline shell script sederhana
Dengan model lemah hasilnya tidak berhasil. Kalau diuji sendiri, bedanya akan terasa
Selain itu, meskipun model kecil menemukan 80%, kita tetap butuh model yang lebih kuat untuk menemukan 20% sisanya
Menarik kalau model terbuka diuji dengan lingkungan Linux versi lama untuk melihat seberapa banyak yang bisa mereka temukan
Model kecil berhasil menyaring false positive dengan baik, dan dengan harness yang tepat hasilnya bisa mendekati model besar
Model kecil cepat dan murah, jadi di tangan pengguna berpengalaman bisa jauh lebih efisien
Ke depan, kombinasi model ringan + harness seperti ini mungkin akan jadi arus utama
Banyak komentar mengatakan “karena kodenya dipisah maka hasilnya tidak valid”, tetapi Anthropic juga menjalankan model dengan pendekatan serupa per file
Harness Mythos memberi skor prioritas pada tiap file, lalu membuat instance Claude Code yang fokus pada file tersebut
Jadi pemisahan kode itu sendiri tidak otomatis membatalkan hasil
Dalam video presentasi Nicholas Carlini, teknik yang sama juga diperkenalkan
Membuat LLM meninjau secara mendalam satu file dalam satu waktu memang efektif
“Inovasi” Mythos sebenarnya adalah otomatisasi sederhana prompt per file ini
Bisa jadi justru pendekatan inilah yang membuat biayanya naik sampai 20 ribu dolar
Saya juga mencoba cara yang sama dengan Opus 4.6 dan GPT 5.4, dan hasil review-nya jauh lebih teliti
Artinya, bila satu sesi difokuskan pada satu file, model menganalisis jauh lebih dalam
Ungkapan “model kecil merekonstruksi analisis yang sama” sulit dipercaya karena tidak dikuantifikasi
Verifikasi kerentanan bisa diukur jelas lewat PoC, jadi bukti seperti itu diperlukan
Selain itu, “memberikan kode yang relevan lebih dulu” bukan perbandingan yang adil
Tanpa mengungkap rasio false positive, analisis ini tidak bermakna
Kalau semua baris dianggap mengandung bug maka tingkat deteksi bisa 100%, tetapi tidak ada gunanya
Anthropic dan OpenAI sama-sama tidak mengungkap angka seperti ini sehingga sulit dipercaya
Hanya saja model kecil itu belum sampai ke tingkat verifikasi exploit seperti Mythos
Hasil Deepseek R1 cukup meyakinkan, tetapi tetap tidak jelas apakah benar-benar berjalan
Intinya adalah bahwa kode yang relevan dipisahkan lebih dulu
Zero-day yang kompleks muncul dari interaksi banyak file, jadi pendekatan ini punya keterbatasan
Mythos mengevaluasi seluruh codebase, sedangkan riset ini menguji hanya kode yang rentan saja
Bedanya seperti “anjing yang menemukan bola di hutan” versus “anjing yang diberi tahu area tempat bola berada”
Pada akhirnya, yang penting bukan modelnya melainkan harness atau sistem alatnya