2 poin oleh GN⁺ 8 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Setelah Claude Mythos milik Anthropic secara otomatis mendeteksi kerentanan zero-day dalam skala besar, model open kecil juga berhasil mendeteksi kerentanan yang sama
  • Model kelas 3.6B~5.1B parameter mereproduksi bug FreeBSD dan OpenBSD, dan sebagian bahkan mengusulkan jalur exploit kreatif yang berbeda dari Mythos
  • Hasil eksperimen menunjukkan bahwa ukuran model dan performa bersifat nonlinier, dan pada tugas tertentu model kecil lebih akurat daripada model besar
  • Kemampuan keamanan AI tidak berkembang mulus, melainkan ‘bergerigi’, dan daya saing yang sesungguhnya terletak pada desain sistem dan pipeline verifikasi, bukan modelnya
  • Karena itu, moat dalam keamanan bukanlah model melainkan sistem, dan struktur orkestrasi yang menanamkan pengetahuan pakar menjadi inti keamanan AI

Sistem adalah moat, bukan model

  • Pada 7 April 2026, Anthropic mengumumkan Claude Mythos Preview dan Project Glasswing, serta membentuk konsorsium yang menggunakan model Mythos untuk secara otomatis mendeteksi dan menambal kerentanan keamanan pada perangkat lunak utama
    • Menjanjikan kredit penggunaan senilai 100 juta dolar dan donasi 4 juta dolar untuk organisasi keamanan open-source
    • Mythos menemukan ribuan kerentanan zero-day, serta secara otonom mendeteksi dan membuat exploit untuk bug OpenBSD berusia 27 tahun, bug FFmpeg berusia 16 tahun, dan kerentanan remote code execution di FreeBSD
  • AISLE mereproduksi kerentanan yang sama dengan model kecil, murah, dan berbobot terbuka
    • 8 dari 8 model mendeteksi exploit FreeBSD
    • Model 3.6B parameter (US$0.11 per token) juga berhasil mendeteksinya
    • Model 5.1B memulihkan rantai inti bug OpenBSD
    • Pada beberapa tugas, model open kecil lebih unggul daripada model besar
  • Hasilnya, kemampuan keamanan AI bersifat nonlinier dan bergerigi (jagged)
    • Tidak ada model tertentu yang unggul di semua tugas
    • Inti daya saing keamanan bukanlah model, melainkan sistem, dengan struktur orkestrasi yang menanamkan pengetahuan pakar sebagai pusatnya

Posisi keamanan AI saat ini

  • Sejak pertengahan 2025, AISLE menerapkan sistem pendeteksian dan penambalan kerentanan berbasis AI pada target nyata
    • Menemukan 15 CVE di OpenSSL, 5 CVE di curl, dan total lebih dari 180 CVE yang tervalidasi secara eksternal
    • CTO OpenSSL menilai bahwa “kualitas laporan dan proses kolaborasinya sangat baik”
  • Mereka menggunakan berbagai model, tetapi model Anthropic tidak selalu unggul
    • Karena model optimal berbeda per tugas, mereka mengadopsi pendekatan agnostik terhadap model

Mengurai pipeline keamanan AI

  • Keamanan AI nyata tidak terdiri dari satu model tunggal, melainkan pipeline multi-tahap
    • Pemindaian luas, deteksi kerentanan, verifikasi dan klasifikasi, pembuatan patch, dan penyusunan exploit memiliki karakteristik penskalaan yang berbeda pada tiap tahap
  • Anthropic memaksimalkan input pertama (kecerdasan model), sedangkan AISLE memberi bobot setara pada berbagai faktor seperti biaya per token, kecepatan, dan keahlian keamanan

Kesimpulan: moat adalah sistem

  • Struktur yang disebut dalam post teknis Mythos, seperti eksekusi container, pemindaian file, verifikasi ASan, dan evaluasi prioritas, mirip dengan sistem AISLE
  • Pusat nilai bukan pada model, tetapi pada proses penargetan, verifikasi, dan pembangunan kepercayaan
  • Pendekatan men-deploy model kecil dalam paralel massal untuk menjelajahi seluruh kode secara luas memungkinkan efisiensi ekonomi dan efisiensi deteksi sekaligus
  • Mythos membuktikan kategorinya, tetapi skala operasional dan jaminan keandalan masih menjadi tantangan

Hasil eksperimen: kemampuan keamanan yang bergerigi

  • Dilakukan eksperimen model kecil dan murah terhadap kerentanan representatif dari pengumuman Mythos
    • Bug NFS FreeBSD, bug SACK OpenBSD, dan uji false positive OWASP

      • Hasilnya menunjukkan bahwa ukuran model, generasi, harga, dan performa bersifat nonlinier
      • Semua model berhasil mendeteksi FreeBSD, hanya sebagian yang berhasil pada OpenBSD, dan untuk OWASP model kecil lebih akurat daripada model besar
      • Deteksi FreeBSD: semua 8 model mendeteksi buffer overflow
      • Bahkan model 3.6B menghitung dengan tepat dan melakukan penilaian kemungkinan RCE
      • DeepSeek R1 melakukan perhitungan yang sesuai dengan struktur stack nyata
      • Dalam logika exploit juga, semua model mengusulkan strategi rantai ROP
      • Beberapa model mengusulkan solusi kreatif yang berbeda dari Mythos (misalnya eskalasi root di user mode alih-alih kernel mode)
      • Bug SACK OpenBSD: model 5.1B memulihkan seluruh rantai dan mengusulkan patch yang benar
      • Qwen3 32B sempurna di FreeBSD, tetapi di sini salah menilai dengan menyebutnya “aman”
      • Peringkat performa antar model benar-benar terbalik tergantung tugasnya
  • Uji false positive OWASP: pada kode Java sederhana, model kecil lebih akurat daripada model besar

    • GPT-OSS-20b, DeepSeek R1, dan OpenAI o3 menilai dengan tepat bahwa “saat ini aman tetapi berpotensi menjadi rentan”
    • Banyak model Anthropic dan seri GPT-4.x secara keliru mendeteksi SQL injection

Uji pengenalan patch (pembaruan 9 April 2026)

  • Dibandingkan kemampuan deteksi bug dan pengenalan perbaikan terhadap kode versi patch FreeBSD
    • Semua model mendeteksi bug yang belum ditambal, tetapi setelah patch banyak false positive muncul pada kode
    • Hanya GPT-OSS-120b yang akurat di kedua arah
    • Sebagian besar model membuat klaim kerentanan yang keliru karena kesalahan interpretasi tanda pada oa_length
  • Ini menunjukkan bahwa sensitivitas (daya deteksi) tinggi tetapi spesifisitas (akurasi) rendah, dan menegaskan bahwa
    sistem verifikasi dan triase di luar model itu wajib ada

Batas penyusunan exploit

  • Contoh seperti pelarian sandbox browser multi-tahap dan rantai ROP kernel milik Mythos adalah kasus yang sangat canggih
  • Model open dapat menjelaskan secara logis kemungkinan exploit, teknik, dan strategi bypass, tetapi
    mekanisme penyampaian kreatif dalam lingkungan terbatas masih belum memadai
  • Namun, dalam workflow defensif, keandalan deteksi dan patch lebih penting daripada exploit yang sepenuhnya lengkap

Perspektif makro

  • Pengumuman Mythos membuktikan realitas dan pentingnya industri keamanan AI
    • Pendanaan dan perhatian terhadap keamanan open-source semakin meluas
  • Namun, klaim bahwa “kemampuan ini hanya ada pada model tertutup tertentu” adalah berlebihan
    • Pada praktiknya, tahap deteksi dan analisis sudah dapat diakses secara luas
    • Keahlian keamanan, desain sistem, dan pembangunan kepercayaan adalah bottleneck yang sebenarnya
  • Yang dibutuhkan sekarang bukan model, melainkan pembangunan sistem

    • Scaffold, pipeline, sistem kolaborasi, dan integrasi ke workflow pengembangan
    • Modelnya sendiri sudah cukup siap

Keterbatasan dan hal yang perlu diperhatikan

  • Cakupan pengujian terbatas: fungsi rentan dan petunjuk diberikan langsung ke model; ini bukan eksplorasi sepenuhnya otonom
  • Tidak ada akses tool: tidak menggunakan eksekusi kode, loop, atau lingkungan sandbox
  • Pembaruan model tercermin: beberapa model Anthropic terbaru kemudian mengalami perbaikan
  • Memperjelas cakupan klaim: ini tidak menyangkal kemampuan Mythos,
    tetapi menekankan bahwa klaim eksklusivitas pada kemampuan deteksi telah dibesar-besarkan

Ringkasan lampiran

  • Kutipan deteksi FreeBSD

    • Kimi K2: “oa_length disalin tanpa validasi sehingga dapat menyebabkan overflow”
    • Gemma 4: “Dapat melebihi buffer stack 128-byte”
  • Tabel perbandingan performa per tugas

    • Semua model berhasil pada deteksi FreeBSD, hanya sebagian pada OpenBSD, dan model kecil unggul pada OWASP
  • Uji kode patch

    • Sebagian besar model menghasilkan false positive karena kesalahan tanda pada oa_length
    • Hanya GPT-OSS-120b yang sepenuhnya akurat
    • Kesimpulan:
    • Daya saing inti keamanan AI bukanlah ukuran atau eksklusivitas model, melainkan
    • desain sistemik yang menanamkan pengetahuan pakar dan struktur operasi yang dapat dipercaya.
    • Model kecil pun cukup kuat, dan pembangunan sistem pertahanan otomatis berskala besar dengan memanfaatkannya sudah memungkinkan saat ini.

1 komentar

 
GN⁺ 8 hari lalu
Komentar Hacker News
  • Melihat tulisan Mythos Preview dari Anthropic, disebutkan bahwa mereka menemukan kerentanan paling kritis di OpenBSD
    Total biaya untuk seribu kali eksekusi kurang dari 20 ribu dolar, dan dalam salah satu eksekusi bug ditemukan dengan biaya kurang dari 50 dolar
    Namun angka ini hanya bermakna secara retrospektif, dan ditekankan bahwa kita tidak bisa tahu sebelumnya eksekusi mana yang akan berhasil
    Digunakan analogi bahwa Mythos menyisir satu benua penuh seperti tambang emas, dan jika eksperimen yang sama dilakukan pada seluruh codebase FreeBSD maka noise-nya akan terlalu banyak

    • Scaffolding Mythos pada dasarnya adalah loop bash yang menelusuri semua file dan menyuruh model mencari kerentanan
      Ingin tahu apakah Anthropic pernah mengungkap rasio false positive
      Di Xitter, ada orang yang bereksperimen dengan model terbuka lain dan hanya berhasil mereproduksi sebagian dari temuan Mythos
      Mythos tampak menunjukkan peningkatan yang bertahap tapi besar dibanding model sebelumnya, sekaligus membuat kompleksitasnya ikut naik
      Pemasaran ala “terlalu kuat untuk dipublikasikan” terasa seperti cara membungkus kenyataan bahwa “menjalankan ini di seluruh codebase butuh 20 ribu dolar”
      Dalam presentasi Nicholas Carlini juga digunakan Opus, dan keamanan memang sudah lama menjadi area fokus Anthropic
    • Mythos juga menghasilkan banyak kerentanan halusinasi, tetapi sebagian memang diverifikasi lewat pengujian
      Intinya adalah apakah model kecil juga bisa melakukan tahap verifikasi ini, dan apakah bisa dilakukan dengan lebih murah
    • Sebaliknya, riset lain dinilai terlalu ekstrem dalam pendekatannya
      Mereka memisahkan fungsi yang rentan lalu memberikannya ke model untuk dievaluasi, yang setara dengan “langsung memberi tahu ruangan tempat emas disembunyikan”
      Dalam praktik nyata, bagian yang lebih sulit justru menemukan ruangan itu di seluruh benua
    • Menghabiskan 20 ribu dolar untuk menemukan satu kerentanan DoS di OpenBSD terasa tidak efisien
      Ada kesan Mythos diperlakukan seperti trofi, padahal rasanya lebih baik langsung berdonasi ke yayasan OpenBSD
    • Jika kerentanan yang sama bisa ditemukan dengan model kecil, muncul pertanyaan kenapa perusahaan itu sendiri belum menemukannya sejak awal
  • Ada riset yang menyebut model terbuka kecil mendeteksi seluruh 8 dari 8 kerentanan FreeBSD yang ditemukan Mythos
    Namun karena pengujiannya dilakukan dengan hanya mengambil kode yang relevan, ini terasa berbeda dari use case nyata
    Nilai sebenarnya ada pada kemampuan melempar seluruh codebase dan memindainya

    • Tim risetnya sendiri mengakui keterbatasan itu
      Karena fungsi rentan dan petunjuknya diberikan langsung ke model, ini hanyalah batas atas dari eksplorasi yang sepenuhnya otonom
      Namun scaffolding yang dirancang dengan baik dapat membangun konteks seperti ini secara otomatis, jadi inti utamanya adalah sistemnya, bukan modelnya
    • Menurut post teknis Anthropic, strukturnya adalah menyalakan container, membiarkan model memindai file, membentuk hipotesis, lalu memverifikasinya dengan ASan
      Artinya framework-nya yang melakukan sebagian besar pekerjaan, dan modelnya bisa diganti
    • Bahkan dengan model kecil pun bisa dibuat harness otomatis yang terus melempar prompt per file atau per fungsi
      Lalu hanya bagian yang secara konsisten ditandai sebagai rentan yang diverifikasi ulang dengan model besar
      Pada akhirnya, yang penting bukan modelnya melainkan harness-nya
    • Pada akhirnya perbedaannya memang hanya di harness. Saya juga bisa membuat harness yang memecah kode per fungsi lalu memasukkannya ke agen analisis
  • Seperti contoh Heartbleed, kalau hanya potongan kode rentannya yang ditunjukkan, siapa pun bisa menemukan bug-nya
    Tetapi yang benar-benar sulit adalah menemukan bagian itu di codebase besar
    Agak mengejutkan Aisle menulis artikel seperti ini

    • Memang ini tulisan bernuansa promosi, tetapi bisa naik ke puncak HN karena memicu perasaan orang bahwa “model baru ternyata tidak istimewa juga”
    • Saat mengerjakan proyek besar, sering kali setelah jeda sejenak lalu kembali, kode yang kita tulis sendiri bisa terlihat berantakan
      Sulitnya mempertahankan konteks adalah salah satu akar penyebab bug
    • Manusia lemah dalam pekerjaan yang repetitif dan sangat detail
      Sebaliknya, mesin bisa terus menyapu kode tanpa bosan
      Ungkapan “dengan cukup banyak mata, semua bug jadi dangkal” tidak sesuai dengan kenyataan
    • Kalau begitu, proses “melihat dari dekat” itulah yang perlu diotomatisasi
      Cukup buat alat yang menelusuri codebase dan berulang kali memberi prompt ke LLM: “jika ada kerentanan di kode ini, temukan”
      Dengan kata lain, alatnya/harness adalah kunci yang membuat LLM tampak lebih pintar
    • Ini seperti mencampuradukkan penyelesaian masalah dengan verifikasi
      Ibarat berkata “kalau faktorisasi prima-nya sudah diberi tahu, maka memecahkan PKI itu mudah”
  • Metodologi tulisan ini dianggap sebagai perbandingan yang keliru total
    Memberikan fungsi rentan dan petunjuk secara langsung adalah tugas yang sama sekali berbeda
    Dalam praktiknya, meski potongan kode dibagi-bagi lalu diberikan ke model kecil, hasil setingkat model besar tetap sulit dicapai
    Saya sendiri menemukan banyak bug Redis dengan pipeline shell script sederhana
    Dengan model lemah hasilnya tidak berhasil. Kalau diuji sendiri, bedanya akan terasa
    Selain itu, meskipun model kecil menemukan 80%, kita tetap butuh model yang lebih kuat untuk menemukan 20% sisanya

    • Anthropic juga mengatakan mereka hanya mempublikasikan kurang dari 1% dari kerentanan yang mereka temukan
      Menarik kalau model terbuka diuji dengan lingkungan Linux versi lama untuk melihat seberapa banyak yang bisa mereka temukan
    • Namun ada juga yang menilai pendekatan ini masuk akal
      Model kecil berhasil menyaring false positive dengan baik, dan dengan harness yang tepat hasilnya bisa mendekati model besar
      Model kecil cepat dan murah, jadi di tangan pengguna berpengalaman bisa jauh lebih efisien
      Ke depan, kombinasi model ringan + harness seperti ini mungkin akan jadi arus utama
    • Ada juga yang menanggapi secara satir dengan “Thanks Dario, very cool!”
  • Banyak komentar mengatakan “karena kodenya dipisah maka hasilnya tidak valid”, tetapi Anthropic juga menjalankan model dengan pendekatan serupa per file
    Harness Mythos memberi skor prioritas pada tiap file, lalu membuat instance Claude Code yang fokus pada file tersebut
    Jadi pemisahan kode itu sendiri tidak otomatis membatalkan hasil

  • Dalam video presentasi Nicholas Carlini, teknik yang sama juga diperkenalkan
    Membuat LLM meninjau secara mendalam satu file dalam satu waktu memang efektif
    “Inovasi” Mythos sebenarnya adalah otomatisasi sederhana prompt per file ini
    Bisa jadi justru pendekatan inilah yang membuat biayanya naik sampai 20 ribu dolar
    Saya juga mencoba cara yang sama dengan Opus 4.6 dan GPT 5.4, dan hasil review-nya jauh lebih teliti
    Artinya, bila satu sesi difokuskan pada satu file, model menganalisis jauh lebih dalam

    • Tetapi dengan cara ini, kerentanan yang muncul dari interaksi antarfile bisa terlewat
  • Ungkapan “model kecil merekonstruksi analisis yang sama” sulit dipercaya karena tidak dikuantifikasi
    Verifikasi kerentanan bisa diukur jelas lewat PoC, jadi bukti seperti itu diperlukan
    Selain itu, “memberikan kode yang relevan lebih dulu” bukan perbandingan yang adil

  • Tanpa mengungkap rasio false positive, analisis ini tidak bermakna
    Kalau semua baris dianggap mengandung bug maka tingkat deteksi bisa 100%, tetapi tidak ada gunanya
    Anthropic dan OpenAI sama-sama tidak mengungkap angka seperti ini sehingga sulit dipercaya

    • Namun ada juga bantahan bahwa jika ada oracle yang bisa memverifikasi, false positive dapat diabaikan
    • Faktanya model kecil menjawab benar pada uji false positive, sementara Opus salah
      Hanya saja model kecil itu belum sampai ke tingkat verifikasi exploit seperti Mythos
      Hasil Deepseek R1 cukup meyakinkan, tetapi tetap tidak jelas apakah benar-benar berjalan
    • Setidaknya cakupan yang dicapai Anthropic harus bisa disamai agar perbandingan ini bermakna
  • Intinya adalah bahwa kode yang relevan dipisahkan lebih dulu
    Zero-day yang kompleks muncul dari interaksi banyak file, jadi pendekatan ini punya keterbatasan

    • Tetapi ada yang berargumen Mythos pada akhirnya juga melakukan analisis per file dengan cara serupa
    • Tidak jelas apakah Mythos benar-benar menemukan kerentanan lintas file
  • Mythos mengevaluasi seluruh codebase, sedangkan riset ini menguji hanya kode yang rentan saja
    Bedanya seperti “anjing yang menemukan bola di hutan” versus “anjing yang diberi tahu area tempat bola berada”

    • Bahkan dianalogikan seperti bola itu sudah diberi bau tertentu, lalu anjingnya dibuat mencium bau itu sebelum dilepas di area sempit
    • Karena Mythos tidak bisa memasukkan seluruh kode sekaligus, kemungkinan besar pekerjaan itu dibagi ke beberapa sub-agent
      Pada akhirnya, yang penting bukan modelnya melainkan harness atau sistem alatnya