5 poin oleh GN⁺ 4 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • LLM Anthropic ‘Mythos’ menunjukkan kinerja lebih cepat dan lebih presisi daripada manusia dalam simulasi serangan jaringan yang kompleks, dan aksesnya hanya diberikan kepada pengembang inti tertentu
  • Dalam pengujian AI Security Institute, Mythos berhasil sepenuhnya 3 dari 10 kali pada simulasi serangan jaringan perusahaan 32 tahap, dan kinerjanya meningkat saat anggaran token ditambah
  • Hasil ini menunjukkan bahwa keamanan berubah menjadi struktur di mana pertahanan hanya bisa berhasil jika mengerahkan lebih banyak token daripada penyerang, yaitu kompetisi bergaya Proof of Work
  • Setelah serangan rantai pasok LiteLLM·Axios, upaya untuk mengganti ketergantungan open source dengan LLM atau memperkuat keamanan dengan mengerahkan token makin meluas
  • Keamanan kini makin ditentukan oleh besarnya sumber daya yang dikerahkan daripada kreativitas teknis, yang mendorong penambahan tahap ‘hardening’ ke dalam proses pengembangan

Struktur di mana keamanan bekerja seperti ‘Proof of Work’

  • LLM Anthropic ‘Mythos’ menunjukkan performa unggul pada tugas keamanan komputer, sehingga tidak dirilis untuk publik umum dan hanya bisa diakses oleh pembuat perangkat lunak inti tertentu
    • Mythos menjalankan simulasi serangan jaringan yang kompleks jauh lebih cepat daripada manusia
    • Dalam evaluasi AI Security Institute (AISI), model ini juga membuktikan kemampuan menjalankan serangan siber satu tingkat di atas model sebelumnya
  • Dalam simulasi serangan jaringan perusahaan 32 tahap bernama ‘The Last Ones’, Mythos berhasil sepenuhnya 3 dari 10 percobaan
    • AISI menggunakan 100 juta token (sekitar 12.500 dolar AS) untuk setiap percobaan
    • Dari semua model yang diuji, hanya Mythos yang mampu menyelesaikan seluruh serangan, dan performanya terus meningkat ketika anggaran token diperbesar
  • Hasil ini menyiratkan bahwa ekonomi keamanan bermuara pada rumus sederhana: “untuk bertahan, Anda harus menghabiskan lebih banyak token daripada yang digunakan penyerang”
    • Penguatan keamanan lebih ditentukan oleh besarnya sumber daya yang dikerahkan daripada kreativitas
    • Ini mirip dengan mekanisme Proof of Work pada kripto, di mana pihak yang mengerahkan lebih banyak sumber daya komputasi akan menang

Implikasi dari ekonomi keamanan yang baru

  • Pentingnya perangkat lunak open source makin menguat

    • Setelah serangan rantai pasok terhadap LiteLLM dan Axios, muncul usulan di sebagian kalangan agar kode dependensi diimplementasikan ulang dengan agen AI
    • Andrej Karpathy menyebut bahwa “dependensi perlu dievaluasi ulang, dan fungsi sederhana lebih baik diimplementasikan langsung dengan LLM”
    • Jika keamanan sebanding dengan jumlah token yang dikerahkan, maka perusahaan bisa menjadi lebih aman dengan mengerahkan token untuk memperkuat keamanan pustaka open source
    • Namun OSS yang digunakan luas memiliki nilai serangan yang tinggi, sehingga penyerang juga terdorong mengerahkan lebih banyak sumber daya
  • Menambahkan tahap ‘Hardening’ ke proses pengembangan

    • Saat ini pengembang mengikuti proses dua tahap pengembangan → code review, dengan model yang berbeda di tiap tahap
    • Anthropic menyediakan layanan khusus code review (Code Review) dengan biaya sekitar 15–20 dolar AS per review
    • Ke depan, siklus tiga tahap pengembangan → review → hardening bisa menjadi hal yang umum
      1. Pengembangan: implementasi fitur dan iterasi berdasarkan umpan balik pengguna
      2. Review: dokumentasi, refactoring, dan peningkatan kualitas
      3. Hardening: menjalankan pencarian kerentanan otomatis sejauh anggaran memungkinkan
    • Pada tahap pertama, waktu manusia menjadi faktor pembatas; pada tahap terakhir, biaya menjadi faktor pembatas utama

Struktur biaya dan batas keamanan

  • Penulisan kode itu sendiri masih relatif murah, tetapi untuk memastikan keamanan, Anda harus membeli lebih banyak token daripada penyerang
  • Bahkan jika efisiensi inferensi model meningkat, biaya penguatan keamanan ditentukan oleh nilai serangan, sehingga sulit mencapai penghematan biaya sepenuhnya
  • Pada akhirnya, keamanan bergeser dari kreativitas teknis menjadi kompetisi sumber daya berbasis pasar

1 komentar

 
GN⁺ 4 hari lalu
Komentar Hacker News
  • Akses ke codebase adalah kuncinya. Pemindaian keamanan berbasis LLM saat ini pada dasarnya setara dengan skrip bash sederhana yang menelusuri semua file sambil melempar prompt seperti “tolong cari kerentanan”
    Namun jika pihak bertahan mengendalikan seluruh source, ini bisa bekerja jauh lebih efisien. Misalnya, hanya memindai file yang berubah per PR, atau mengalokasikan lebih banyak token ke kode yang sensitif terhadap keamanan. Penyerang harus memindai ulang dari awal setiap kali, tetapi pihak bertahan bisa menemukan semua potensi kerentanan lebih dulu dengan satu kali pemindaian
    Pada akhirnya ada asimetri biaya, dan pihak bertahan lebih unggul dari sisi efisiensi. Penyerang harus menyelesaikan beberapa tahap rantai exploit, sedangkan pihak bertahan cukup memutus satu mata rantai terlemah

    • Penyerang itu banyak dan pihak bertahan hanya satu, jadi sulit menerima argumen bahwa skala ekonomi justru menguntungkan pihak bertahan. Mengasumsikan akses ke kode tidak mungkin itu buruk dari sisi keamanan. Semua security review berangkat dari asumsi adanya akses ke source
    • Meski begitu, pendekatan seperti ini juga menaikkan biaya pengembangan software. Sikap santai seperti “siapa yang bakal menargetkan kita” sudah tidak berlaku
    • Menarik bahwa seperti disebut di podcast Security Cryptography Whatever, saat ini “strategi menunggu model berikutnya” tampaknya lebih efektif daripada meningkatkan harness
    • Masalahnya, pendekatan ini bisa memperbesar insiden setingkat “serangan rantai pasok karena PC satu developer terinfeksi” menjadi “kebocoran seluruh source code dan audit otomatis”. Dunia seperti itu terasa seperti hutan gelap bagi startup
    • Pihak bertahan harus memperkuat semua bagian, tetapi penyerang hanya perlu menemukan satu kerentanan
  • AI Security Institute (AISI) yang disebut dalam artikel menarik, jadi saya mencari tahu dan ternyata organisasi itu sebagian besar diisi orang-orang dari DeepMind atau OpenAI. Hampir tidak ada orang industri keamanan. Karena itu, kesimpulan bahwa “untuk memperkuat sistem kita harus memakai lebih banyak token” terdengar agak seperti logika yang berpusat pada industri AI. Saya juga bertanya-tanya kenapa alternatif seperti formal verification tidak disebut. Rasanya NVIDIA pun bisa memakai logika ini untuk menjual GPU

    • Saya penasaran siapa peneliti keamanan terkenal yang akan mengambil posisi berlawanan. Dalam praktiknya, banyak peneliti tampaknya setuju dengan klaim ini. Fokus diskusi sekarang adalah apakah LLM merupakan lompatan setingkat fuzzing, atau lebih dari itu
    • Sebagai catatan, AISI adalah lembaga di bawah pemerintah Inggris, bagian dari Department for Science, Innovation and Technology (DSTI). Meski begitu, cara analisisnya, seperti menggambar grafik sebagai garis linear sederhana, terasa agak kurang memuaskan
  • Kutipan Tony Hoare ini berkesan: “Ada dua cara mendesain software: membuatnya begitu sederhana sehingga jelas tidak punya cacat, atau begitu rumit sehingga cacatnya tidak terlihat”

    • Membuat semuanya benar-benar sederhana memang tidak akan menghentikan semua serangan, tetapi mengurangi attack surface sangat membantu. Misalnya, jika sistem dirancang untuk selalu memverifikasi tanda tangan sebelum memproses pesan jaringan, maka akan lebih sulit menerima pesan yang tidak ditandatangani. Banyak sistem saat ini memiliki model ancaman yang lebih luas dari yang diperlukan
    • Namun standar “kerumitan” berbeda bagi manusia dan LLM. Sesuatu yang tampak rumit bagi manusia bisa jadi sederhana bagi LLM. Jadi saya ragu seberapa efektif pendekatan ini nantinya
  • Keamanan selalu merupakan permainan tentang seberapa banyak uang yang bersedia dikeluarkan lawan. Kemunculan LLM tidak mengubah prinsip dasarnya. Falsafah Karpathy tentang “copy over dependencies” juga sudah lama ada dalam pepatah Go. Prinsip bahwa “keamanan tidak bisa diperoleh lewat obscurity” juga fakta lama

    • Namun obscurity bukan berarti sepenuhnya tak berguna. Ia bisa membantu sebagai salah satu lapisan pertahanan. Idealnya kita memperkuat sistem dengan asumsi sistem itu sepenuhnya transparan, lalu menambahkan sedikit ketidaktransparanan di atasnya
    • Pernyataan “untuk bertahan kita harus memakai lebih banyak token daripada penyerang” juga bukan hal baru. Dalam keamanan fisik pun begitu. Pada akhirnya, di era AI kita memang harus memakai AI untuk mempertahankan diri dari AI. Langkah awalnya mungkin dengan memeriksa prompt pada model pembuat kode yang dipakai developer
  • Saya pada umumnya setuju dengan isi artikel. Kalimat “kita tidak dinilai dari kecerdikan” terasa agak berbahaya. Esensi cybersecurity tetap berada pada sistem manusia. Menghabiskan banyak waktu GPU memang perlu, tetapi pada akhirnya budaya dan disiplin keamanan organisasi yang menentukan menang atau kalah. Kita butuh tingkat disiplin seperti di industri nuklir atau penerbangan, yang biasanya baru muncul setelah kecelakaan besar
    Dalam konteks terkait, tulisan ini dari setahun lalu hampir terasa seperti meramalkan situasi sekarang

  • Soal klaim bahwa “untuk memperkuat sistem kita harus memakai lebih banyak token daripada penyerang”, saya pernah membuat skrip sendiri untuk otomatisasi API Ticketmaster. Mereka memperkuat pertahanan dengan PerimeterX, tetapi saya bisa melewatinya dalam 3 hari. Belakangan saya juga membuat pendekatan serupa untuk melewati Cloudflare Turnstile milik ChatGPT.
    Itu menjadi contoh bahwa produk keamanan bernilai puluhan juta dolar pada praktiknya bisa jadi tidak berguna
    Postingan HN terkait

  • Saya penasaran apakah insiden keamanan yang ditemukan LLM benar-benar kerentanan baru, atau hanya perpanjangan dari pengetahuan keamanan yang sudah ada. Jika yang kedua, kenapa kita sendiri belum bisa menemukannya secara sistematis?

  • Alasan riset ini terlihat seperti Proof of Work adalah karena AISI mengatakan bahwa “semakin banyak token yang dipakai, hasilnya terus meningkat”. Artinya, diasumsikan tingkat keberhasilan serangan sebanding dengan konsumsi token. Namun eksperimennya adalah skenario penetrasi jaringan 32 langkah, dan hanya Mythos yang berhasil menuntaskannya. Pada pustaka kode yang sederhana, titik diminishing returns bisa datang jauh lebih cepat
    Pada proyek open source, konsumsi token baik di pihak bertahan maupun penyerang bisa sama-sama tinggi, sehingga batas ini mungkin tercapai lebih cepat

    • Mythos juga tidak berhasil pada semua percobaan, dan jaringan eksperimennya pun tidak memiliki pertahanan nyata. Meski begitu, tidak ada alasan untuk meremehkan AI. Model tiga bulan dari sekarang kemungkinan sudah berada di level berbeda
    • Saya tidak terlalu paham cybersecurity, tetapi laju kenaikan biaya token untuk berpindah dari 32 langkah ke 33 langkah tampaknya inti persoalannya. Jika pertahanan tiap langkah bersifat independen, probabilitas keberhasilan serangan akan turun tajam sebagai p^N
  • Pada akhirnya pertanyaannya adalah ini — mana yang lebih murah untuk diamankan, codebase yang ditulis manusia, atau kode yang dihasilkan oleh pasukan agen

  • Melempar model ke seluruh codebase secara membabi buta seperti sekarang itu tidak efisien. Dari eksperimen yang saya lakukan, biaya turun drastis ketika model diarahkan untuk menelusuri source-to-sink trace secara terstruktur.
    Sekarang kita memasuki era ketika sistem bisa memvisualisasikan konteks seluruh kode dan secara tepat menunjuk titik retak. Ini akan menjadi titik balik besar bagi peningkatan kualitas software.