- LLM Anthropic ‘Mythos’ menunjukkan kinerja lebih cepat dan lebih presisi daripada manusia dalam simulasi serangan jaringan yang kompleks, dan aksesnya hanya diberikan kepada pengembang inti tertentu
- Dalam pengujian AI Security Institute, Mythos berhasil sepenuhnya 3 dari 10 kali pada simulasi serangan jaringan perusahaan 32 tahap, dan kinerjanya meningkat saat anggaran token ditambah
- Hasil ini menunjukkan bahwa keamanan berubah menjadi struktur di mana pertahanan hanya bisa berhasil jika mengerahkan lebih banyak token daripada penyerang, yaitu kompetisi bergaya Proof of Work
- Setelah serangan rantai pasok LiteLLM·Axios, upaya untuk mengganti ketergantungan open source dengan LLM atau memperkuat keamanan dengan mengerahkan token makin meluas
- Keamanan kini makin ditentukan oleh besarnya sumber daya yang dikerahkan daripada kreativitas teknis, yang mendorong penambahan tahap ‘hardening’ ke dalam proses pengembangan
Struktur di mana keamanan bekerja seperti ‘Proof of Work’
- LLM Anthropic ‘Mythos’ menunjukkan performa unggul pada tugas keamanan komputer, sehingga tidak dirilis untuk publik umum dan hanya bisa diakses oleh pembuat perangkat lunak inti tertentu
- Mythos menjalankan simulasi serangan jaringan yang kompleks jauh lebih cepat daripada manusia
- Dalam evaluasi AI Security Institute (AISI), model ini juga membuktikan kemampuan menjalankan serangan siber satu tingkat di atas model sebelumnya
- Dalam simulasi serangan jaringan perusahaan 32 tahap bernama ‘The Last Ones’, Mythos berhasil sepenuhnya 3 dari 10 percobaan
- AISI menggunakan 100 juta token (sekitar 12.500 dolar AS) untuk setiap percobaan
- Dari semua model yang diuji, hanya Mythos yang mampu menyelesaikan seluruh serangan, dan performanya terus meningkat ketika anggaran token diperbesar
- Hasil ini menyiratkan bahwa ekonomi keamanan bermuara pada rumus sederhana: “untuk bertahan, Anda harus menghabiskan lebih banyak token daripada yang digunakan penyerang”
- Penguatan keamanan lebih ditentukan oleh besarnya sumber daya yang dikerahkan daripada kreativitas
- Ini mirip dengan mekanisme Proof of Work pada kripto, di mana pihak yang mengerahkan lebih banyak sumber daya komputasi akan menang
Implikasi dari ekonomi keamanan yang baru
-
Pentingnya perangkat lunak open source makin menguat
- Setelah serangan rantai pasok terhadap LiteLLM dan Axios, muncul usulan di sebagian kalangan agar kode dependensi diimplementasikan ulang dengan agen AI
- Andrej Karpathy menyebut bahwa “dependensi perlu dievaluasi ulang, dan fungsi sederhana lebih baik diimplementasikan langsung dengan LLM”
- Jika keamanan sebanding dengan jumlah token yang dikerahkan, maka perusahaan bisa menjadi lebih aman dengan mengerahkan token untuk memperkuat keamanan pustaka open source
- Namun OSS yang digunakan luas memiliki nilai serangan yang tinggi, sehingga penyerang juga terdorong mengerahkan lebih banyak sumber daya
-
Menambahkan tahap ‘Hardening’ ke proses pengembangan
- Saat ini pengembang mengikuti proses dua tahap pengembangan → code review, dengan model yang berbeda di tiap tahap
- Anthropic menyediakan layanan khusus code review (Code Review) dengan biaya sekitar 15–20 dolar AS per review
- Ke depan, siklus tiga tahap pengembangan → review → hardening bisa menjadi hal yang umum
- Pengembangan: implementasi fitur dan iterasi berdasarkan umpan balik pengguna
- Review: dokumentasi, refactoring, dan peningkatan kualitas
- Hardening: menjalankan pencarian kerentanan otomatis sejauh anggaran memungkinkan
- Pada tahap pertama, waktu manusia menjadi faktor pembatas; pada tahap terakhir, biaya menjadi faktor pembatas utama
Struktur biaya dan batas keamanan
- Penulisan kode itu sendiri masih relatif murah, tetapi untuk memastikan keamanan, Anda harus membeli lebih banyak token daripada penyerang
- Bahkan jika efisiensi inferensi model meningkat, biaya penguatan keamanan ditentukan oleh nilai serangan, sehingga sulit mencapai penghematan biaya sepenuhnya
- Pada akhirnya, keamanan bergeser dari kreativitas teknis menjadi kompetisi sumber daya berbasis pasar
1 komentar
Komentar Hacker News
Akses ke codebase adalah kuncinya. Pemindaian keamanan berbasis LLM saat ini pada dasarnya setara dengan skrip bash sederhana yang menelusuri semua file sambil melempar prompt seperti “tolong cari kerentanan”
Namun jika pihak bertahan mengendalikan seluruh source, ini bisa bekerja jauh lebih efisien. Misalnya, hanya memindai file yang berubah per PR, atau mengalokasikan lebih banyak token ke kode yang sensitif terhadap keamanan. Penyerang harus memindai ulang dari awal setiap kali, tetapi pihak bertahan bisa menemukan semua potensi kerentanan lebih dulu dengan satu kali pemindaian
Pada akhirnya ada asimetri biaya, dan pihak bertahan lebih unggul dari sisi efisiensi. Penyerang harus menyelesaikan beberapa tahap rantai exploit, sedangkan pihak bertahan cukup memutus satu mata rantai terlemah
AI Security Institute (AISI) yang disebut dalam artikel menarik, jadi saya mencari tahu dan ternyata organisasi itu sebagian besar diisi orang-orang dari DeepMind atau OpenAI. Hampir tidak ada orang industri keamanan. Karena itu, kesimpulan bahwa “untuk memperkuat sistem kita harus memakai lebih banyak token” terdengar agak seperti logika yang berpusat pada industri AI. Saya juga bertanya-tanya kenapa alternatif seperti formal verification tidak disebut. Rasanya NVIDIA pun bisa memakai logika ini untuk menjual GPU
Kutipan Tony Hoare ini berkesan: “Ada dua cara mendesain software: membuatnya begitu sederhana sehingga jelas tidak punya cacat, atau begitu rumit sehingga cacatnya tidak terlihat”
Keamanan selalu merupakan permainan tentang seberapa banyak uang yang bersedia dikeluarkan lawan. Kemunculan LLM tidak mengubah prinsip dasarnya. Falsafah Karpathy tentang “copy over dependencies” juga sudah lama ada dalam pepatah Go. Prinsip bahwa “keamanan tidak bisa diperoleh lewat obscurity” juga fakta lama
Saya pada umumnya setuju dengan isi artikel. Kalimat “kita tidak dinilai dari kecerdikan” terasa agak berbahaya. Esensi cybersecurity tetap berada pada sistem manusia. Menghabiskan banyak waktu GPU memang perlu, tetapi pada akhirnya budaya dan disiplin keamanan organisasi yang menentukan menang atau kalah. Kita butuh tingkat disiplin seperti di industri nuklir atau penerbangan, yang biasanya baru muncul setelah kecelakaan besar
Dalam konteks terkait, tulisan ini dari setahun lalu hampir terasa seperti meramalkan situasi sekarang
Soal klaim bahwa “untuk memperkuat sistem kita harus memakai lebih banyak token daripada penyerang”, saya pernah membuat skrip sendiri untuk otomatisasi API Ticketmaster. Mereka memperkuat pertahanan dengan PerimeterX, tetapi saya bisa melewatinya dalam 3 hari. Belakangan saya juga membuat pendekatan serupa untuk melewati Cloudflare Turnstile milik ChatGPT.
Itu menjadi contoh bahwa produk keamanan bernilai puluhan juta dolar pada praktiknya bisa jadi tidak berguna
Postingan HN terkait
Saya penasaran apakah insiden keamanan yang ditemukan LLM benar-benar kerentanan baru, atau hanya perpanjangan dari pengetahuan keamanan yang sudah ada. Jika yang kedua, kenapa kita sendiri belum bisa menemukannya secara sistematis?
Alasan riset ini terlihat seperti Proof of Work adalah karena AISI mengatakan bahwa “semakin banyak token yang dipakai, hasilnya terus meningkat”. Artinya, diasumsikan tingkat keberhasilan serangan sebanding dengan konsumsi token. Namun eksperimennya adalah skenario penetrasi jaringan 32 langkah, dan hanya Mythos yang berhasil menuntaskannya. Pada pustaka kode yang sederhana, titik diminishing returns bisa datang jauh lebih cepat
Pada proyek open source, konsumsi token baik di pihak bertahan maupun penyerang bisa sama-sama tinggi, sehingga batas ini mungkin tercapai lebih cepat
Pada akhirnya pertanyaannya adalah ini — mana yang lebih murah untuk diamankan, codebase yang ditulis manusia, atau kode yang dihasilkan oleh pasukan agen
Melempar model ke seluruh codebase secara membabi buta seperti sekarang itu tidak efisien. Dari eksperimen yang saya lakukan, biaya turun drastis ketika model diarahkan untuk menelusuri source-to-sink trace secara terstruktur.
Sekarang kita memasuki era ketika sistem bisa memvisualisasikan konteks seluruh kode dan secara tepat menunjuk titik retak. Ini akan menjadi titik balik besar bagi peningkatan kualitas software.