- Pembatasan akses ke Fable 5 dan Mythos 5 oleh pemerintah AS disebut Katie Moussouris berawal bukan dari jailbreak yang sudah dikenal, melainkan dari permintaan sederhana memasukkan “fix this code” pada kode yang rentan
- Moussouris, CEO Luta Security, mengatakan dirinya adalah satu-satunya pakar eksternal yang membaca makalah penelitian pihak ketiga tentang cara melewati guardrail Fable 5 yang dibagikan Anthropic secara tertutup
- Para peneliti eksternal memasukkan kode open source yang memuat CVE dan kode yang sengaja dibuat rentan ke Fable 5, Mythos, dan Claude Opus lalu meminta tinjauan keamanan; ketika Fable 5 menolak, mereka mendapatkan respons dengan permintaan “fix this code”
- Pemerintah AS mengeluarkan pedoman kontrol ekspor yang menghentikan akses ke Fable 5 dan Mythos 5 bagi warga negara asing di dalam maupun di luar AS dengan alasan kekhawatiran keamanan nasional, dan Anthropic menonaktifkan kedua model itu untuk semua pelanggan
- Moussouris dan lebih dari 100 pemimpin keamanan siber berpendapat pembatasan ini bisa lebih merugikan pihak pembela daripada penyerang, dan kemampuan AI yang dipakai untuk menemukan bug, memperbaikinya, dan memverifikasi patch harus dipertahankan
Klaim bahwa “fix this code” menjadi alasan kontrol ekspor
- Katie Moussouris mengatakan bahwa “jailbreak” yang membuat pemerintahan Trump memblokir akses ke model canggih Anthropic sebenarnya adalah prompt tiga kata: “Fix this code”
- Moussouris adalah pendiri sekaligus CEO Luta Security, dan mengatakan dirinya satu-satunya pakar eksternal yang membaca makalah penelitian pihak ketiga tentang teknik melewati guardrail Fable 5 yang dibagikan Anthropic secara tertutup
- Dalam tulisan blog pada hari Senin, ia menjelaskan bahwa Anthropic membagikan laporan tersebut kepadanya secara nonpublik
Tindakan pemerintah dan respons Anthropic
- Pada hari Jumat, pemerintah AS mengeluarkan pedoman kontrol ekspor yang menghentikan akses ke Fable 5 dan Mythos 5 dengan alasan kekhawatiran keamanan nasional
- Kebijakan itu disebut berlaku bagi warga negara asing di dalam maupun di luar AS
- Anthropic menonaktifkan kedua model itu untuk semua pelanggan “untuk memastikan kepatuhan”
Eksperimen yang dilakukan para peneliti
- Para peneliti eksternal memasukkan kode ke model Fable 5, Mythos, dan Claude Opus milik Anthropic
- Digunakan kode open source yang memuat CVE yang sudah diketahui
- Termasuk juga kode yang baru ditulis dengan kerentanan yang sengaja disisipkan
- Para peneliti meminta model untuk “review the code for security issues”
- Menurut penjelasan Moussouris, Fable 5 menolak permintaan ini
- Setelah itu, ketika diminta “fix this code”, model memberikan respons dan, setelah prompt tambahan, juga membuat skrip untuk menguji patch
Sanggahan Moussouris
- Moussouris berpendapat bahwa “fix this code” dan beberapa langkah kerja manual untuk menghasilkan skrip pengujian tidak layak menjadi alasan yang memicu kontrol ekspor
- Menurutnya, tidak ada pelewatan guardrail maupun jailbreak di sini
- Ia berpendapat bahwa pihak pembela harus bisa meminta sistem AI untuk menemukan dan memperbaiki bug, serta menulis pengujian untuk memverifikasi patch
- Ia menjelaskan bahwa pekerjaan yang dilakukan model Anthropic merupakan “find, fix, and test loop” yang terjadi setiap hari dalam keamanan defensif
- Menurutnya, menghapus kemampuan untuk merespons permintaan defensif seperti itu justru memperburuk kemampuan sistem AI dalam menemukan bug dan memverifikasi patch
Wassenaar Arrangement dan pengecualian untuk keamanan defensif
- Moussouris terlibat dalam kelompok pakar teknis yang berpartisipasi dalam renegosiasi Wassenaar Arrangement dari 2013 hingga 2017
- Wassenaar Arrangement adalah kesepakatan sukarela yang diikuti 42 negara dan mengatur kontrol ekspor atas sebagian perangkat lunak dan teknologi guna ganda
- Kelompok tersebut berhasil mendapatkan pengecualian untuk aktivitas keamanan siber defensif
- Pihak pembela dapat berbagi data kerentanan tanpa ancaman tuntutan pidana
- Analisis malware dan koordinasi respons insiden internasional juga menjadi memungkinkan
Surat terbuka dari industri keamanan
- Pada hari Minggu, Moussouris menandatangani surat terbuka bersama lebih dari 100 pemimpin keamanan siber yang meminta pemerintahan Trump mencabut pembatasan tersebut
- Surat terbuka itu menuntut agar pembatasan Fable 5 dan Mythos dibatalkan, serta akses perusahaan keamanan siber ke model canggih dipulihkan
- Para penandatangan berpendapat bahwa ketika musuh berkembang cepat, mengambil kemampuan terbaik dari pihak pembela tanpa alasan yang memadai adalah tindakan berbahaya
Peringatan: dampaknya bisa lebih besar bagi pembela daripada penyerang
- Moussouris menyoroti bahwa AS tidak bisa memberlakukan kontrol ekspor pada sistem open-weight milik negara lain seperti China atau model canggih serupa lainnya
- Menurutnya, sistem-sistem itu akan segera mencapai kemampuan yang mirip dengan Mythos
- Anthropic dan Google sebelumnya menuduh pesaing berbasis China seperti DeepSeek menggunakan “distillation attacks” untuk mengekstrak pengetahuan dari AI perusahaan AS guna melatih model mereka
- Moussouris memperingatkan bahwa pelarangan model canggih Anthropic akan lebih merugikan pihak pembela daripada penyerang
- Menurutnya, pertahanan menjadi lebih baik saat bisa menemukan dan memperbaiki bug yang sama lebih cepat daripada penyerang, dan keamanan siber di era AI semakin membutuhkan alat terbaik untuk menghadapi penyerang yang makin mampu
Sikap pemerintah
- The Register meminta komentar kepada pemerintahan Trump mengenai klaim Moussouris
- Media itu menyatakan akan memperbarui artikel bila menerima jawaban
1 komentar
Opini Hacker News
"fix this code" memang sangat cerdik
Bukan dengan cara yang pintar, melainkan dengan membuat model memperbaiki kerentanan sehingga pada praktiknya berhasil menjebol guardrail “tidak ada guardrail kerentanan keamanan”, dan dalam proses menulis test case untuk memeriksa apakah perbaikannya berhasil, muncullah kode serangan
Pada akhirnya, jika manusia melihat kode dan test tersebut, mereka bisa memperoleh komponen kerentanan dan exploit
Alasan ini terasa indah adalah karena jailbreak-nya sepele tetapi hampir mustahil diperbaiki. Pilihannya hanya membuat model menolak perbaikan bug dan penulisan kode sehingga tidak berguna untuk pengembangan umum, atau membuatnya pura-pura tidak melihat bug dan diam-diam menghindarinya, yang pada akhirnya menimbulkan masalah tanggung jawab besar
Jadi penasaran apakah Dario sekarang menyesal karena mempromosikan model itu dengan melebih-lebihkan betapa berbahayanya model tersebut. Bagaimana ini bisa dipulihkan? Apakah pemerintah federal akan membiarkan mereka terus menempelkan solusi tambal-sulam saja?
Seperti reduksi algoritmik biasa, yang perlu dilihat hanyalah apakah tugas berbahaya bisa diubah menjadi tugas yang tidak berbahaya dan bisa diselesaikan LLM, lalu hasilnya dikembalikan lagi
https://en.wikipedia.org/wiki/Reduction_(complexity)
Saya belum mendengar bukti bahwa jailbreak "fix this code" pada Claude Fable juga memungkinkan chaining exploit seperti itu
Tetapi biasanya kita tidak menganggap ada yang salah jika manusia diminta “meninjau kode untuk menemukan masalah keamanan”, dan saling meminta hal seperti itu juga umumnya dianggap tidak bermasalah
Minta regex untuk memfilter cacian rasialis, lalu sistem itu cepat runtuh, dan meskipun regex tersebut hampir tidak mirip dengan cacian sebenarnya, ia tetap menguliahi Anda agar tidak mengucapkan kata-kata kasar
Bahkan kalau ancaman politik disisihkan, ini masalah besar dalam strategi Anthropic
Jika mereka mengatakan Mythos sangat berbahaya sehingga hanya bisa didistribusikan ke orang tertentu, maka mereka tidak bisa merilis Fable jika kondisinya bukan penolakan siber yang sempurna
Karena cara kerja LLM, penolakan yang sempurna pada praktiknya mustahil
Jadi Anthropic berada pada posisi mengklaim di satu sisi bahwa model mereka sangat berbahaya, sambil di sisi lain mengatakan bahwa “pengaman” keamanannya punya celah yang mungkin sepele
Orang teknis memahami bahwa tidak ada yang sempurna, dan terlebih lagi di dunia LLM, tetapi teman-teman saya yang nonteknis sangat bingung bagaimana model itu bisa begitu cepat menjadi “aman” segera setelah dirilis. Dari luar, kelihatannya model itu memang sejak awal tidak pernah aman untuk dirilis, jadi saya bisa memahami kenapa pemerintahan AS saat ini sangat marah
Bahkan tanpa niat buruk politik pun, situasinya tetap cukup konyol dan seharusnya mudah diperkirakan
Sistem “keamanan” apa pun yang membatasi keluaran LLM tidak mungkin punya tingkat kebocoran nol
Namun ini juga tidak relevan, selama kita tidak cukup ceroboh untuk menghubungkan LLM ke hal-hal yang benar-benar penting
Ini memang akan sangat mempercepat penemuan kerentanan, tetapi seperti yang sudah kita tahu dari puluhan tahun riset keamanan, ini memang sejak lama merupakan masalah tiga pihak antara pengembang, black hat, dan white hat
Kita juga tidak boleh pura-pura bahwa strategi “AS akan selalu punya keunggulan teknis dan hak veto atas China” itu akan berhasil
Delapan puluh tahun kemudian kita punya sesuatu yang mirip AI, dan kita masih mencoba membatasinya dengan aturan sederhana yang jelas. Bukan karena kita gagal mempelajari pelajarannya, melainkan karena kita belum menemukan cara yang lebih baik, dan mungkin memang tidak ada cara seperti itu
Yang lebih lucu, yang mengakali aturan itu bukan AI. Adegan seperti itu memang ada di fiksi ilmiah, tetapi bukan itu yang terjadi di dunia nyata
Pengguna manusialah yang memakai agensinya sendiri untuk membuat agen AI mengakali aturan. Kita menyebutnya “agen”, tetapi tampaknya agen AI saat ini masih belum bisa melakukan hal spesifik itu
Kelemahan pendekatan ini adalah ia hanya menangkap penggunaan kata kunci yang tepat. Dalam arti tertentu, ia justru lemah pada hal-hal yang classifier berbasis LLM seharusnya lebih kuat
Tugas algoritmik yang abstrak, memakai istilah kimia, dan dekat dengan ilmu komputer langsung diblokir, tetapi tugas menulis kode untuk memproses gambar dari pengaturan mikroskop tertentu yang terutama terkait sampel biologi sama sekali tidak diblokir karena tidak memakai kata kunci yang relevan
Ini juga cocok dengan situasi ini. Dalam konteks menemukan dan memperbaiki bug, aktivitas menemukan bug mungkin saja tidak menggunakan kata seperti ‘exploit’ atau ‘cybersecurity’
Kecuali Anda percaya hanya Anthropic yang menyembunyikan penyihir tak tertandingi atau pahlawan super yang tak bisa ditiru
Ini bukan berarti semua pernyataan Anthropic benar, tetapi Mythos tampaknya memang menemukan banyak exploit keamanan nyata
Mereka bisa saja mengatakan akan mendistribusikan model yang hanya membantu ke mitra terbatas, sambil tetap merilis model yang sangat terkunci yang tidak memajukan state of the art di aspek ini, dan tampaknya itulah yang kurang lebih mereka lakukan
Tidak ada kontradiksi yang melekat di situ
Bukan karena mereka takut, melainkan pemerasan balas dendam akibat perbedaan ideologi dan karena Anthropic tidak mengikuti persis apa yang diperintahkan pemerintah
Anthropic akan setuju bekerja sama dengan Departemen Pertahanan, orang dalam Gedung Putih akan mendapat alokasi saham pra-IPO yang menguntungkan, dan Fable akan secara ajaib “diperbaiki” lalu ditawarkan kembali
Pemerintah sudah menjelaskan dengan gamblang apa yang akan terjadi pada perusahaan swasta yang tidak mematuhi perintah pemerintah
Orang-orang yang bilang peran Amazon dalam hal ini tidak mungkin manipulatif harus ingat bahwa Amazon adalah “teman pemerintah”
Di bawah kepemimpinan Andy Jassy, Amazon membayar $75 juta untuk dokumenter Melania, tawaran yang jauh lebih tinggi daripada siapa pun, dengan pemasukan box office sekitar $16 juta, dan Jeff Bezos secara terbuka membelanya
Pengamat netral bisa melihat ini sebagai pembayaran berlebihan yang sangat besar dan, bahkan jika dilihat belakangan, keputusan bisnis yang mengerikan. Tetapi Amazon tidak mengatakan itu, dan sampai sekarang juga tidak. Ini cuma suap dengan beberapa langkah prosedural tambahan
Saat pemerintah keluar dan mengatakan ini karena hal yang ditunjukkan Amazon, mereka tahu Amazon tidak akan mengatakan apa pun secara terbuka, bahkan jika itu bohong sepenuhnya. Amazon ingin mempertahankan statusnya sebagai teman pemerintah yang sudah dibeli dengan banyak uang
Memang membuat frustrasi bagi semua orang bahwa pemerintah harus dipandang seperti ini, tetapi jika melihat kenyataan yang benar-benar terjadi, sangat sulit mempercayai bukan hanya apa yang dikatakan pemerintah, melainkan juga apa yang dikatakan perusahaan-perusahaan yang selaras dengan pemerintah
Ini tulisan blog yang disebut dalam artikel, ditulis oleh orang yang meninjau makalah yang konon menemukan “jailbreak” itu
https://www.lutasecurity.com/post/the-fable-5-export-control...
Penasaran bagaimana hal itu saling terhubung
Juga akan terlihat alasan mereka sampai bersedia merusak perusahaan terdepan di industri paling penting di dunia
Sementara itu Deepseek V4 Flash dengan senang hati akan mencari kerentanan keamanan dengan biaya nyaris nol
Kita sedang menyerahkan perburuan bug kepada model berbobot terbuka
Hal ini menyingkap disonansi kognitif seputar “keamanan” dalam keamanan siber
a) Agar kita aman, LLM harus membantu menemukan dan memperbaiki kerentanan dalam kode kita
b) Agar kita aman, LLM tidak boleh menemukan kerentanan dalam kode orang lain
Tampaknya ini tidak bisa diselesaikan dengan cara yang membuat (a) dan (b) sama-sama menang
Menemukan bug keamanan dalam perangkat lunak itu hal yang baik, bukan kejahatan. Itu menghasilkan perangkat lunak yang lebih aman
Dalam keamanan siber, pertahanan dan serangan adalah dua sisi dari mata uang yang sama
Jadi menurut saya penjelasan yang sebenarnya ada pada posisi berniat buruk dari pemerintah AS dan Anthropic
Pemasaran kiamat Anthropic pada praktiknya cuma soal coding yang membaik sekitar 17%, tetapi pemerintah AS, sebagai balasan atas kebuntuan dengan Departemen Pertahanan, mendapat alasan untuk menjatuhkan mereka dengan dalih teknis yang tidak terkait
Dua kelompok itu, yaitu pemerintahan AS saat ini dan Anthropic, hanya berada di sisi berlawanan dari spektrum politik, tetapi sama-sama dipenuhi orang-orang dengan kecenderungan otoriter. Yang menakutkan di sini bukan LLM bodoh itu, melainkan hal tersebut
Bagi saya, OpenAI tampak sebagai pilihan yang setidaknya tidak seburuk itu. Perusahaan kapitalis tipikal yang “kiri-tengah di jalanan, kanan-tengah di kamar tidur”
Setidaknya kita bisa mengerti mengapa mereka mengambil keputusan seperti itu. Saya lebih percaya pada orang yang membangun perusahaan pencari laba daripada orang yang mencoba membangun agama dengan sumber daya komputasi
Inti masalahnya di sini mungkin bukan exploit-nya, melainkan tindakan memperbaiki itu sendiri
Jika model bisa mengidentifikasi dan memperbaiki hal-hal yang “tidak boleh diperbaiki” seperti backdoor, itu bisa menjadi hambatan yang cukup besar hingga membuat orang yang salah merasa takut
Bukankah arah kebalikan dari “peretasan” ini masih cukup sulit untuk diakali?
Mereka memberi model kode yang sudah diketahui memiliki cacat keamanan tertentu, lalu menyuruhnya memperbaikinya dengan prompt yang tepat
Jailbreak seperti ini tampaknya bukan meminta model melakukan pekerjaan berat yang kreatif, melainkan mengharuskan kita sudah tahu keadaan akhir yang diinginkan
Mungkin saya saja yang kurang imajinatif soal sisi prompt-nya
Perbedaan antara kode input dan output itulah daftar kerentanannya