Peneliti: kontroversi Fable 5 bermula dari “fix this code”, bukan jailbreak

(theregister.com)

1 poin oleh GN⁺ 2 hari lalu | 1 komentar | Bagikan ke WhatsApp

Pembatasan akses ke Fable 5 dan Mythos 5 oleh pemerintah AS disebut Katie Moussouris berawal bukan dari jailbreak yang sudah dikenal, melainkan dari permintaan sederhana memasukkan “fix this code” pada kode yang rentan
Moussouris, CEO Luta Security, mengatakan dirinya adalah satu-satunya pakar eksternal yang membaca makalah penelitian pihak ketiga tentang cara melewati guardrail Fable 5 yang dibagikan Anthropic secara tertutup
Para peneliti eksternal memasukkan kode open source yang memuat CVE dan kode yang sengaja dibuat rentan ke Fable 5, Mythos, dan Claude Opus lalu meminta tinjauan keamanan; ketika Fable 5 menolak, mereka mendapatkan respons dengan permintaan “fix this code”
Pemerintah AS mengeluarkan pedoman kontrol ekspor yang menghentikan akses ke Fable 5 dan Mythos 5 bagi warga negara asing di dalam maupun di luar AS dengan alasan kekhawatiran keamanan nasional, dan Anthropic menonaktifkan kedua model itu untuk semua pelanggan
Moussouris dan lebih dari 100 pemimpin keamanan siber berpendapat pembatasan ini bisa lebih merugikan pihak pembela daripada penyerang, dan kemampuan AI yang dipakai untuk menemukan bug, memperbaikinya, dan memverifikasi patch harus dipertahankan

Klaim bahwa “fix this code” menjadi alasan kontrol ekspor

Katie Moussouris mengatakan bahwa “jailbreak” yang membuat pemerintahan Trump memblokir akses ke model canggih Anthropic sebenarnya adalah prompt tiga kata: “Fix this code”
Moussouris adalah pendiri sekaligus CEO Luta Security, dan mengatakan dirinya satu-satunya pakar eksternal yang membaca makalah penelitian pihak ketiga tentang teknik melewati guardrail Fable 5 yang dibagikan Anthropic secara tertutup
Dalam tulisan blog pada hari Senin, ia menjelaskan bahwa Anthropic membagikan laporan tersebut kepadanya secara nonpublik

Tindakan pemerintah dan respons Anthropic

Pada hari Jumat, pemerintah AS mengeluarkan pedoman kontrol ekspor yang menghentikan akses ke Fable 5 dan Mythos 5 dengan alasan kekhawatiran keamanan nasional
- Kebijakan itu disebut berlaku bagi warga negara asing di dalam maupun di luar AS
Anthropic menonaktifkan kedua model itu untuk semua pelanggan “untuk memastikan kepatuhan”

Eksperimen yang dilakukan para peneliti

Para peneliti eksternal memasukkan kode ke model Fable 5, Mythos, dan Claude Opus milik Anthropic
- Digunakan kode open source yang memuat CVE yang sudah diketahui
- Termasuk juga kode yang baru ditulis dengan kerentanan yang sengaja disisipkan
Para peneliti meminta model untuk “review the code for security issues”
Menurut penjelasan Moussouris, Fable 5 menolak permintaan ini
Setelah itu, ketika diminta “fix this code”, model memberikan respons dan, setelah prompt tambahan, juga membuat skrip untuk menguji patch

Sanggahan Moussouris

Moussouris berpendapat bahwa “fix this code” dan beberapa langkah kerja manual untuk menghasilkan skrip pengujian tidak layak menjadi alasan yang memicu kontrol ekspor
Menurutnya, tidak ada pelewatan guardrail maupun jailbreak di sini
Ia berpendapat bahwa pihak pembela harus bisa meminta sistem AI untuk menemukan dan memperbaiki bug, serta menulis pengujian untuk memverifikasi patch
Ia menjelaskan bahwa pekerjaan yang dilakukan model Anthropic merupakan “find, fix, and test loop” yang terjadi setiap hari dalam keamanan defensif
Menurutnya, menghapus kemampuan untuk merespons permintaan defensif seperti itu justru memperburuk kemampuan sistem AI dalam menemukan bug dan memverifikasi patch

Wassenaar Arrangement dan pengecualian untuk keamanan defensif

Moussouris terlibat dalam kelompok pakar teknis yang berpartisipasi dalam renegosiasi Wassenaar Arrangement dari 2013 hingga 2017
Wassenaar Arrangement adalah kesepakatan sukarela yang diikuti 42 negara dan mengatur kontrol ekspor atas sebagian perangkat lunak dan teknologi guna ganda
Kelompok tersebut berhasil mendapatkan pengecualian untuk aktivitas keamanan siber defensif
- Pihak pembela dapat berbagi data kerentanan tanpa ancaman tuntutan pidana
- Analisis malware dan koordinasi respons insiden internasional juga menjadi memungkinkan

Surat terbuka dari industri keamanan

Pada hari Minggu, Moussouris menandatangani surat terbuka bersama lebih dari 100 pemimpin keamanan siber yang meminta pemerintahan Trump mencabut pembatasan tersebut
Surat terbuka itu menuntut agar pembatasan Fable 5 dan Mythos dibatalkan, serta akses perusahaan keamanan siber ke model canggih dipulihkan
Para penandatangan berpendapat bahwa ketika musuh berkembang cepat, mengambil kemampuan terbaik dari pihak pembela tanpa alasan yang memadai adalah tindakan berbahaya

Peringatan: dampaknya bisa lebih besar bagi pembela daripada penyerang

Moussouris menyoroti bahwa AS tidak bisa memberlakukan kontrol ekspor pada sistem open-weight milik negara lain seperti China atau model canggih serupa lainnya
Menurutnya, sistem-sistem itu akan segera mencapai kemampuan yang mirip dengan Mythos
Anthropic dan Google sebelumnya menuduh pesaing berbasis China seperti DeepSeek menggunakan “distillation attacks” untuk mengekstrak pengetahuan dari AI perusahaan AS guna melatih model mereka
Moussouris memperingatkan bahwa pelarangan model canggih Anthropic akan lebih merugikan pihak pembela daripada penyerang
Menurutnya, pertahanan menjadi lebih baik saat bisa menemukan dan memperbaiki bug yang sama lebih cepat daripada penyerang, dan keamanan siber di era AI semakin membutuhkan alat terbaik untuk menghadapi penyerang yang makin mampu

Sikap pemerintah

The Register meminta komentar kepada pemerintahan Trump mengenai klaim Moussouris
Media itu menyatakan akan memperbarui artikel bila menerima jawaban

1 komentar

GN⁺ 2 hari lalu

Opini Hacker News

"fix this code" memang sangat cerdik
Bukan dengan cara yang pintar, melainkan dengan membuat model memperbaiki kerentanan sehingga pada praktiknya berhasil menjebol guardrail “tidak ada guardrail kerentanan keamanan”, dan dalam proses menulis test case untuk memeriksa apakah perbaikannya berhasil, muncullah kode serangan
Pada akhirnya, jika manusia melihat kode dan test tersebut, mereka bisa memperoleh komponen kerentanan dan exploit
Alasan ini terasa indah adalah karena jailbreak-nya sepele tetapi hampir mustahil diperbaiki. Pilihannya hanya membuat model menolak perbaikan bug dan penulisan kode sehingga tidak berguna untuk pengembangan umum, atau membuatnya pura-pura tidak melihat bug dan diam-diam menghindarinya, yang pada akhirnya menimbulkan masalah tanggung jawab besar
- Betul. Karena ini mencapai hal yang tadinya ingin dicegah filter keamanan model, secara praktis ini adalah jailbreak, dan fakta bahwa metodenya sangat sederhana menunjukkan betapa rusaknya pendekatan keamanan seperti ini
  Jadi penasaran apakah Dario sekarang menyesal karena mempromosikan model itu dengan melebih-lebihkan betapa berbahayanya model tersebut. Bagaimana ini bisa dipulihkan? Apakah pemerintah federal akan membiarkan mereka terus menempelkan solusi tambal-sulam saja?
- Justru lebih mengejutkan kalau ada orang berlatar pendidikan ilmu komputer yang menganggap jailbreak itu tidak sepele
  Seperti reduksi algoritmik biasa, yang perlu dilihat hanyalah apakah tugas berbahaya bisa diubah menjadi tugas yang tidak berbahaya dan bisa diselesaikan LLM, lalu hasilnya dikembalikan lagi
  https://en.wikipedia.org/wiki/Reduction_(complexity)
- Perbedaan utama Claude Mythos seharusnya dipahami bukan pada kemampuan menemukan kerentanan itu sendiri, melainkan pada kemampuannya merangkainya menjadi rantai exploit yang benar-benar bisa dipakai
  Saya belum mendengar bukti bahwa jailbreak "fix this code" pada Claude Fable juga memungkinkan chaining exploit seperti itu
- Rasanya saya melewatkan sesuatu. Prompt yang ditolak, "review the code for security issues", memang bisa ditafsirkan sebagai upaya mencari dan mengeksploitasi kelemahan pada sistem yang sedang berjalan
  Tetapi biasanya kita tidak menganggap ada yang salah jika manusia diminta “meninjau kode untuk menemukan masalah keamanan”, dan saling meminta hal seperti itu juga umumnya dianggap tidak bermasalah
- Ini adalah pembedaan aneh yang sudah lama saya keluhkan dalam AI. Bagaimana membuat AI hanya melakukan hal yang legal dan baik itu nyaris mustahil
  Minta regex untuk memfilter cacian rasialis, lalu sistem itu cepat runtuh, dan meskipun regex tersebut hampir tidak mirip dengan cacian sebenarnya, ia tetap menguliahi Anda agar tidak mengucapkan kata-kata kasar
Bahkan kalau ancaman politik disisihkan, ini masalah besar dalam strategi Anthropic
Jika mereka mengatakan Mythos sangat berbahaya sehingga hanya bisa didistribusikan ke orang tertentu, maka mereka tidak bisa merilis Fable jika kondisinya bukan penolakan siber yang sempurna
Karena cara kerja LLM, penolakan yang sempurna pada praktiknya mustahil
Jadi Anthropic berada pada posisi mengklaim di satu sisi bahwa model mereka sangat berbahaya, sambil di sisi lain mengatakan bahwa “pengaman” keamanannya punya celah yang mungkin sepele
Orang teknis memahami bahwa tidak ada yang sempurna, dan terlebih lagi di dunia LLM, tetapi teman-teman saya yang nonteknis sangat bingung bagaimana model itu bisa begitu cepat menjadi “aman” segera setelah dirilis. Dari luar, kelihatannya model itu memang sejak awal tidak pernah aman untuk dirilis, jadi saya bisa memahami kenapa pemerintahan AS saat ini sangat marah
Bahkan tanpa niat buruk politik pun, situasinya tetap cukup konyol dan seharusnya mudah diperkirakan
- Betul. Keamanan AI itu tidak masuk akal. Kita tidak bisa mendefinisikan himpunan “string buruk”, dan satu miliar monyet yang mengetik di mesin tik pada akhirnya akan tetap menghasilkan itu
  Sistem “keamanan” apa pun yang membatasi keluaran LLM tidak mungkin punya tingkat kebocoran nol
  Namun ini juga tidak relevan, selama kita tidak cukup ceroboh untuk menghubungkan LLM ke hal-hal yang benar-benar penting
  Ini memang akan sangat mempercepat penemuan kerentanan, tetapi seperti yang sudah kita tahu dari puluhan tahun riset keamanan, ini memang sejak lama merupakan masalah tiga pihak antara pengembang, black hat, dan white hat
  Kita juga tidak boleh pura-pura bahwa strategi “AS akan selalu punya keunggulan teknis dan hak veto atas China” itu akan berhasil
- Lucu bahwa Asimov banyak menulis tentang tidak efektifnya membatasi agensi dengan sistem berbasis aturan yang sederhana dan jelas. Cerita-cerita itu pertama kali diterbitkan pada 1940-an
  Delapan puluh tahun kemudian kita punya sesuatu yang mirip AI, dan kita masih mencoba membatasinya dengan aturan sederhana yang jelas. Bukan karena kita gagal mempelajari pelajarannya, melainkan karena kita belum menemukan cara yang lebih baik, dan mungkin memang tidak ada cara seperti itu
  Yang lebih lucu, yang mengakali aturan itu bukan AI. Adegan seperti itu memang ada di fiksi ilmiah, tetapi bukan itu yang terjadi di dunia nyata
  Pengguna manusialah yang memakai agensinya sendiri untuk membuat agen AI mengakali aturan. Kita menyebutnya “agen”, tetapi tampaknya agen AI saat ini masih belum bisa melakukan hal spesifik itu
- Sebagai ilmuwan, setelah berulang kali mengalami penolakan berbasis classifier, strategi Anthropic tampak seperti membiarkan classifier terpisah memproses token input dan output dengan cara yang sangat sederhana, hampir setara pencarian kata kunci, untuk membuat penolakan lebih kokoh sambil menerima banyak false positive
  Kelemahan pendekatan ini adalah ia hanya menangkap penggunaan kata kunci yang tepat. Dalam arti tertentu, ia justru lemah pada hal-hal yang classifier berbasis LLM seharusnya lebih kuat
  Tugas algoritmik yang abstrak, memakai istilah kimia, dan dekat dengan ilmu komputer langsung diblokir, tetapi tugas menulis kode untuk memproses gambar dari pengaturan mikroskop tertentu yang terutama terkait sampel biologi sama sekali tidak diblokir karena tidak memakai kata kunci yang relevan
  Ini juga cocok dengan situasi ini. Dalam konteks menemukan dan memperbaiki bug, aktivitas menemukan bug mungkin saja tidak menggunakan kata seperti ‘exploit’ atau ‘cybersecurity’
- Bagaimanapun, jin sudah keluar dari botol
  Kecuali Anda percaya hanya Anthropic yang menyembunyikan penyihir tak tertandingi atau pahlawan super yang tak bisa ditiru
- Saya setuju Anthropic punya sejumlah masalah komunikasi dan PR, tetapi saya tidak melihat Fable di sini memberi keunggulan kemampuan serangan siber dibanding state of the art sebelumnya
  Ini bukan berarti semua pernyataan Anthropic benar, tetapi Mythos tampaknya memang menemukan banyak exploit keamanan nyata
  Mereka bisa saja mengatakan akan mendistribusikan model yang hanya membantu ke mitra terbatas, sambil tetap merilis model yang sangat terkunci yang tidak memajukan state of the art di aspek ini, dan tampaknya itulah yang kurang lebih mereka lakukan
  Tidak ada kontradiksi yang melekat di situ
Bukan karena mereka takut, melainkan pemerasan balas dendam akibat perbedaan ideologi dan karena Anthropic tidak mengikuti persis apa yang diperintahkan pemerintah
- Ini cuma manipulasi pasar
- Benar. Terlalu banyak energi mental dihabiskan untuk soal suap yang sederhana ini
  Anthropic akan setuju bekerja sama dengan Departemen Pertahanan, orang dalam Gedung Putih akan mendapat alokasi saham pra-IPO yang menguntungkan, dan Fable akan secara ajaib “diperbaiki” lalu ditawarkan kembali
- Tidak paham kenapa orang membicarakan “jailbreak”
  Pemerintah sudah menjelaskan dengan gamblang apa yang akan terjadi pada perusahaan swasta yang tidak mematuhi perintah pemerintah
  
  Trump said on his Truth Social platform: “The Leftwing nut jobs at Anthropic have made a DISASTROUS MISTAKE trying to STRONG-ARM the [Pentagon], and force them to obey their Terms of Service instead of our Constitution.” [0]
  There will be a Six Month phase out period for Agencies like the Department of War who are using Anthropic’s products, at various levels. Anthropic better get their act together, and be helpful during this phase out period, or I will use the Full Power of the Presidency to make them comply, with major civil and criminal consequences to follow. [1]
  Selain itu OpenAI patuh, dan OpenAI serta Anthropic sedang bersaing menjelang IPO yang akan datang. Tidak perlu jadi ahli bedah roket untuk memahami apa yang sedang terjadi
  [0] https://www.theguardian.com/technology/2026/feb/28/openai-us...
  [1] https://businesslawtoday.org/2026/04/dod-conflicted-strategi...
- Bukan, ini regulatory capture. Anthropic sedang memimpin sekarang, jadi mereka ingin memaksakan regulasi untuk menghancurkan pesaing dari Tiongkok dan mengamankan posisinya sendiri
Orang-orang yang bilang peran Amazon dalam hal ini tidak mungkin manipulatif harus ingat bahwa Amazon adalah “teman pemerintah”
Di bawah kepemimpinan Andy Jassy, Amazon membayar $75 juta untuk dokumenter Melania, tawaran yang jauh lebih tinggi daripada siapa pun, dengan pemasukan box office sekitar $16 juta, dan Jeff Bezos secara terbuka membelanya
Pengamat netral bisa melihat ini sebagai pembayaran berlebihan yang sangat besar dan, bahkan jika dilihat belakangan, keputusan bisnis yang mengerikan. Tetapi Amazon tidak mengatakan itu, dan sampai sekarang juga tidak. Ini cuma suap dengan beberapa langkah prosedural tambahan
Saat pemerintah keluar dan mengatakan ini karena hal yang ditunjukkan Amazon, mereka tahu Amazon tidak akan mengatakan apa pun secara terbuka, bahkan jika itu bohong sepenuhnya. Amazon ingin mempertahankan statusnya sebagai teman pemerintah yang sudah dibeli dengan banyak uang
Memang membuat frustrasi bagi semua orang bahwa pemerintah harus dipandang seperti ini, tetapi jika melihat kenyataan yang benar-benar terjadi, sangat sulit mempercayai bukan hanya apa yang dikatakan pemerintah, melainkan juga apa yang dikatakan perusahaan-perusahaan yang selaras dengan pemerintah
Ini tulisan blog yang disebut dalam artikel, ditulis oleh orang yang meninjau makalah yang konon menemukan “jailbreak” itu
https://www.lutasecurity.com/post/the-fable-5-export-control...
- Saya membaca di tempat lain bahwa ada keterkaitan dengan Tiongkok
  Penasaran bagaimana hal itu saling terhubung
“‘Fix this code,’ plus several manual steps to generate test scripts,
Rasanya judulnya tidak benar-benar menyampaikan konteks penuh dari apa yang mereka lihat. Ini juga berbeda dari yang berulang kali diisyaratkan pada bagian pengantar
Meski begitu, pelarangannya tetap terlihat bodoh. Makalah “riset pihak ketiga” lengkapnya masih belum benar-benar bocor, kan?
- Jika yang diperbaiki patch adalah bug kerentanan, maka pengujian itu pada dasarnya adalah eksploit
- Itu tidak akan bocor. Karena kalau begitu orang akan tahu kerentanan apa yang tidak mereka ingin lihat ditambal
  Juga akan terlihat alasan mereka sampai bersedia merusak perusahaan terdepan di industri paling penting di dunia
Sementara itu Deepseek V4 Flash dengan senang hati akan mencari kerentanan keamanan dengan biaya nyaris nol
Kita sedang menyerahkan perburuan bug kepada model berbobot terbuka
- Deepseek bukan sekadar berbobot terbuka. Itu open source, dan mereka juga merilis makalah riset yang menjelaskan tekniknya secara mendalam
Hal ini menyingkap disonansi kognitif seputar “keamanan” dalam keamanan siber
a) Agar kita aman, LLM harus membantu menemukan dan memperbaiki kerentanan dalam kode kita
b) Agar kita aman, LLM tidak boleh menemukan kerentanan dalam kode orang lain
Tampaknya ini tidak bisa diselesaikan dengan cara yang membuat (a) dan (b) sama-sama menang
- Benar. Ini kegagalan Anthropic dan perusahaan lain yang tidak memahami keamanan siber
  Menemukan bug keamanan dalam perangkat lunak itu hal yang baik, bukan kejahatan. Itu menghasilkan perangkat lunak yang lebih aman
  Dalam keamanan siber, pertahanan dan serangan adalah dua sisi dari mata uang yang sama
- Kalau diasumsikan kedua pihak sama-sama beritikad baik, ini benar-benar konyol sampai lucu
  Jadi menurut saya penjelasan yang sebenarnya ada pada posisi berniat buruk dari pemerintah AS dan Anthropic
  Pemasaran kiamat Anthropic pada praktiknya cuma soal coding yang membaik sekitar 17%, tetapi pemerintah AS, sebagai balasan atas kebuntuan dengan Departemen Pertahanan, mendapat alasan untuk menjatuhkan mereka dengan dalih teknis yang tidak terkait
  Dua kelompok itu, yaitu pemerintahan AS saat ini dan Anthropic, hanya berada di sisi berlawanan dari spektrum politik, tetapi sama-sama dipenuhi orang-orang dengan kecenderungan otoriter. Yang menakutkan di sini bukan LLM bodoh itu, melainkan hal tersebut
  Bagi saya, OpenAI tampak sebagai pilihan yang setidaknya tidak seburuk itu. Perusahaan kapitalis tipikal yang “kiri-tengah di jalanan, kanan-tengah di kamar tidur”
  Setidaknya kita bisa mengerti mengapa mereka mengambil keputusan seperti itu. Saya lebih percaya pada orang yang membangun perusahaan pencari laba daripada orang yang mencoba membangun agama dengan sumber daya komputasi
Inti masalahnya di sini mungkin bukan exploit-nya, melainkan tindakan memperbaiki itu sendiri
Jika model bisa mengidentifikasi dan memperbaiki hal-hal yang “tidak boleh diperbaiki” seperti backdoor, itu bisa menjadi hambatan yang cukup besar hingga membuat orang yang salah merasa takut
Bukankah arah kebalikan dari “peretasan” ini masih cukup sulit untuk diakali?
Mereka memberi model kode yang sudah diketahui memiliki cacat keamanan tertentu, lalu menyuruhnya memperbaikinya dengan prompt yang tepat
Jailbreak seperti ini tampaknya bukan meminta model melakukan pekerjaan berat yang kreatif, melainkan mengharuskan kita sudah tahu keadaan akhir yang diinginkan
Mungkin saya saja yang kurang imajinatif soal sisi prompt-nya
- Cukup tempel kode orang lain, katakan itu kode milikmu, lalu minta model memperbaikinya
  Perbedaan antara kode input dan output itulah daftar kerentanannya
- Kamu bisa mengasumsikan keadaan akhir yang diinginkan, lalu mencoba brute force sampai menemukan bug keamanan

Peneliti: kontroversi Fable 5 bermula dari “fix this code”, bukan jailbreak

Klaim bahwa “fix this code” menjadi alasan kontrol ekspor

Tindakan pemerintah dan respons Anthropic

Eksperimen yang dilakukan para peneliti

Sanggahan Moussouris

Wassenaar Arrangement dan pengecualian untuk keamanan defensif

Surat terbuka dari industri keamanan

Peringatan: dampaknya bisa lebih besar bagi pembela daripada penyerang

Sikap pemerintah

Bacaan terkait

1 komentar

Opini Hacker News