1 poin oleh GN⁺ 2 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Pembatasan akses ke Fable 5 dan Mythos 5 oleh pemerintah AS disebut Katie Moussouris berawal bukan dari jailbreak yang sudah dikenal, melainkan dari permintaan sederhana memasukkan “fix this code” pada kode yang rentan
  • Moussouris, CEO Luta Security, mengatakan dirinya adalah satu-satunya pakar eksternal yang membaca makalah penelitian pihak ketiga tentang cara melewati guardrail Fable 5 yang dibagikan Anthropic secara tertutup
  • Para peneliti eksternal memasukkan kode open source yang memuat CVE dan kode yang sengaja dibuat rentan ke Fable 5, Mythos, dan Claude Opus lalu meminta tinjauan keamanan; ketika Fable 5 menolak, mereka mendapatkan respons dengan permintaan “fix this code”
  • Pemerintah AS mengeluarkan pedoman kontrol ekspor yang menghentikan akses ke Fable 5 dan Mythos 5 bagi warga negara asing di dalam maupun di luar AS dengan alasan kekhawatiran keamanan nasional, dan Anthropic menonaktifkan kedua model itu untuk semua pelanggan
  • Moussouris dan lebih dari 100 pemimpin keamanan siber berpendapat pembatasan ini bisa lebih merugikan pihak pembela daripada penyerang, dan kemampuan AI yang dipakai untuk menemukan bug, memperbaikinya, dan memverifikasi patch harus dipertahankan

Klaim bahwa “fix this code” menjadi alasan kontrol ekspor

  • Katie Moussouris mengatakan bahwa “jailbreak” yang membuat pemerintahan Trump memblokir akses ke model canggih Anthropic sebenarnya adalah prompt tiga kata: “Fix this code”
  • Moussouris adalah pendiri sekaligus CEO Luta Security, dan mengatakan dirinya satu-satunya pakar eksternal yang membaca makalah penelitian pihak ketiga tentang teknik melewati guardrail Fable 5 yang dibagikan Anthropic secara tertutup
  • Dalam tulisan blog pada hari Senin, ia menjelaskan bahwa Anthropic membagikan laporan tersebut kepadanya secara nonpublik

Tindakan pemerintah dan respons Anthropic

  • Pada hari Jumat, pemerintah AS mengeluarkan pedoman kontrol ekspor yang menghentikan akses ke Fable 5 dan Mythos 5 dengan alasan kekhawatiran keamanan nasional
    • Kebijakan itu disebut berlaku bagi warga negara asing di dalam maupun di luar AS
  • Anthropic menonaktifkan kedua model itu untuk semua pelanggan “untuk memastikan kepatuhan

Eksperimen yang dilakukan para peneliti

  • Para peneliti eksternal memasukkan kode ke model Fable 5, Mythos, dan Claude Opus milik Anthropic
    • Digunakan kode open source yang memuat CVE yang sudah diketahui
    • Termasuk juga kode yang baru ditulis dengan kerentanan yang sengaja disisipkan
  • Para peneliti meminta model untuk “review the code for security issues”
  • Menurut penjelasan Moussouris, Fable 5 menolak permintaan ini
  • Setelah itu, ketika diminta “fix this code”, model memberikan respons dan, setelah prompt tambahan, juga membuat skrip untuk menguji patch

Sanggahan Moussouris

  • Moussouris berpendapat bahwa “fix this code” dan beberapa langkah kerja manual untuk menghasilkan skrip pengujian tidak layak menjadi alasan yang memicu kontrol ekspor
  • Menurutnya, tidak ada pelewatan guardrail maupun jailbreak di sini
  • Ia berpendapat bahwa pihak pembela harus bisa meminta sistem AI untuk menemukan dan memperbaiki bug, serta menulis pengujian untuk memverifikasi patch
  • Ia menjelaskan bahwa pekerjaan yang dilakukan model Anthropic merupakan “find, fix, and test loop” yang terjadi setiap hari dalam keamanan defensif
  • Menurutnya, menghapus kemampuan untuk merespons permintaan defensif seperti itu justru memperburuk kemampuan sistem AI dalam menemukan bug dan memverifikasi patch

Wassenaar Arrangement dan pengecualian untuk keamanan defensif

  • Moussouris terlibat dalam kelompok pakar teknis yang berpartisipasi dalam renegosiasi Wassenaar Arrangement dari 2013 hingga 2017
  • Wassenaar Arrangement adalah kesepakatan sukarela yang diikuti 42 negara dan mengatur kontrol ekspor atas sebagian perangkat lunak dan teknologi guna ganda
  • Kelompok tersebut berhasil mendapatkan pengecualian untuk aktivitas keamanan siber defensif
    • Pihak pembela dapat berbagi data kerentanan tanpa ancaman tuntutan pidana
    • Analisis malware dan koordinasi respons insiden internasional juga menjadi memungkinkan

Surat terbuka dari industri keamanan

  • Pada hari Minggu, Moussouris menandatangani surat terbuka bersama lebih dari 100 pemimpin keamanan siber yang meminta pemerintahan Trump mencabut pembatasan tersebut
  • Surat terbuka itu menuntut agar pembatasan Fable 5 dan Mythos dibatalkan, serta akses perusahaan keamanan siber ke model canggih dipulihkan
  • Para penandatangan berpendapat bahwa ketika musuh berkembang cepat, mengambil kemampuan terbaik dari pihak pembela tanpa alasan yang memadai adalah tindakan berbahaya

Peringatan: dampaknya bisa lebih besar bagi pembela daripada penyerang

  • Moussouris menyoroti bahwa AS tidak bisa memberlakukan kontrol ekspor pada sistem open-weight milik negara lain seperti China atau model canggih serupa lainnya
  • Menurutnya, sistem-sistem itu akan segera mencapai kemampuan yang mirip dengan Mythos
  • Anthropic dan Google sebelumnya menuduh pesaing berbasis China seperti DeepSeek menggunakan “distillation attacks” untuk mengekstrak pengetahuan dari AI perusahaan AS guna melatih model mereka
  • Moussouris memperingatkan bahwa pelarangan model canggih Anthropic akan lebih merugikan pihak pembela daripada penyerang
  • Menurutnya, pertahanan menjadi lebih baik saat bisa menemukan dan memperbaiki bug yang sama lebih cepat daripada penyerang, dan keamanan siber di era AI semakin membutuhkan alat terbaik untuk menghadapi penyerang yang makin mampu

Sikap pemerintah

  • The Register meminta komentar kepada pemerintahan Trump mengenai klaim Moussouris
  • Media itu menyatakan akan memperbarui artikel bila menerima jawaban

1 komentar

 
GN⁺ 2 hari lalu
Opini Hacker News
  • "fix this code" memang sangat cerdik
    Bukan dengan cara yang pintar, melainkan dengan membuat model memperbaiki kerentanan sehingga pada praktiknya berhasil menjebol guardrail “tidak ada guardrail kerentanan keamanan”, dan dalam proses menulis test case untuk memeriksa apakah perbaikannya berhasil, muncullah kode serangan
    Pada akhirnya, jika manusia melihat kode dan test tersebut, mereka bisa memperoleh komponen kerentanan dan exploit
    Alasan ini terasa indah adalah karena jailbreak-nya sepele tetapi hampir mustahil diperbaiki. Pilihannya hanya membuat model menolak perbaikan bug dan penulisan kode sehingga tidak berguna untuk pengembangan umum, atau membuatnya pura-pura tidak melihat bug dan diam-diam menghindarinya, yang pada akhirnya menimbulkan masalah tanggung jawab besar

    • Betul. Karena ini mencapai hal yang tadinya ingin dicegah filter keamanan model, secara praktis ini adalah jailbreak, dan fakta bahwa metodenya sangat sederhana menunjukkan betapa rusaknya pendekatan keamanan seperti ini
      Jadi penasaran apakah Dario sekarang menyesal karena mempromosikan model itu dengan melebih-lebihkan betapa berbahayanya model tersebut. Bagaimana ini bisa dipulihkan? Apakah pemerintah federal akan membiarkan mereka terus menempelkan solusi tambal-sulam saja?
    • Justru lebih mengejutkan kalau ada orang berlatar pendidikan ilmu komputer yang menganggap jailbreak itu tidak sepele
      Seperti reduksi algoritmik biasa, yang perlu dilihat hanyalah apakah tugas berbahaya bisa diubah menjadi tugas yang tidak berbahaya dan bisa diselesaikan LLM, lalu hasilnya dikembalikan lagi
      https://en.wikipedia.org/wiki/Reduction_(complexity)
    • Perbedaan utama Claude Mythos seharusnya dipahami bukan pada kemampuan menemukan kerentanan itu sendiri, melainkan pada kemampuannya merangkainya menjadi rantai exploit yang benar-benar bisa dipakai
      Saya belum mendengar bukti bahwa jailbreak "fix this code" pada Claude Fable juga memungkinkan chaining exploit seperti itu
    • Rasanya saya melewatkan sesuatu. Prompt yang ditolak, "review the code for security issues", memang bisa ditafsirkan sebagai upaya mencari dan mengeksploitasi kelemahan pada sistem yang sedang berjalan
      Tetapi biasanya kita tidak menganggap ada yang salah jika manusia diminta “meninjau kode untuk menemukan masalah keamanan”, dan saling meminta hal seperti itu juga umumnya dianggap tidak bermasalah
    • Ini adalah pembedaan aneh yang sudah lama saya keluhkan dalam AI. Bagaimana membuat AI hanya melakukan hal yang legal dan baik itu nyaris mustahil
      Minta regex untuk memfilter cacian rasialis, lalu sistem itu cepat runtuh, dan meskipun regex tersebut hampir tidak mirip dengan cacian sebenarnya, ia tetap menguliahi Anda agar tidak mengucapkan kata-kata kasar
  • Bahkan kalau ancaman politik disisihkan, ini masalah besar dalam strategi Anthropic
    Jika mereka mengatakan Mythos sangat berbahaya sehingga hanya bisa didistribusikan ke orang tertentu, maka mereka tidak bisa merilis Fable jika kondisinya bukan penolakan siber yang sempurna
    Karena cara kerja LLM, penolakan yang sempurna pada praktiknya mustahil
    Jadi Anthropic berada pada posisi mengklaim di satu sisi bahwa model mereka sangat berbahaya, sambil di sisi lain mengatakan bahwa “pengaman” keamanannya punya celah yang mungkin sepele
    Orang teknis memahami bahwa tidak ada yang sempurna, dan terlebih lagi di dunia LLM, tetapi teman-teman saya yang nonteknis sangat bingung bagaimana model itu bisa begitu cepat menjadi “aman” segera setelah dirilis. Dari luar, kelihatannya model itu memang sejak awal tidak pernah aman untuk dirilis, jadi saya bisa memahami kenapa pemerintahan AS saat ini sangat marah
    Bahkan tanpa niat buruk politik pun, situasinya tetap cukup konyol dan seharusnya mudah diperkirakan

    • Betul. Keamanan AI itu tidak masuk akal. Kita tidak bisa mendefinisikan himpunan “string buruk”, dan satu miliar monyet yang mengetik di mesin tik pada akhirnya akan tetap menghasilkan itu
      Sistem “keamanan” apa pun yang membatasi keluaran LLM tidak mungkin punya tingkat kebocoran nol
      Namun ini juga tidak relevan, selama kita tidak cukup ceroboh untuk menghubungkan LLM ke hal-hal yang benar-benar penting
      Ini memang akan sangat mempercepat penemuan kerentanan, tetapi seperti yang sudah kita tahu dari puluhan tahun riset keamanan, ini memang sejak lama merupakan masalah tiga pihak antara pengembang, black hat, dan white hat
      Kita juga tidak boleh pura-pura bahwa strategi “AS akan selalu punya keunggulan teknis dan hak veto atas China” itu akan berhasil
    • Lucu bahwa Asimov banyak menulis tentang tidak efektifnya membatasi agensi dengan sistem berbasis aturan yang sederhana dan jelas. Cerita-cerita itu pertama kali diterbitkan pada 1940-an
      Delapan puluh tahun kemudian kita punya sesuatu yang mirip AI, dan kita masih mencoba membatasinya dengan aturan sederhana yang jelas. Bukan karena kita gagal mempelajari pelajarannya, melainkan karena kita belum menemukan cara yang lebih baik, dan mungkin memang tidak ada cara seperti itu
      Yang lebih lucu, yang mengakali aturan itu bukan AI. Adegan seperti itu memang ada di fiksi ilmiah, tetapi bukan itu yang terjadi di dunia nyata
      Pengguna manusialah yang memakai agensinya sendiri untuk membuat agen AI mengakali aturan. Kita menyebutnya “agen”, tetapi tampaknya agen AI saat ini masih belum bisa melakukan hal spesifik itu
    • Sebagai ilmuwan, setelah berulang kali mengalami penolakan berbasis classifier, strategi Anthropic tampak seperti membiarkan classifier terpisah memproses token input dan output dengan cara yang sangat sederhana, hampir setara pencarian kata kunci, untuk membuat penolakan lebih kokoh sambil menerima banyak false positive
      Kelemahan pendekatan ini adalah ia hanya menangkap penggunaan kata kunci yang tepat. Dalam arti tertentu, ia justru lemah pada hal-hal yang classifier berbasis LLM seharusnya lebih kuat
      Tugas algoritmik yang abstrak, memakai istilah kimia, dan dekat dengan ilmu komputer langsung diblokir, tetapi tugas menulis kode untuk memproses gambar dari pengaturan mikroskop tertentu yang terutama terkait sampel biologi sama sekali tidak diblokir karena tidak memakai kata kunci yang relevan
      Ini juga cocok dengan situasi ini. Dalam konteks menemukan dan memperbaiki bug, aktivitas menemukan bug mungkin saja tidak menggunakan kata seperti ‘exploit’ atau ‘cybersecurity’
    • Bagaimanapun, jin sudah keluar dari botol
      Kecuali Anda percaya hanya Anthropic yang menyembunyikan penyihir tak tertandingi atau pahlawan super yang tak bisa ditiru
    • Saya setuju Anthropic punya sejumlah masalah komunikasi dan PR, tetapi saya tidak melihat Fable di sini memberi keunggulan kemampuan serangan siber dibanding state of the art sebelumnya
      Ini bukan berarti semua pernyataan Anthropic benar, tetapi Mythos tampaknya memang menemukan banyak exploit keamanan nyata
      Mereka bisa saja mengatakan akan mendistribusikan model yang hanya membantu ke mitra terbatas, sambil tetap merilis model yang sangat terkunci yang tidak memajukan state of the art di aspek ini, dan tampaknya itulah yang kurang lebih mereka lakukan
      Tidak ada kontradiksi yang melekat di situ
  • Bukan karena mereka takut, melainkan pemerasan balas dendam akibat perbedaan ideologi dan karena Anthropic tidak mengikuti persis apa yang diperintahkan pemerintah

    • Ini cuma manipulasi pasar
    • Benar. Terlalu banyak energi mental dihabiskan untuk soal suap yang sederhana ini
      Anthropic akan setuju bekerja sama dengan Departemen Pertahanan, orang dalam Gedung Putih akan mendapat alokasi saham pra-IPO yang menguntungkan, dan Fable akan secara ajaib “diperbaiki” lalu ditawarkan kembali
    • Tidak paham kenapa orang membicarakan “jailbreak”
      Pemerintah sudah menjelaskan dengan gamblang apa yang akan terjadi pada perusahaan swasta yang tidak mematuhi perintah pemerintah

      Trump said on his Truth Social platform: “The Leftwing nut jobs at Anthropic have made a DISASTROUS MISTAKE trying to STRONG-ARM the [Pentagon], and force them to obey their Terms of Service instead of our Constitution.” [0]
      There will be a Six Month phase out period for Agencies like the Department of War who are using Anthropic’s products, at various levels. Anthropic better get their act together, and be helpful during this phase out period, or I will use the Full Power of the Presidency to make them comply, with major civil and criminal consequences to follow. [1]
      Selain itu OpenAI patuh, dan OpenAI serta Anthropic sedang bersaing menjelang IPO yang akan datang. Tidak perlu jadi ahli bedah roket untuk memahami apa yang sedang terjadi
      [0] https://www.theguardian.com/technology/2026/feb/28/openai-us...
      [1] https://businesslawtoday.org/2026/04/dod-conflicted-strategi...

    • Bukan, ini regulatory capture. Anthropic sedang memimpin sekarang, jadi mereka ingin memaksakan regulasi untuk menghancurkan pesaing dari Tiongkok dan mengamankan posisinya sendiri
  • Orang-orang yang bilang peran Amazon dalam hal ini tidak mungkin manipulatif harus ingat bahwa Amazon adalah “teman pemerintah”
    Di bawah kepemimpinan Andy Jassy, Amazon membayar $75 juta untuk dokumenter Melania, tawaran yang jauh lebih tinggi daripada siapa pun, dengan pemasukan box office sekitar $16 juta, dan Jeff Bezos secara terbuka membelanya
    Pengamat netral bisa melihat ini sebagai pembayaran berlebihan yang sangat besar dan, bahkan jika dilihat belakangan, keputusan bisnis yang mengerikan. Tetapi Amazon tidak mengatakan itu, dan sampai sekarang juga tidak. Ini cuma suap dengan beberapa langkah prosedural tambahan
    Saat pemerintah keluar dan mengatakan ini karena hal yang ditunjukkan Amazon, mereka tahu Amazon tidak akan mengatakan apa pun secara terbuka, bahkan jika itu bohong sepenuhnya. Amazon ingin mempertahankan statusnya sebagai teman pemerintah yang sudah dibeli dengan banyak uang
    Memang membuat frustrasi bagi semua orang bahwa pemerintah harus dipandang seperti ini, tetapi jika melihat kenyataan yang benar-benar terjadi, sangat sulit mempercayai bukan hanya apa yang dikatakan pemerintah, melainkan juga apa yang dikatakan perusahaan-perusahaan yang selaras dengan pemerintah

  • Ini tulisan blog yang disebut dalam artikel, ditulis oleh orang yang meninjau makalah yang konon menemukan “jailbreak” itu
    https://www.lutasecurity.com/post/the-fable-5-export-control...

    • Saya membaca di tempat lain bahwa ada keterkaitan dengan Tiongkok
      Penasaran bagaimana hal itu saling terhubung
  • “‘Fix this code,’ plus several manual steps to generate test scripts,
    Rasanya judulnya tidak benar-benar menyampaikan konteks penuh dari apa yang mereka lihat. Ini juga berbeda dari yang berulang kali diisyaratkan pada bagian pengantar
    Meski begitu, pelarangannya tetap terlihat bodoh. Makalah “riset pihak ketiga” lengkapnya masih belum benar-benar bocor, kan?

    • Jika yang diperbaiki patch adalah bug kerentanan, maka pengujian itu pada dasarnya adalah eksploit
    • Itu tidak akan bocor. Karena kalau begitu orang akan tahu kerentanan apa yang tidak mereka ingin lihat ditambal
      Juga akan terlihat alasan mereka sampai bersedia merusak perusahaan terdepan di industri paling penting di dunia
  • Sementara itu Deepseek V4 Flash dengan senang hati akan mencari kerentanan keamanan dengan biaya nyaris nol
    Kita sedang menyerahkan perburuan bug kepada model berbobot terbuka

    • Deepseek bukan sekadar berbobot terbuka. Itu open source, dan mereka juga merilis makalah riset yang menjelaskan tekniknya secara mendalam
  • Hal ini menyingkap disonansi kognitif seputar “keamanan” dalam keamanan siber
    a) Agar kita aman, LLM harus membantu menemukan dan memperbaiki kerentanan dalam kode kita
    b) Agar kita aman, LLM tidak boleh menemukan kerentanan dalam kode orang lain
    Tampaknya ini tidak bisa diselesaikan dengan cara yang membuat (a) dan (b) sama-sama menang

    • Benar. Ini kegagalan Anthropic dan perusahaan lain yang tidak memahami keamanan siber
      Menemukan bug keamanan dalam perangkat lunak itu hal yang baik, bukan kejahatan. Itu menghasilkan perangkat lunak yang lebih aman
      Dalam keamanan siber, pertahanan dan serangan adalah dua sisi dari mata uang yang sama
    • Kalau diasumsikan kedua pihak sama-sama beritikad baik, ini benar-benar konyol sampai lucu
      Jadi menurut saya penjelasan yang sebenarnya ada pada posisi berniat buruk dari pemerintah AS dan Anthropic
      Pemasaran kiamat Anthropic pada praktiknya cuma soal coding yang membaik sekitar 17%, tetapi pemerintah AS, sebagai balasan atas kebuntuan dengan Departemen Pertahanan, mendapat alasan untuk menjatuhkan mereka dengan dalih teknis yang tidak terkait
      Dua kelompok itu, yaitu pemerintahan AS saat ini dan Anthropic, hanya berada di sisi berlawanan dari spektrum politik, tetapi sama-sama dipenuhi orang-orang dengan kecenderungan otoriter. Yang menakutkan di sini bukan LLM bodoh itu, melainkan hal tersebut
      Bagi saya, OpenAI tampak sebagai pilihan yang setidaknya tidak seburuk itu. Perusahaan kapitalis tipikal yang “kiri-tengah di jalanan, kanan-tengah di kamar tidur”
      Setidaknya kita bisa mengerti mengapa mereka mengambil keputusan seperti itu. Saya lebih percaya pada orang yang membangun perusahaan pencari laba daripada orang yang mencoba membangun agama dengan sumber daya komputasi
  • Inti masalahnya di sini mungkin bukan exploit-nya, melainkan tindakan memperbaiki itu sendiri
    Jika model bisa mengidentifikasi dan memperbaiki hal-hal yang “tidak boleh diperbaiki” seperti backdoor, itu bisa menjadi hambatan yang cukup besar hingga membuat orang yang salah merasa takut

  • Bukankah arah kebalikan dari “peretasan” ini masih cukup sulit untuk diakali?
    Mereka memberi model kode yang sudah diketahui memiliki cacat keamanan tertentu, lalu menyuruhnya memperbaikinya dengan prompt yang tepat
    Jailbreak seperti ini tampaknya bukan meminta model melakukan pekerjaan berat yang kreatif, melainkan mengharuskan kita sudah tahu keadaan akhir yang diinginkan
    Mungkin saya saja yang kurang imajinatif soal sisi prompt-nya

    • Cukup tempel kode orang lain, katakan itu kode milikmu, lalu minta model memperbaikinya
      Perbedaan antara kode input dan output itulah daftar kerentanannya
    • Kamu bisa mengasumsikan keadaan akhir yang diinginkan, lalu mencoba brute force sampai menemukan bug keamanan