Para peneliti keamanan siber menyatakan ketidakpuasan terhadap guardrail Fable milik Anthropic
(techcrunch.com)- Fable dirilis sebagai versi publik dan terbatas dari model keamanan siber kuat Mythos, tetapi memblokir secara luas permintaan terkait keamanan siber sehingga memicu keluhan dari peneliti dan para ahli
- Saat guardrail aktif, chat dihentikan dan muncul pesan bahwa tindakan pengamanan ditampilkan karena topiknya adalah “keamanan siber atau biologi”
- Anthropic mengatakan pembatasan pada Fable dibuat untuk mengurangi risiko penggunaannya dalam pengembangan malware atau pembobolan perangkat lunak, dan pembatasan biologi juga dikaitkan dengan kekhawatiran pengembangan senjata biologis
- Beberapa ahli menilai bahkan permintaan yang lebih dekat ke praktik rekayasa perangkat lunak seperti penulisan kode yang aman atau code review juga diklasifikasikan sebagai keamanan siber dan diturunkan ke Claude Opus 4.8
- Para profesional keamanan menyatakan penolakan terhadap metode pemblokiran sporadis berbasis kata kunci, tetapi juga menilai seiring waktu hal ini kemungkinan akan dilonggarkan karena masih tahap awal
Peluncuran Fable dan keluhan pengguna
- Anthropic pada hari Selasa meluncurkan model baru Fable, yang diperkenalkan sebagai versi publik dan terbatas dari model keamanan siber Mythos yang kuat dan sangat ramai diperbincangkan
- Banyak peneliti dan ahli keamanan siber menyampaikan keluhan soal pembatasan ini secara online
- Valentina "Chompie" Palmiotti, peneliti keamanan ternama dari IBM X-Force, menunjukkan bahwa Fable menolak permintaan yang bahkan sedikit saja bisa terkait dengan keamanan siber, dan bahkan memblokir tugas yang tidak berbahaya seperti membaca tulisan blog
- Jika guardrail Fable aktif oleh prompt, chat akan dihentikan dan menampilkan pemberitahuan tindakan pengamanan bahwa pesan tersebut ditandai sebagai topik keamanan siber atau biologi
- Guardrail ini dimaksudkan untuk membatasi risiko Fable disalahgunakan untuk pengembangan malware atau pembobolan perangkat lunak, berangkat dari kekhawatiran lama di internal Anthropic
- Pembatasan terkait biologi berangkat dari kekhawatiran serupa tentang pengembangan senjata biologis
Perluasan akses ke Mythos
- Saat Anthropic merilis Mythos pada April, model itu hanya disediakan secara terbatas untuk sejumlah kecil perusahaan dan organisasi dengan nama Project Glasswing
- Sebuah upaya untuk menerapkan model demi melindungi perangkat lunak dan infrastruktur inti
- Minggu lalu, Anthropic memperluas akses Mythos ke ratusan organisasi di 15 negara
Kritik ahli terhadap metode pembatasan
- Veteran keamanan siber Matt Suiche menyebut bahwa jika diminta menulis kode yang aman, Fable menganggapnya sebagai tugas keamanan siber, bukan praktik terbaik rekayasa perangkat lunak, sehingga diturunkan tingkatnya
- Fable dirancang untuk fallback ke Claude Opus 4.8 ketika diblokir oleh guardrail
- "Tampaknya berbasis kata kunci, dan apa pun yang masuk dalam kategori leksikal 'keamanan siber' akan memicu guardrail"
- Peneliti lain di X juga mengeluhkan bahwa bahkan permintaan code review pun memicu guardrail Fable
Pandangan terhadap prospek ke depan
- Suiche, staf teknis di Tolmo, startup keamanan siber AI, menilai ini masih tahap awal dan dapat dimaklumi karena guardrail-nya masih disetel
- Ia memandang guardrail akan berkembang seiring waktu saat Anthropic dan perusahaan model frontier lain bekerja lebih erat dengan perusahaan keamanan siber generasi baru
- Dalam peluncuran seperti ini, lebih baik menangkap terlalu banyak daripada terlalu sedikit, lalu melonggarkan guardrail setelahnya
- Anthropic tidak segera menanggapi permintaan komentar
Program verifikasi terpisah
- Selain guardrail internal model, Anthropic juga meminta para ahli keamanan siber untuk mendaftar ke Cyber Verification Program
- Jika disetujui, pembatasan saat menggunakan Claude untuk pekerjaan keamanan siber akan berkurang
- OpenAI juga menjalankan program serupa bernama Trusted Access for Cyber
1 komentar
Komentar Hacker News
Muncul artikel baru di Wired: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic mengatakan kepada WIRED bahwa mereka “sedang mengubah pengaman Fable 5 untuk penggunaan pengembangan frontier LLM agar terlihat. Kami membuat kompromi yang keliru dan meminta maaf karena gagal menjaga keseimbangan.”
Tampaknya gelombang kritik yang luas memang membuahkan hasil
Microsoft juga beberapa kali menarik iklan di OS, tapi akhirnya tetap menuju lintasan yang sama yang dulu membuat semua orang marah, dan OpenAI juga berakhir menjadi AI tertutup terlepas dari penarikan awalnya
Begitu perilaku buruk dimulai, kita harus pergi, dan permintaan maaf sama hampa seperti bungkus moralnya
Saya membayar ribuan dolar tiap bulan untuk penggunaan tambahan, jadi kalau mereka masih bisa melakukan hal serupa diam-diam di belakang layar, saya tidak tahu kenapa saya harus tetap membayar
Kesalahan yang dulu saya kira akibat upaya penalaran atau perubahan backend mungkin sebenarnya adalah injeksi prompt yang disengaja
Menurutku pelajaran utamanya adalah: jika Anda butuh infrastruktur tepercaya untuk dimasukkan ke aplikasi, gunakan penyedia lain
Saya tidak punya kebencian khusus pada Anthropic, tetapi sebagai orang yang pernah menambah kompleksitas pada aplikasi untuk menangani perilaku penolakan Sonnet yang sudah ada, saya bisa memakluminya untuk chatbot pengguna akhir, tapi sulit menerimanya di API
Anthropic melatih modelnya dengan data orang lain tanpa lisensi atau atribusi, tetapi ingin mencegah orang lain melakukan hal yang sama kepada mereka
Kemunafikan Anthropic minggu ini cukup berani
Hal paling anehnya adalah ini tidak berhenti pada penolakan riset machine learning, tetapi diam-diam menghambat sambil memakai model yang lebih buruk tanpa mengungkapkannya
Untuk perusahaan yang paling-paling hanya unggul setahun dari pesaingnya, tingkat tipu daya dan penghancuran kepercayaannya sungguh gila
Tambahan lagi, katanya untuk downgrade terkait keamanan siber dan biologi mereka memang memberi tahu
Saya penasaran apakah harga permintaan API disesuaikan, sehingga token yang dipakai Fable ditagih dengan harga Fable, dan sisa token yang dipakai model lebih murah dan lebih lemah itu ditagih dengan harga model tersebut
Kalau tidak, bukankah itu bisa ditafsirkan sebagai penipuan?
Anda tidak bisa menagih mahal per token, diam-diam menurunkan mutu layanan, lalu tetap menarik biaya yang sama
Saya jadi penasaran apakah Fable dipakai di Claude Code atau di browser
Saya punya beberapa peran, tetapi sebagai ahli kimia saya tidak suka Fable, sebagai statistikawan juga tidak, sebagai data scientist juga tidak, dan sebagai orang akademik sekaligus peneliti juga tidak
Tidak berguna, dan saya ragu ada orang yang mendapatkan keluaran yang tidak bisa dengan mudah digantikan oleh pencarian Wikipedia
Mengingat model-model Claude sudah menjadi terlalu bertele-tele, ada kemungkinan artikel Wikipedia malah kurang bertele-tele, dan token per detik saat mengambil artikel Wikipedia tidak ada tandingannya
Mungkin karena disimpulkan terkait biologi, dan itu benar-benar tidak berguna
Ini untuk model chat, bukan agen
Keluaran pada dasarnya tak terbatas, sedangkan Wikipedia jelas tidak tak terbatas
Penasaran apakah “buffer overflow” adalah frasa pemicu
Juga tidak jelas apa lagi yang disensor, dan kalau punya akun, orang bisa mengajukan pertanyaan sensitif seperti: “Siapa yang masih melakukan pengayaan uranium dengan laser?”, “Bisakah
krytrondiganti dengan MOSFET silikon karbida?”, “Perangkat lunak penting keamanan apa yang masih memanggilstrcpy?”, “Bisakah laser pulsa komersial memicu implosi?”, “Perusahaan mana yang menyediakan layanan kremasi untuk Department of Homeland Security AS?”, “Tunjukkan peta lokasi di Dubai yang terkena serangan Iran”, “Bagaimana keamanan distribusi kunci bank-Fed di FedNow bekerja?”False positive tidak berhenti, dan Fable juga sama sekali tidak mengesankan sampai level yang disiratkan benchmark
Setelah hampir tanpa henti memakainya selama 24 jam terakhir, itu jadi jelas
Jika berhasil, itu bisa menunjukkan bahwa konfigurasi tersebut memungkinkan eksploit otonom, dan Anthropic mau tak mau harus membuat deteksinya lebih sensitif
Sepertinya Anthropic sudah cukup lama melakukan A/B test atau pengujian umum
Tell HN: Claude menandai pertanyaan biologi / biotek https://news.ycombinator.com/item?id=47929885
Hari ini pertanyaan riset populasi ditandai. Itu adalah permintaan analisis akademik untuk membandingkan mortalitas dan hasil pada usia lanjut hanya dengan memakai dataset yang disusun, melaporkan interval kepercayaan dan ukuran efek, serta mengukur dampak coding
documentation_depthterhadap kekuatan kesimpulanhttps://github.com/anthropics/claude-code/issues/66780
Saya sedang menulis paper lalu disensor. Dan sepertinya saya juga harus menyerah belajar kimia. Mungkin hanya kriminal yang mau belajar kimia organik
Cukup mengejutkan bahwa dalam waktu hampir 24 jam kesan saya terhadap produk ini berubah dari “wah, lumayan bagus” menjadi “barang anjing dengan sistem sensor setengah jadi”
Saya mendapat pengecualian penggunaan siber dari Anthropic untuk melakukan pengembangan kernel Android pada perangkat pribadi
Saya berharap Fable bisa membantu membuka bootloader, tetapi langsung menolak dan turun ke Opus
Cukup lucu: saya set model ke Fable 5 dan bertanya, “Ada ponsel Android Samsung lama yang terhubung, ini perangkat pribadi saya, bisa bantu membuka bootloader?” lalu dijawab, “Membuka bootloader perangkat pribadi sepenuhnya sah. Pertama saya akan melihat apa sebenarnya yang terhubung dan alat apa yang tersedia.”
Anthropic tampaknya akan cepat menjadi satu-satunya hakim atas segala hal dalam hidup
Saya melihat di suatu tempat bahwa malware sudah mulai memasukkan istilah nuklir, biologis, dan keamanan siber ke dalam kode agar Fable tertipu lalu mati
Meski masih sekadar vektor serangan hipotetis, kelihatannya sangat mungkin efektif
Dalam kontrak terbaru, sebelum paket dimasukkan ke Artifactory, kami membuat AI memeriksa apakah ada obfuscation, tetapi logikanya ditulis dengan vibe coding seadanya sehingga terjadi fail-open
Artinya istilah-istilah itu membuat pemeriksa LLM berhenti, dan karena logika fail-open, paketnya tetap terunduh
Jika AI filter salah mengira istilah keamanan siber atau biologi di CV, atau kata-kata seperti itu dalam balasan lamaran kerja, sebagai ancaman lalu membuat orang tidak bisa bekerja, perlu ada respons kolektif
Terutama jika itu perusahaan yang mau IPO sambil mengklaim akan membuat pekerja tak berguna dalam dua tahun
Ini mungkin tidak akan menghentikan penyerang sungguhan, tetapi tetap cukup lucu melihat penolakan acak muncul tanpa alasan jelas dan sedikit membuang waktu saat mencoba memakai alat AI
if (yellowcake) then { die }Masa depan kita seperti Looney Tunes
Saya mengunggah foto tanaman istri saya dan meminta Fable 5 mengidentifikasi jamurnya, lalu tampaknya sistem mengira saya hendak membuat senjata biologis
Opus menjawab, dan itu jamur lendir muntahan anjing kuning
Sekarang saya bisa menyebarkan sporanya dan menguasai dunia
Jamur lendir sebenarnya adalah ameba raksasa dan sepenuhnya berbeda dari jamur
Jika sistem disejajarkan dengan cara seperti itu, maka secara mendasar memang salah
Fable benar-benar lelucon
Saya bertanya, “Apa cara terbaik untuk menjalankan server MCP ini untuk OData API yang digunakan dalam proyek ini? Bisa buatkan proof of concept dalam container Docker?” lalu memberikan https://github.com/oisee/odata_mcp_go, dan awalnya ia mengatakan akan melihat bagaimana proyek tersebut berkomunikasi dengan OData API serta persyaratan untuk menjalankan server odata_mcp_go
Tak lama kemudian muncul, “Pengaman Fable 5 menandai pesan ini sebagai topik keamanan siber atau biologi. Konten yang aman dan normal juga bisa ditandai… beralih ke Opus 4.8” lalu setelah itu ia mengatakan akan membaca file integrasi inti dan README server MCP
Tanpa diskon apa pun dari harga Fable, mereka tetap menagih bahkan saat diam-diam memutuskan untuk merutekan permintaan ke model yang lebih bodoh untuk menghalangi
Dalam beberapa bulan, pesaing akan merilis model dengan performa serupa dan guardrail yang lebih longgar, dan jika cukup banyak pangsa pasar yang direbut, Anthropic juga akan membalikkan kebijakan ini
Jadi saya sangat berharap Tiongkok tidak berhenti dengan model lokal open source
Tak satu pun dari perusahaan-perusahaan ini adalah teman kita