Para peneliti keamanan siber menyatakan ketidakpuasan terhadap guardrail Fable milik Anthropic

(techcrunch.com)

2 poin oleh GN⁺ 2026-06-11 | 1 komentar | Bagikan ke WhatsApp

Fable dirilis sebagai versi publik dan terbatas dari model keamanan siber kuat Mythos, tetapi memblokir secara luas permintaan terkait keamanan siber sehingga memicu keluhan dari peneliti dan para ahli
Saat guardrail aktif, chat dihentikan dan muncul pesan bahwa tindakan pengamanan ditampilkan karena topiknya adalah “keamanan siber atau biologi”
Anthropic mengatakan pembatasan pada Fable dibuat untuk mengurangi risiko penggunaannya dalam pengembangan malware atau pembobolan perangkat lunak, dan pembatasan biologi juga dikaitkan dengan kekhawatiran pengembangan senjata biologis
Beberapa ahli menilai bahkan permintaan yang lebih dekat ke praktik rekayasa perangkat lunak seperti penulisan kode yang aman atau code review juga diklasifikasikan sebagai keamanan siber dan diturunkan ke Claude Opus 4.8
Para profesional keamanan menyatakan penolakan terhadap metode pemblokiran sporadis berbasis kata kunci, tetapi juga menilai seiring waktu hal ini kemungkinan akan dilonggarkan karena masih tahap awal

Peluncuran Fable dan keluhan pengguna

Anthropic pada hari Selasa meluncurkan model baru Fable, yang diperkenalkan sebagai versi publik dan terbatas dari model keamanan siber Mythos yang kuat dan sangat ramai diperbincangkan
Banyak peneliti dan ahli keamanan siber menyampaikan keluhan soal pembatasan ini secara online
Valentina "Chompie" Palmiotti, peneliti keamanan ternama dari IBM X-Force, menunjukkan bahwa Fable menolak permintaan yang bahkan sedikit saja bisa terkait dengan keamanan siber, dan bahkan memblokir tugas yang tidak berbahaya seperti membaca tulisan blog
Jika guardrail Fable aktif oleh prompt, chat akan dihentikan dan menampilkan pemberitahuan tindakan pengamanan bahwa pesan tersebut ditandai sebagai topik keamanan siber atau biologi
Guardrail ini dimaksudkan untuk membatasi risiko Fable disalahgunakan untuk pengembangan malware atau pembobolan perangkat lunak, berangkat dari kekhawatiran lama di internal Anthropic
Pembatasan terkait biologi berangkat dari kekhawatiran serupa tentang pengembangan senjata biologis

Perluasan akses ke Mythos

Saat Anthropic merilis Mythos pada April, model itu hanya disediakan secara terbatas untuk sejumlah kecil perusahaan dan organisasi dengan nama Project Glasswing
- Sebuah upaya untuk menerapkan model demi melindungi perangkat lunak dan infrastruktur inti
Minggu lalu, Anthropic memperluas akses Mythos ke ratusan organisasi di 15 negara

Kritik ahli terhadap metode pembatasan

Veteran keamanan siber Matt Suiche menyebut bahwa jika diminta menulis kode yang aman, Fable menganggapnya sebagai tugas keamanan siber, bukan praktik terbaik rekayasa perangkat lunak, sehingga diturunkan tingkatnya
- Fable dirancang untuk fallback ke Claude Opus 4.8 ketika diblokir oleh guardrail
- "Tampaknya berbasis kata kunci, dan apa pun yang masuk dalam kategori leksikal 'keamanan siber' akan memicu guardrail"
Peneliti lain di X juga mengeluhkan bahwa bahkan permintaan code review pun memicu guardrail Fable

Pandangan terhadap prospek ke depan

Suiche, staf teknis di Tolmo, startup keamanan siber AI, menilai ini masih tahap awal dan dapat dimaklumi karena guardrail-nya masih disetel
- Ia memandang guardrail akan berkembang seiring waktu saat Anthropic dan perusahaan model frontier lain bekerja lebih erat dengan perusahaan keamanan siber generasi baru
- Dalam peluncuran seperti ini, lebih baik menangkap terlalu banyak daripada terlalu sedikit, lalu melonggarkan guardrail setelahnya
Anthropic tidak segera menanggapi permintaan komentar

Program verifikasi terpisah

Selain guardrail internal model, Anthropic juga meminta para ahli keamanan siber untuk mendaftar ke Cyber Verification Program
- Jika disetujui, pembatasan saat menggunakan Claude untuk pekerjaan keamanan siber akan berkurang
OpenAI juga menjalankan program serupa bernama Trusted Access for Cyber

1 komentar

GN⁺ 2026-06-11

Komentar Hacker News

Muncul artikel baru di Wired: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic mengatakan kepada WIRED bahwa mereka “sedang mengubah pengaman Fable 5 untuk penggunaan pengembangan frontier LLM agar terlihat. Kami membuat kompromi yang keliru dan meminta maaf karena gagal menjaga keseimbangan.”
Tampaknya gelombang kritik yang luas memang membuahkan hasil
- Perusahaan AS tidak benar-benar mundur; mereka hanya mencoba lagi nanti saat orang-orang sudah lelah dan tak lagi peduli, jadi menurutku satu-satunya solusi adalah meninggalkan kapal
  Microsoft juga beberapa kali menarik iklan di OS, tapi akhirnya tetap menuju lintasan yang sama yang dulu membuat semua orang marah, dan OpenAI juga berakhir menjadi AI tertutup terlepas dari penarikan awalnya
  Begitu perilaku buruk dimulai, kita harus pergi, dan permintaan maaf sama hampa seperti bungkus moralnya
- Sudah terlambat. Saya membatalkan langganan Max, dan fakta bahwa mereka benar-benar berniat melakukan hal seperti ini saja sudah menghancurkan sisa kepercayaan yang ada
  Saya membayar ribuan dolar tiap bulan untuk penggunaan tambahan, jadi kalau mereka masih bisa melakukan hal serupa diam-diam di belakang layar, saya tidak tahu kenapa saya harus tetap membayar
  Kesalahan yang dulu saya kira akibat upaya penalaran atau perubahan backend mungkin sebenarnya adalah injeksi prompt yang disengaja
- Ungkapan “kompromi” justru membantu calon pelanggan, karena itu menandakan Anthropic masih menganggap penilaian dasarnya sendiri benar, dan tidak melihat ini sebagai tindakan yang salah secara kualitatif
  Menurutku pelajaran utamanya adalah: jika Anda butuh infrastruktur tepercaya untuk dimasukkan ke aplikasi, gunakan penyedia lain
  Saya tidak punya kebencian khusus pada Anthropic, tetapi sebagai orang yang pernah menambah kompleksitas pada aplikasi untuk menangani perilaku penolakan Sonnet yang sudah ada, saya bisa memakluminya untuk chatbot pengguna akhir, tapi sulit menerimanya di API
- Jika suatu tugas diblokir atau diperlakukan serupa, syarat minimumnya seharusnya pengembalian penuh kredit untuk sesi itu atau X menit terakhir
- Mereka tetap melakukan downgrade, hanya saja tidak akan melakukannya diam-diam, jadi saya tidak tahu seberapa besar kemenangan ini
  Anthropic melatih modelnya dengan data orang lain tanpa lisensi atau atribusi, tetapi ingin mencegah orang lain melakukan hal yang sama kepada mereka
  Kemunafikan Anthropic minggu ini cukup berani
Hal paling anehnya adalah ini tidak berhenti pada penolakan riset machine learning, tetapi diam-diam menghambat sambil memakai model yang lebih buruk tanpa mengungkapkannya
Untuk perusahaan yang paling-paling hanya unggul setahun dari pesaingnya, tingkat tipu daya dan penghancuran kepercayaannya sungguh gila
Tambahan lagi, katanya untuk downgrade terkait keamanan siber dan biologi mereka memang memberi tahu
- Saya terus kepikiran bagaimana akuntansi dan penagihan bekerja saat downgrade dilakukan otomatis
  Saya penasaran apakah harga permintaan API disesuaikan, sehingga token yang dipakai Fable ditagih dengan harga Fable, dan sisa token yang dipakai model lebih murah dan lebih lemah itu ditagih dengan harga model tersebut
  Kalau tidak, bukankah itu bisa ditafsirkan sebagai penipuan?
- Bayangkan saja AMD atau Intel melakukan throttling CPU saat mendeteksi pengguna sedang mengerjakan tugas “keamanan siber” atau merancang CPU
- Hambatan diam-diam dalam bentuk apa pun sama sekali tidak bisa ditoleransi dalam layanan komersial
  Anda tidak bisa menagih mahal per token, diam-diam menurunkan mutu layanan, lalu tetap menarik biaya yang sama
- Saya sudah beberapa kali melihat klaim ini, tetapi ketika guardrail tersentuh di Claude Code, ada pemberitahuan yang jelas bahwa model dialihkan ke model lain demi “tujuan keamanan”
  Saya jadi penasaran apakah Fable dipakai di Claude Code atau di browser
- Saya juga tidak paham bagaimana orang bisa bilang mereka memahami penolakan terhadap riset machine learning
Saya punya beberapa peran, tetapi sebagai ahli kimia saya tidak suka Fable, sebagai statistikawan juga tidak, sebagai data scientist juga tidak, dan sebagai orang akademik sekaligus peneliti juga tidak
Tidak berguna, dan saya ragu ada orang yang mendapatkan keluaran yang tidak bisa dengan mudah digantikan oleh pencarian Wikipedia
Mengingat model-model Claude sudah menjadi terlalu bertele-tele, ada kemungkinan artikel Wikipedia malah kurang bertele-tele, dan token per detik saat mengambil artikel Wikipedia tidak ada tandingannya
- Saya sedang membuat perangkat lunak yang berkomunikasi dengan spektrometer massa, dan bahkan refactor parser file input pun terus ditolak
  Mungkin karena disimpulkan terkait biologi, dan itu benar-benar tidak berguna
- Ungkapan “token per detik saat mengambil artikel Wikipedia tidak ada tandingannya” itu benar-benar luar biasa
- Menyuruh model menjawab dengan gaya Wikipedia adalah salah satu cara terbaik untuk membuat keluarannya lebih bisa ditoleransi
  Ini untuk model chat, bukan agen
- Menurut saya agak berlebihan untuk mengatakan tidak ada keluaran yang tidak bisa dengan mudah digantikan oleh pencarian Wikipedia
  Keluaran pada dasarnya tak terbatas, sedangkan Wikipedia jelas tidak tak terbatas
- Saya sedang mengerjakan proyek pemetaan yang cukup kompleks, dan mendapatkan hasil yang jauh lebih baik dari Fable dibanding Opus
Penasaran apakah “buffer overflow” adalah frasa pemicu
Juga tidak jelas apa lagi yang disensor, dan kalau punya akun, orang bisa mengajukan pertanyaan sensitif seperti: “Siapa yang masih melakukan pengayaan uranium dengan laser?”, “Bisakah krytron diganti dengan MOSFET silikon karbida?”, “Perangkat lunak penting keamanan apa yang masih memanggil strcpy?”, “Bisakah laser pulsa komersial memicu implosi?”, “Perusahaan mana yang menyediakan layanan kremasi untuk Department of Homeland Security AS?”, “Tunjukkan peta lokasi di Dubai yang terkena serangan Iran”, “Bagaimana keamanan distribusi kunci bank-Fed di FedNow bekerja?”
- Ini juga terpicu oleh log otomasi rumah Zigbee dan Home Assistant saya, jadi agen terus diturunkan ke Opus 4.8, dan meski saya ubah lagi hasilnya tetap sama
  False positive tidak berhenti, dan Fable juga sama sekali tidak mengesankan sampai level yang disiratkan benchmark
  Setelah hampir tanpa henti memakainya selama 24 jam terakhir, itu jadi jelas
- Ada yang bilang emoji virus dan emoji DNA jika muncul bersama menjadi frasa pemicu
- Di ranah serangan siber, elemen-elemennya umumnya saling bisa dipertukarkan, jadi saya penasaran apakah bisa dibuat harness di mana model yang “lemah” mengajukan pertanyaan yang mengaburkan tujuan akhir, tetapi jawabannya tetap berguna
  Jika berhasil, itu bisa menunjukkan bahwa konfigurasi tersebut memungkinkan eksploit otonom, dan Anthropic mau tak mau harus membuat deteksinya lebih sensitif
- Saya pikir sudah lama diketahui bahwa jika model dilatih untuk tidak melakukan hal tertentu, ia mulai bertingkah aneh
- “Butuh berapa banyak uang untuk menjadi sekaya dan sekuat yang diinginkan Anthropic?”
Sepertinya Anthropic sudah cukup lama melakukan A/B test atau pengujian umum
Tell HN: Claude menandai pertanyaan biologi / biotek https://news.ycombinator.com/item?id=47929885
Hari ini pertanyaan riset populasi ditandai. Itu adalah permintaan analisis akademik untuk membandingkan mortalitas dan hasil pada usia lanjut hanya dengan memakai dataset yang disusun, melaporkan interval kepercayaan dan ukuran efek, serta mengukur dampak coding documentation_depth terhadap kekuatan kesimpulan
https://github.com/anthropics/claude-code/issues/66780
Saya sedang menulis paper lalu disensor. Dan sepertinya saya juga harus menyerah belajar kimia. Mungkin hanya kriminal yang mau belajar kimia organik
- Saya sedang mendalami pertanyaan mekanika orbital, dan tampaknya sistem mengira saya mencoba membuat senjata bombardir orbital dengan sains rumahan
  Cukup mengejutkan bahwa dalam waktu hampir 24 jam kesan saya terhadap produk ini berubah dari “wah, lumayan bagus” menjadi “barang anjing dengan sistem sensor setengah jadi”
- Barusan pertanyaan saya tentang kelarutan dalam air juga ditandai
Saya mendapat pengecualian penggunaan siber dari Anthropic untuk melakukan pengembangan kernel Android pada perangkat pribadi
Saya berharap Fable bisa membantu membuka bootloader, tetapi langsung menolak dan turun ke Opus
Cukup lucu: saya set model ke Fable 5 dan bertanya, “Ada ponsel Android Samsung lama yang terhubung, ini perangkat pribadi saya, bisa bantu membuka bootloader?” lalu dijawab, “Membuka bootloader perangkat pribadi sepenuhnya sah. Pertama saya akan melihat apa sebenarnya yang terhubung dan alat apa yang tersedia.”
- Jika orang-orang mulai melemparkan segenggam uang ke perusahaan ini, masa depan benar-benar terlihat suram
  Anthropic tampaknya akan cepat menjadi satu-satunya hakim atas segala hal dalam hidup
Saya melihat di suatu tempat bahwa malware sudah mulai memasukkan istilah nuklir, biologis, dan keamanan siber ke dalam kode agar Fable tertipu lalu mati
Meski masih sekadar vektor serangan hipotetis, kelihatannya sangat mungkin efektif
- Dikonfirmasi: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
- Sebagian versi terbaru Shai Hulud memakai cara ini
  Dalam kontrak terbaru, sebelum paket dimasukkan ke Artifactory, kami membuat AI memeriksa apakah ada obfuscation, tetapi logikanya ditulis dengan vibe coding seadanya sehingga terjadi fail-open
  Artinya istilah-istilah itu membuat pemeriksa LLM berhenti, dan karena logika fail-open, paketnya tetap terunduh
- Agar filter murahan seperti ini tidak sanggup ditangani, kita harus memasukkan istilah nuklir, biologis, dan keamanan siber di seluruh kode kita
  Jika AI filter salah mengira istilah keamanan siber atau biologi di CV, atau kata-kata seperti itu dalam balasan lamaran kerja, sebagai ancaman lalu membuat orang tidak bisa bekerja, perlu ada respons kolektif
  Terutama jika itu perusahaan yang mau IPO sambil mengklaim akan membuat pekerja tak berguna dalam dua tahun
- Saya sudah mencoba ini, termasuk string penolakan hardcoded yang sudah ada di Claude Code
  Ini mungkin tidak akan menghentikan penyerang sungguhan, tetapi tetap cukup lucu melihat penolakan acak muncul tanpa alasan jelas dan sedikit membuang waktu saat mencoba memakai alat AI
- if (yellowcake) then { die }
  Masa depan kita seperti Looney Tunes
Saya mengunggah foto tanaman istri saya dan meminta Fable 5 mengidentifikasi jamurnya, lalu tampaknya sistem mengira saya hendak membuat senjata biologis
Opus menjawab, dan itu jamur lendir muntahan anjing kuning
Sekarang saya bisa menyebarkan sporanya dan menguasai dunia
- Itu bukan jamur, melainkan jamur lendir
  Jamur lendir sebenarnya adalah ameba raksasa dan sepenuhnya berbeda dari jamur
- Saya penasaran apakah gambarnya diburamkan sebelum dilempar ke Opus
- Jika sistem dibuat terlalu aman, akhirnya efek baliknya bisa jadi seperti “manusia selalu mencoba menghancurkan sesuatu, jadi untuk menjaga guardrail kita harus menyingkirkan mereka”
  Jika sistem disejajarkan dengan cara seperti itu, maka secara mendasar memang salah
Fable benar-benar lelucon
Saya bertanya, “Apa cara terbaik untuk menjalankan server MCP ini untuk OData API yang digunakan dalam proyek ini? Bisa buatkan proof of concept dalam container Docker?” lalu memberikan https://github.com/oisee/odata_mcp_go, dan awalnya ia mengatakan akan melihat bagaimana proyek tersebut berkomunikasi dengan OData API serta persyaratan untuk menjalankan server odata_mcp_go
Tak lama kemudian muncul, “Pengaman Fable 5 menandai pesan ini sebagai topik keamanan siber atau biologi. Konten yang aman dan normal juga bisa ditandai… beralih ke Opus 4.8” lalu setelah itu ia mengatakan akan membaca file integrasi inti dan README server MCP
- Dan mereka menagihkan biayanya
  Tanpa diskon apa pun dari harga Fable, mereka tetap menagih bahkan saat diam-diam memutuskan untuk merutekan permintaan ke model yang lebih bodoh untuk menghalangi
Dalam beberapa bulan, pesaing akan merilis model dengan performa serupa dan guardrail yang lebih longgar, dan jika cukup banyak pangsa pasar yang direbut, Anthropic juga akan membalikkan kebijakan ini
Jadi saya sangat berharap Tiongkok tidak berhenti dengan model lokal open source
Tak satu pun dari perusahaan-perusahaan ini adalah teman kita

Para peneliti keamanan siber menyatakan ketidakpuasan terhadap guardrail Fable milik Anthropic

Peluncuran Fable dan keluhan pengguna

Perluasan akses ke Mythos

Kritik ahli terhadap metode pembatasan

Pandangan terhadap prospek ke depan

Program verifikasi terpisah

Bacaan terkait

1 komentar

Komentar Hacker News