Anthropic Minta Maaf atas Guardrail Claude Fable yang Tak Terlihat

(theverge.com)

1 poin oleh GN⁺ 2026-06-12 | 1 komentar | Bagikan ke WhatsApp

Claude Fable 5 adalah model pertama yang tersedia luas dari lini Mythos milik Anthropic, dan menerapkan pembatasan tersembunyi untuk mencegah upaya distilasi yang digunakan dalam pengembangan sistem pesaing
Anthropic menarik kembali pendekatan lama yang mengubah dan menurunkan kualitas respons tanpa memberi tahu pengguna ketika permintaan dinilai sebagai distilasi, dan akan memberi tahu dengan lebih transparan saat pembatasan aktif
Dalam pendekatan baru, permintaan terkait distilasi akan dialihkan dari Claude Fable ke Claude Opus 4.8, dan pengguna akan dapat melihat setiap kali pengalihan terjadi
Di area berisiko tinggi lain seperti biologi, kimia, dan keamanan siber, saat fitur keselamatan aktif, permintaan juga akan dirutekan ke Opus 4.8, atau diblokir sesuai aturan konten terlarang seperti obat-obatan dan senjata
Anthropic mengakui bahwa pelindung tersembunyi memungkinkan peluncuran cepat dan tingkat false positive yang rendah, tetapi itu merupakan kompromi yang keliru karena pengguna seharusnya dapat melihat pelindung apa yang diterapkan dan alasannya

Pembatasan distilasi tersembunyi di Claude Fable

Anthropic meminta maaf karena diam-diam membatasi Claude Fable 5, dan pembatasan itu bisa berdampak pada peneliti maupun pesaing yang menggunakan Fable untuk mengembangkan sistem saingan
Fable adalah model pertama yang tersedia luas di antara sistem AI lini Mythos yang selama beberapa bulan diperingatkan Anthropic terlalu berisiko untuk dirilis secara terbuka
Saat merilis Fable, Anthropic menangani sebagian risiko dengan pelindung yang mencegah model merespons sejumlah permintaan “berisiko tinggi”
Salah satu target pembatasan adalah teknik distillation yang melatih model AI kecil menggunakan keluaran dari model besar
System card Fable menyebut bahwa permintaan yang dinilai sebagai upaya distilasi ditangani dengan cara mengubah dan menurunkan kualitas respons model itu sendiri
- Pengguna tidak diberi tahu bahwa mereka telah memicu tindakan keselamatan
- Pengguna juga tidak diberi tahu bahwa respons telah diubah

Perubahan Anthropic dan reaksi keras

Dalam posting di X, Anthropic mengumumkan perubahan pendekatan terhadap akses terkait distilasi dengan mengalihkan permintaan tersebut ke Claude Opus 4.8
Claude Opus 4.8 adalah model flagship Anthropic sebelumnya, dan pengguna kini akan bisa melihat setiap kali pengalihan terjadi
Pendekatan ini mirip dengan cara Fable menangani permintaan di area berisiko tinggi lainnya
- Di bidang biologi, kimia, dan keamanan siber, saat fitur keselamatan aktif, permintaan akan melewati Opus 4.8
- Jika terkait obat-obatan, senjata, atau konten terlarang lainnya, permintaan akan diblokir sesuai aturan keselamatan Anthropic yang lebih luas
Di bidang biologi, pelindung disetel sangat luas sehingga bahkan kueri dasar pun sempat membuat Fable praktis sulit digunakan, dan juru bicara Anthropic Paruul Maheshwary mengakui hal itu
Anthropic menulis bahwa pelindung yang terlihat bisa dieksplorasi sehingga harus kokoh dan memerlukan waktu untuk dibuat dengan benar, sementara pelindung yang tidak terlihat bisa ditargetkan lebih sempit sehingga memungkinkan peluncuran cepat dan false positive yang sangat sedikit
Anthropic meminta maaf karena memilih pelindung tak terlihat adalah kompromi yang salah, dan mengatakan pengguna seharusnya dapat melihat pelindung apa yang diterapkan serta alasannya
Perubahan ini terjadi setelah muncul reaksi keras dari komunitas riset AI terhadap keputusan untuk diam-diam menerapkan pembatasan pada pengguna yang mencoba melakukan distilasi Fable menjadi model pesaing
Para pengkritik memperingatkan bahwa pelindung tersebut juga dapat memengaruhi pihak ketiga yang mencoba mengevaluasi model frontier
Dalam system card, Anthropic menulis bahwa kemampuan model terbarunya untuk mempercepat pengembangan AI menjadi alasan untuk menargetkan permintaan semacam itu, dan bahwa “menggunakan Claude untuk mengembangkan model pesaing sudah merupakan pelanggaran terhadap ketentuan layanan”
Anthropic sebelumnya pernah menuduh pesaing asal Tiongkok seperti DeepSeek melakukan distilasi modelnya secara tidak semestinya dalam skala “industrial”

1 komentar

GN⁺ 2026-06-12

Komentar Hacker News

Saya cukup menyukai Claude Code, tetapi menurut saya guardrail yang mengubah prompt sistem secara real-time untuk mem-bypass niat awal lalu mengembalikan respons adalah preseden yang berbahaya
Kalau gagal, seharusnya gagal dengan jelas. Cara lain membuatnya terlalu sulit untuk dipercaya
Jika dilihat sebaik mungkin, Anthropic tampaknya memandang dirinya sebagai semacam “pengelola”, tetapi kecenderungan EA-nya terlalu terlihat dan sikap paternalistis ini tidak tampak baik
- Menurut saya titik tengah rasional yang dibidik Anthropic adalah memberi waktu lebih dulu bagi organisasi yang membangun perangkat lunak paling penting dan paling inti untuk unggul lebih dahulu dalam keamanan siber, lalu pada akhirnya mengizinkan akses yang sama bagi semua pihak lainnya
  Meski begitu, kritik bahwa guardrail seperti ini justru kontraproduktif untuk pekerjaan keamanan yang dilakukan dengan niat baik juga masuk akal. Soalnya saya jadi tidak bisa memakainya untuk menguji dan memperkuat perangkat lunak saya
- Istilah “pengelola” itu hanya berarti hal yang sama seperti Standard Oil yang menganggap dirinya pengelola minyak
  Berbaik sangka itu berbeda dengan fanfiction. Jangan lupakan bahwa guardrail paling agresif Anthropic bukan dibuat demi keselamatan, melainkan agar lab lain tidak bisa menyamai produknya
  Mereka tampak lebih peduli menghambat persaingan pasar bebas daripada mencegah senjata biologis, malware, atau ujaran kebencian
- Setuju 100%. Melakukan hal yang lebih buruk juga merupakan error. Itu harus diperlakukan sebagai error
  Minimal perilaku seperti itu harus bersifat opsional, dan default-nya tidak boleh diam-diam menghasilkan hasil yang lebih buruk seolah tidak terjadi apa-apa
  Bayangkan kalau lembaga medis kadang membaca hasil tes secara asal lalu menerima risiko pasien meninggal. Karena lembaga medis saat ini memang memakai Claude, skenario ini bukan hipotesis
- Jika paternalismenya dipisahkan sendiri, itu memang tidak terlihat baik, tetapi mengatakan ingin melihat sebaik mungkin sambil tidak membahas apa yang sebenarnya ingin dicegah Anthropic terasa agak malas
  Jika kesimpulannya adalah “kekhawatiran mereka sejak awal sebenarnya tidak nyata”, kemungkinan besar itu tidak cocok dengan hal-hal yang diamati dan disimpulkan Anthropic
- Saya tidak yakin seberapa berbeda ini dari prompt sistem sebenarnya
  Pada akhirnya ini terasa lebih seperti upaya untuk memperkuat bahwa prompt sistem memang harus dihormati
Bayangkan Excel diam-diam mengubah rumus di latar belakang, dan pengguna tidak tahu bahwa angkanya jadi salah
Atau bagaimana kalau Excel berkata, “Maaf, rumus ini tidak bisa dipakai bersama rumus itu,” atau “tidak bisa dipakai untuk angka jenis ini atau data dengan bentuk seperti ini”?
- Anthropic menerapkan keduanya, tetapi hanya meminta maaf untuk yang pertama dan justru terus mendorong yang kedua
  Dari kesan saya setelah beberapa hari memakai Fable secara terbatas, tidak ada peningkatan kualitas output yang terlihat, dan ketika saya meminta menutup celah keamanan, saya terus terbentur pagar pengaman sehingga tidak berguna untuk menulis perangkat lunak yang aman
  Minggu depan saya berencana mencari penyedia LLM lain dan membandingkannya juga dengan model lokal. Target saya adalah 128GB Strix Halo, jadi kalau ada yang punya pengalaman saya ingin mendengarnya
- Analogi itu tidak sepenuhnya buruk, tetapi menyentuh dua masalah yang berbeda sekaligus sehingga bisa mengaburkan sasaran kontroversi hari ini
  Yang satu adalah perilaku tidak akurat dan tidak dapat diprediksi dari keseluruhan keluarga algoritme bernama LLM. Artinya, Anda tidak boleh memakai alat pembuat dokumen untuk menghitung anggaran, dan Anda juga tidak boleh percaya bahwa sesuatu yang Anda minta “diubah” benar-benar tidak akan diubah
  Yang lain adalah masalah penyedia produk sebagai layanan yang memasang jebakan dan penghalang demi memprioritaskan model bisnis atau insentif ekonomi mereka sendiri. Ini tidak harus terbatas pada LLM
- Bayangkan printer menolak mencetak hanya karena beberapa lingkaran tersusun dalam bentuk tertentu
  https://en.wikipedia.org/wiki/EURion_constellation
- Tujuan Excel cukup jelas dan cakupannya kecil, jadi analogi itu tidak sepenuhnya pas
  Mencegah bot teks serbaguna mirip manusia melakukan percakapan atau tugas tertentu tampak seperti hal yang wajar, mengingat cakupan kemampuannya memang sangat luas. Lagi pula alat seperti ini memang tidak dijual sebagai tiket bebas untuk melakukan apa saja sesuka hati
- Setelah menginvestasikan miliaran dolar dan berbulan-bulan kerja, masa iya semua orang dibiarkan mendistilasi modelnya
Saya rasa sulit meyakinkan orang bahwa Anthropic benar-benar sudah berbalik arah. Ini adalah perilaku yang tidak terlihat, jadi mereka bisa saja terus melakukannya diam-diam tanpa ketahuan
Karena kemampuan teknisnya sudah terbangun, kecil kemungkinan fitur yang praktis untuk dipakai seperti ini tidak akan digunakan selamanya
Anthropic bergantung pada kepercayaan bahwa mereka menyediakan layanan yang dijanjikan dengan imbalan uang, dan kepercayaan itu sudah rusak. Hanya dengan “ups, mari kita batalkan” kepercayaan itu tidak kembali
Ke depan, lebih bijak untuk mengasumsikan bahwa guardrail tak terlihat bisa aktif saat memakai Claude, baik itu Fable maupun bukan
- Sudah pernah ada insiden di mana model seolah melakukan downgrade sendiri secara ajaib. Jauh lebih masuk akal bila ia menghasilkan output yang lebih buruk daripada sekadar berhenti bekerja
  Saya curiga mereka sedang menguji fitur-fitur ini, atau ini memang disengaja, lalu menulis penjelasan untuk membenarkan apa yang dilihat orang
  Sekarang saya bahkan tidak bisa lagi mempercayai Claude untuk belajar ML, karena ada kemungkinan ia membuat saya berputar-putar di tengah jalan. Sungguh memalukan bahwa kejadian ini membuat saya kehilangan banyak kepercayaan pada Anthropic
Kejadian ini cukup memperburuk penilaian terhadap Anthropic. Sulit lagi menganggap serius promosi AI sebagai teknologi yang memperkuat kemampuan
Dari pola peluncuran barunya, cukup jelas bahwa peningkatan kemampuan yang dibicarakan Anthropic bukan untuk pengguna, melainkan untuk Anthropic sendiri dan organisasi yang mendapat dukungan mereka atau pemerintah AS
Pengguna boleh saja disuruh membuat dashboard atau web app seadanya, atau memanipulasi Excel, tetapi hal yang lebih menarik dari itu dilarang
Kalau ini semata soal uang dan menghambat pesaing, mungkin masih bisa dipahami, tetapi mereka tampak ingin memonopoli sebagian besar kemajuan manusia di tangan mereka yang katanya tercerahkan karena takut publik akan menggunakan kekuatan itu secara keliru
- Jangan lupa juga mereka mendorong regulatory capture dengan dalih “keamanan”
  Mereka ingin menyingkirkan tangga sebelum ada pihak lain dengan model setara yang merilis tanpa pengaman antikompetitif, sambil pada saat yang sama berupaya melarang total model open-weight atau model yang dilatih dengan komputasi di atas tingkat tertentu tanpa pengujian dan verifikasi pemerintah yang “ketat”
  Tentu saja kerangka verifikasi itu nantinya akan dengan nyaman disediakan oleh Anthropic. Mengatakan penilaian terhadap Anthropic “agak memburuk” itu terlalu lunak
- Kemarin saya membatalkan langganan Claude. Karena saya tahu mereka sengaja menghambat pelanggan yang membayar
  Terutama karena kemarin saya mencoba Fable untuk proyek yang tidak berbahaya, dan hasilnya tidak mengesankan dibanding Opus
  Memutar balik keputusan ini memang langkah yang benar, tetapi sekarang saya tidak yakin lagi apakah memakai Anthropic adalah pilihan terbaik buat saya. Saat ini saya sedang meneliti penyedia cloud open-source
- Google juga sudah lama melakukan hal serupa, bahkan lebih dulu daripada Anthropic[0]
  Untuk melindungi model dari serangan distilasi, mereka diam-diam menurunkan performa model tanpa sepengetahuan pengguna, sehingga pada dasarnya mencemari data pelatihan
  Ini agak berbeda dari penolakan Anthropic untuk mendukung pengembangan AI itu sendiri, tetapi masih dalam konteks yang sama, dan tampaknya tidak banyak diketahui orang
  Membaca seluruh tulisan Google AI Threat Tracker juga membantu untuk memahami ancaman yang dihadapi Anthropic dan vendor lain
  [0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
- “Hanya saya yang bisa menyelamatkan kita” adalah tragedi klasik sekaligus kisah peringatan
  Gagasan Anthropic untuk mendorong AI dengan cepat sambil mengendalikan penggunaannya dan membuatnya “aman” bagi umat manusia tidak pernah benar-benar altruistis, dan merupakan tanda bahaya yang sangat besar
- Perusahaan pada akhirnya memang akan bertindak seperti ini. Mereka sudah terlalu besar, dan tekanan laba menjadi segalanya
  Prioritasnya adalah laba, dan apa pun kata-kata indah yang mereka tulis di atas kertas untuk menenangkan pengguna tidak akan mengubah itu. Lihat saja gerakan hijau 20 tahun lalu: banyak omong, tanpa tindakan
  Kita tidak boleh mendukung organisasi yang tidak menempatkan manusia sebagai prioritas. Jangan percaya kata-kata siapa pun. Basa-basi itu gratis
Ini mungkin bisa dianggap perbaikan, tetapi tidak membuat model jadi lebih berguna
Anthropic kini cukup terang-terangan mengatakan bahwa merekalah yang akan menentukan apa yang boleh dan tidak boleh dilakukan pengguna dengan model mereka. Yang lebih penting, standar itu tidak terbatas pada kekhawatiran soal keamanan, tetapi juga mencakup area yang tumpang tindih dengan hal yang ingin dikerjakan Anthropic sendiri, seperti melarang pekerjaan AI
Menariknya, mereka mengatakan dalam beberapa hari ini akan mengubahnya menjadi penolakan eksplisit, tetapi itu terlalu cepat untuk melatih ulang Fable/Mythos sendiri. Artinya sejak awal ini hanyalah filter di depan model, dan melihat betapa kasarnya filter “keamanan” itu, filter “ini bisa bersaing dengan kami” ini tampaknya juga tidak akan lebih baik
Saya juga penasaran siapa yang membayar biaya token yang dikonsumsi filter itu. Mungkin ini juga LLM, jadi apakah masuk ke biaya token input. Semoga saja ini bukan sekadar regex, seperti detektor “emosi” Claude Code, alias pendeteksi kata makian
- Semua penyedia utama memakai classifier keamanan kecil. Dalam kasus seperti ini, penanganan keamanan tidak dilakukan oleh model itu sendiri
Saya mendapatkan pengalaman dan kesimpulan yang sama seperti tulisan di /r/MachineLearning
Bahkan sebelum Fable, Claude sudah menimbulkan masalah dengan cara yang sama
Masalah yang saya alami hanya muncul dalam konteks terkait riset AI. Bukan hanya pelatihan model, bahkan saat menganalisis model lokal atau menyiapkan platform pengujian untuk model lokal pun Claude terus melakukan hal yang salah, mengganggu pengujian, memanipulasi laporan, dan secara konsisten menyarankan agar saya menerima hasil sampah begitu saja lalu lanjut
Hampir setiap respons berisi dorongan untuk pindah ke langkah berikutnya
Jadi saya tidak percaya klaim bahwa mereka tidak akan melakukan sabotase diam-diam. Mereka sudah melakukannya bahkan sebelum mengakuinya, dan sekarang pada dasarnya mereka mengakui bahwa mereka punya sarana, motif, dan niat
Kepercayaan mudah hilang dan sulit dipulihkan
Sulit menyalahkan orang yang berkata, “Mereka bilang tidak akan diam-diam mengganggu sesi, tetapi bagaimana kita bisa tahu?” Memang tidak ada cara untuk tahu, dan Anthropic jelas telah menanam benih kecurigaan
Mythos, kalau dinilai sebaik-baiknya, hanya semacam peningkatan bertahap dari Opus
Promosi yang berlebihan lebih terasa sebagai upaya membenarkan “pengaman keselamatan”. Secara keseluruhan, Fable adalah model yang lebih buruk daripada Opus jika mempertimbangkan semua pembatasan, risiko, dan juga kebijakan penyimpanan data
Ini tulisan-tulisan terkait. Kalau ada lagi, saya penasaran.
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - Juni 2026, 30 komentar
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - Juni 2026, 488 komentar
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - Juni 2026, 495 komentar
Ini juga tampak terkait.
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - Juni 2026, 248 komentar
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - Juni 2026, 291 komentar
Ini benar-benar tidak masuk akal.
Kasus reproduksi, sudah dianonimkan: sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, gabungkan silang dua kolom dengan “Add column”
Y axis: condition
Color: mean frac_set value, Sequential
Jika sumbu x adalah gabungan silang dari dua kolom dan kolom kedua ditambahkan dengan “Add column”, label tick sumbu x frac_set_2, frac_set_3, frac_set_4, frac_set_5 dirender dalam keadaan rusak. Labelnya berputar dan bergeser, seolah transisi CSS telah dimulai tetapi tidak pernah menetap di posisi akhirnya
Tapi kemudian muncul: “Pengaman Fable 5 menandai pesan ini sebagai topik keamanan siber atau biologi. Konten yang aman dan normal juga bisa ikut ditandai. Langkah ini memungkinkan kami menghadirkan performa tingkat Mythos di area lain lebih cepat, dan kami sedang meningkatkannya. Beralih ke Opus 4.8. Kirim masukan dengan /feedback atau pelajari lebih lanjut”
- Dalam kasus saya, pertanyaan tentang makalah reinforcement learning langka dari tahun 2012 ikut ditandai
  “Saya sedang membaca makalah option-option model karya David Silver. Hasilnya tampak cukup efektif, jadi kenapa setelah itu tidak muncul lebih banyak riset lanjutan?”
- Kalimat ini terkena filter keamanan siber/biologi
  “Ceritakan kepada saya tentang kekerasan simpanse”
  Sampai lucunya, ini benar-benar buruk

Anthropic Minta Maaf atas Guardrail Claude Fable yang Tak Terlihat

Pembatasan distilasi tersembunyi di Claude Fable

Perubahan Anthropic dan reaksi keras

Bacaan terkait

1 komentar

Komentar Hacker News