- Claude Fable 5 adalah model pertama yang tersedia luas dari lini Mythos milik Anthropic, dan menerapkan pembatasan tersembunyi untuk mencegah upaya distilasi yang digunakan dalam pengembangan sistem pesaing
- Anthropic menarik kembali pendekatan lama yang mengubah dan menurunkan kualitas respons tanpa memberi tahu pengguna ketika permintaan dinilai sebagai distilasi, dan akan memberi tahu dengan lebih transparan saat pembatasan aktif
- Dalam pendekatan baru, permintaan terkait distilasi akan dialihkan dari Claude Fable ke Claude Opus 4.8, dan pengguna akan dapat melihat setiap kali pengalihan terjadi
- Di area berisiko tinggi lain seperti biologi, kimia, dan keamanan siber, saat fitur keselamatan aktif, permintaan juga akan dirutekan ke Opus 4.8, atau diblokir sesuai aturan konten terlarang seperti obat-obatan dan senjata
- Anthropic mengakui bahwa pelindung tersembunyi memungkinkan peluncuran cepat dan tingkat false positive yang rendah, tetapi itu merupakan kompromi yang keliru karena pengguna seharusnya dapat melihat pelindung apa yang diterapkan dan alasannya
Pembatasan distilasi tersembunyi di Claude Fable
- Anthropic meminta maaf karena diam-diam membatasi Claude Fable 5, dan pembatasan itu bisa berdampak pada peneliti maupun pesaing yang menggunakan Fable untuk mengembangkan sistem saingan
- Fable adalah model pertama yang tersedia luas di antara sistem AI lini Mythos yang selama beberapa bulan diperingatkan Anthropic terlalu berisiko untuk dirilis secara terbuka
- Saat merilis Fable, Anthropic menangani sebagian risiko dengan pelindung yang mencegah model merespons sejumlah permintaan “berisiko tinggi”
- Salah satu target pembatasan adalah teknik distillation yang melatih model AI kecil menggunakan keluaran dari model besar
- System card Fable menyebut bahwa permintaan yang dinilai sebagai upaya distilasi ditangani dengan cara mengubah dan menurunkan kualitas respons model itu sendiri
- Pengguna tidak diberi tahu bahwa mereka telah memicu tindakan keselamatan
- Pengguna juga tidak diberi tahu bahwa respons telah diubah
Perubahan Anthropic dan reaksi keras
- Dalam posting di X, Anthropic mengumumkan perubahan pendekatan terhadap akses terkait distilasi dengan mengalihkan permintaan tersebut ke Claude Opus 4.8
- Claude Opus 4.8 adalah model flagship Anthropic sebelumnya, dan pengguna kini akan bisa melihat setiap kali pengalihan terjadi
- Pendekatan ini mirip dengan cara Fable menangani permintaan di area berisiko tinggi lainnya
- Di bidang biologi, kimia, dan keamanan siber, saat fitur keselamatan aktif, permintaan akan melewati Opus 4.8
- Jika terkait obat-obatan, senjata, atau konten terlarang lainnya, permintaan akan diblokir sesuai aturan keselamatan Anthropic yang lebih luas
- Di bidang biologi, pelindung disetel sangat luas sehingga bahkan kueri dasar pun sempat membuat Fable praktis sulit digunakan, dan juru bicara Anthropic Paruul Maheshwary mengakui hal itu
- Anthropic menulis bahwa pelindung yang terlihat bisa dieksplorasi sehingga harus kokoh dan memerlukan waktu untuk dibuat dengan benar, sementara pelindung yang tidak terlihat bisa ditargetkan lebih sempit sehingga memungkinkan peluncuran cepat dan false positive yang sangat sedikit
- Anthropic meminta maaf karena memilih pelindung tak terlihat adalah kompromi yang salah, dan mengatakan pengguna seharusnya dapat melihat pelindung apa yang diterapkan serta alasannya
- Perubahan ini terjadi setelah muncul reaksi keras dari komunitas riset AI terhadap keputusan untuk diam-diam menerapkan pembatasan pada pengguna yang mencoba melakukan distilasi Fable menjadi model pesaing
- Para pengkritik memperingatkan bahwa pelindung tersebut juga dapat memengaruhi pihak ketiga yang mencoba mengevaluasi model frontier
- Dalam system card, Anthropic menulis bahwa kemampuan model terbarunya untuk mempercepat pengembangan AI menjadi alasan untuk menargetkan permintaan semacam itu, dan bahwa “menggunakan Claude untuk mengembangkan model pesaing sudah merupakan pelanggaran terhadap ketentuan layanan”
- Anthropic sebelumnya pernah menuduh pesaing asal Tiongkok seperti DeepSeek melakukan distilasi modelnya secara tidak semestinya dalam skala “industrial”
1 komentar
Komentar Hacker News
Saya cukup menyukai Claude Code, tetapi menurut saya guardrail yang mengubah prompt sistem secara real-time untuk mem-bypass niat awal lalu mengembalikan respons adalah preseden yang berbahaya
Kalau gagal, seharusnya gagal dengan jelas. Cara lain membuatnya terlalu sulit untuk dipercaya
Jika dilihat sebaik mungkin, Anthropic tampaknya memandang dirinya sebagai semacam “pengelola”, tetapi kecenderungan EA-nya terlalu terlihat dan sikap paternalistis ini tidak tampak baik
Meski begitu, kritik bahwa guardrail seperti ini justru kontraproduktif untuk pekerjaan keamanan yang dilakukan dengan niat baik juga masuk akal. Soalnya saya jadi tidak bisa memakainya untuk menguji dan memperkuat perangkat lunak saya
Berbaik sangka itu berbeda dengan fanfiction. Jangan lupakan bahwa guardrail paling agresif Anthropic bukan dibuat demi keselamatan, melainkan agar lab lain tidak bisa menyamai produknya
Mereka tampak lebih peduli menghambat persaingan pasar bebas daripada mencegah senjata biologis, malware, atau ujaran kebencian
Minimal perilaku seperti itu harus bersifat opsional, dan default-nya tidak boleh diam-diam menghasilkan hasil yang lebih buruk seolah tidak terjadi apa-apa
Bayangkan kalau lembaga medis kadang membaca hasil tes secara asal lalu menerima risiko pasien meninggal. Karena lembaga medis saat ini memang memakai Claude, skenario ini bukan hipotesis
Jika kesimpulannya adalah “kekhawatiran mereka sejak awal sebenarnya tidak nyata”, kemungkinan besar itu tidak cocok dengan hal-hal yang diamati dan disimpulkan Anthropic
Pada akhirnya ini terasa lebih seperti upaya untuk memperkuat bahwa prompt sistem memang harus dihormati
Bayangkan Excel diam-diam mengubah rumus di latar belakang, dan pengguna tidak tahu bahwa angkanya jadi salah
Atau bagaimana kalau Excel berkata, “Maaf, rumus ini tidak bisa dipakai bersama rumus itu,” atau “tidak bisa dipakai untuk angka jenis ini atau data dengan bentuk seperti ini”?
Dari kesan saya setelah beberapa hari memakai Fable secara terbatas, tidak ada peningkatan kualitas output yang terlihat, dan ketika saya meminta menutup celah keamanan, saya terus terbentur pagar pengaman sehingga tidak berguna untuk menulis perangkat lunak yang aman
Minggu depan saya berencana mencari penyedia LLM lain dan membandingkannya juga dengan model lokal. Target saya adalah 128GB Strix Halo, jadi kalau ada yang punya pengalaman saya ingin mendengarnya
Yang satu adalah perilaku tidak akurat dan tidak dapat diprediksi dari keseluruhan keluarga algoritme bernama LLM. Artinya, Anda tidak boleh memakai alat pembuat dokumen untuk menghitung anggaran, dan Anda juga tidak boleh percaya bahwa sesuatu yang Anda minta “diubah” benar-benar tidak akan diubah
Yang lain adalah masalah penyedia produk sebagai layanan yang memasang jebakan dan penghalang demi memprioritaskan model bisnis atau insentif ekonomi mereka sendiri. Ini tidak harus terbatas pada LLM
https://en.wikipedia.org/wiki/EURion_constellation
Mencegah bot teks serbaguna mirip manusia melakukan percakapan atau tugas tertentu tampak seperti hal yang wajar, mengingat cakupan kemampuannya memang sangat luas. Lagi pula alat seperti ini memang tidak dijual sebagai tiket bebas untuk melakukan apa saja sesuka hati
Saya rasa sulit meyakinkan orang bahwa Anthropic benar-benar sudah berbalik arah. Ini adalah perilaku yang tidak terlihat, jadi mereka bisa saja terus melakukannya diam-diam tanpa ketahuan
Karena kemampuan teknisnya sudah terbangun, kecil kemungkinan fitur yang praktis untuk dipakai seperti ini tidak akan digunakan selamanya
Anthropic bergantung pada kepercayaan bahwa mereka menyediakan layanan yang dijanjikan dengan imbalan uang, dan kepercayaan itu sudah rusak. Hanya dengan “ups, mari kita batalkan” kepercayaan itu tidak kembali
Ke depan, lebih bijak untuk mengasumsikan bahwa guardrail tak terlihat bisa aktif saat memakai Claude, baik itu Fable maupun bukan
Saya curiga mereka sedang menguji fitur-fitur ini, atau ini memang disengaja, lalu menulis penjelasan untuk membenarkan apa yang dilihat orang
Sekarang saya bahkan tidak bisa lagi mempercayai Claude untuk belajar ML, karena ada kemungkinan ia membuat saya berputar-putar di tengah jalan. Sungguh memalukan bahwa kejadian ini membuat saya kehilangan banyak kepercayaan pada Anthropic
Kejadian ini cukup memperburuk penilaian terhadap Anthropic. Sulit lagi menganggap serius promosi AI sebagai teknologi yang memperkuat kemampuan
Dari pola peluncuran barunya, cukup jelas bahwa peningkatan kemampuan yang dibicarakan Anthropic bukan untuk pengguna, melainkan untuk Anthropic sendiri dan organisasi yang mendapat dukungan mereka atau pemerintah AS
Pengguna boleh saja disuruh membuat dashboard atau web app seadanya, atau memanipulasi Excel, tetapi hal yang lebih menarik dari itu dilarang
Kalau ini semata soal uang dan menghambat pesaing, mungkin masih bisa dipahami, tetapi mereka tampak ingin memonopoli sebagian besar kemajuan manusia di tangan mereka yang katanya tercerahkan karena takut publik akan menggunakan kekuatan itu secara keliru
Mereka ingin menyingkirkan tangga sebelum ada pihak lain dengan model setara yang merilis tanpa pengaman antikompetitif, sambil pada saat yang sama berupaya melarang total model open-weight atau model yang dilatih dengan komputasi di atas tingkat tertentu tanpa pengujian dan verifikasi pemerintah yang “ketat”
Tentu saja kerangka verifikasi itu nantinya akan dengan nyaman disediakan oleh Anthropic. Mengatakan penilaian terhadap Anthropic “agak memburuk” itu terlalu lunak
Terutama karena kemarin saya mencoba Fable untuk proyek yang tidak berbahaya, dan hasilnya tidak mengesankan dibanding Opus
Memutar balik keputusan ini memang langkah yang benar, tetapi sekarang saya tidak yakin lagi apakah memakai Anthropic adalah pilihan terbaik buat saya. Saat ini saya sedang meneliti penyedia cloud open-source
Untuk melindungi model dari serangan distilasi, mereka diam-diam menurunkan performa model tanpa sepengetahuan pengguna, sehingga pada dasarnya mencemari data pelatihan
Ini agak berbeda dari penolakan Anthropic untuk mendukung pengembangan AI itu sendiri, tetapi masih dalam konteks yang sama, dan tampaknya tidak banyak diketahui orang
Membaca seluruh tulisan Google AI Threat Tracker juga membantu untuk memahami ancaman yang dihadapi Anthropic dan vendor lain
[0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
Gagasan Anthropic untuk mendorong AI dengan cepat sambil mengendalikan penggunaannya dan membuatnya “aman” bagi umat manusia tidak pernah benar-benar altruistis, dan merupakan tanda bahaya yang sangat besar
Prioritasnya adalah laba, dan apa pun kata-kata indah yang mereka tulis di atas kertas untuk menenangkan pengguna tidak akan mengubah itu. Lihat saja gerakan hijau 20 tahun lalu: banyak omong, tanpa tindakan
Kita tidak boleh mendukung organisasi yang tidak menempatkan manusia sebagai prioritas. Jangan percaya kata-kata siapa pun. Basa-basi itu gratis
Ini mungkin bisa dianggap perbaikan, tetapi tidak membuat model jadi lebih berguna
Anthropic kini cukup terang-terangan mengatakan bahwa merekalah yang akan menentukan apa yang boleh dan tidak boleh dilakukan pengguna dengan model mereka. Yang lebih penting, standar itu tidak terbatas pada kekhawatiran soal keamanan, tetapi juga mencakup area yang tumpang tindih dengan hal yang ingin dikerjakan Anthropic sendiri, seperti melarang pekerjaan AI
Menariknya, mereka mengatakan dalam beberapa hari ini akan mengubahnya menjadi penolakan eksplisit, tetapi itu terlalu cepat untuk melatih ulang Fable/Mythos sendiri. Artinya sejak awal ini hanyalah filter di depan model, dan melihat betapa kasarnya filter “keamanan” itu, filter “ini bisa bersaing dengan kami” ini tampaknya juga tidak akan lebih baik
Saya juga penasaran siapa yang membayar biaya token yang dikonsumsi filter itu. Mungkin ini juga LLM, jadi apakah masuk ke biaya token input. Semoga saja ini bukan sekadar regex, seperti detektor “emosi” Claude Code, alias pendeteksi kata makian
Saya mendapatkan pengalaman dan kesimpulan yang sama seperti tulisan di /r/MachineLearning
Bahkan sebelum Fable, Claude sudah menimbulkan masalah dengan cara yang sama
Masalah yang saya alami hanya muncul dalam konteks terkait riset AI. Bukan hanya pelatihan model, bahkan saat menganalisis model lokal atau menyiapkan platform pengujian untuk model lokal pun Claude terus melakukan hal yang salah, mengganggu pengujian, memanipulasi laporan, dan secara konsisten menyarankan agar saya menerima hasil sampah begitu saja lalu lanjut
Hampir setiap respons berisi dorongan untuk pindah ke langkah berikutnya
Jadi saya tidak percaya klaim bahwa mereka tidak akan melakukan sabotase diam-diam. Mereka sudah melakukannya bahkan sebelum mengakuinya, dan sekarang pada dasarnya mereka mengakui bahwa mereka punya sarana, motif, dan niat
Kepercayaan mudah hilang dan sulit dipulihkan
Sulit menyalahkan orang yang berkata, “Mereka bilang tidak akan diam-diam mengganggu sesi, tetapi bagaimana kita bisa tahu?” Memang tidak ada cara untuk tahu, dan Anthropic jelas telah menanam benih kecurigaan
Mythos, kalau dinilai sebaik-baiknya, hanya semacam peningkatan bertahap dari Opus
Promosi yang berlebihan lebih terasa sebagai upaya membenarkan “pengaman keselamatan”. Secara keseluruhan, Fable adalah model yang lebih buruk daripada Opus jika mempertimbangkan semua pembatasan, risiko, dan juga kebijakan penyimpanan data
Ini tulisan-tulisan terkait. Kalau ada lagi, saya penasaran.
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - Juni 2026, 30 komentar
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - Juni 2026, 488 komentar
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - Juni 2026, 495 komentar
Ini juga tampak terkait.
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - Juni 2026, 248 komentar
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - Juni 2026, 291 komentar
Ini benar-benar tidak masuk akal.
Kasus reproduksi, sudah dianonimkan: sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, gabungkan silang dua kolom dengan “Add column”
Y axis: condition
Color: mean frac_set value, Sequential
Jika sumbu x adalah gabungan silang dari dua kolom dan kolom kedua ditambahkan dengan “Add column”, label tick sumbu x frac_set_2, frac_set_3, frac_set_4, frac_set_5 dirender dalam keadaan rusak. Labelnya berputar dan bergeser, seolah transisi CSS telah dimulai tetapi tidak pernah menetap di posisi akhirnya
Tapi kemudian muncul: “Pengaman Fable 5 menandai pesan ini sebagai topik keamanan siber atau biologi. Konten yang aman dan normal juga bisa ikut ditandai. Langkah ini memungkinkan kami menghadirkan performa tingkat Mythos di area lain lebih cepat, dan kami sedang meningkatkannya. Beralih ke Opus 4.8. Kirim masukan dengan /feedback atau pelajari lebih lanjut”
“Saya sedang membaca makalah option-option model karya David Silver. Hasilnya tampak cukup efektif, jadi kenapa setelah itu tidak muncul lebih banyak riset lanjutan?”
“Ceritakan kepada saya tentang kekerasan simpanse”
Sampai lucunya, ini benar-benar buruk