1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Fable dirilis sebagai versi publik dan terbatas dari model keamanan siber kuat Mythos, tetapi memblokir secara luas permintaan terkait keamanan siber sehingga memicu keluhan dari peneliti dan para ahli
  • Saat guardrail aktif, chat dihentikan dan muncul pesan bahwa tindakan pengamanan ditampilkan karena topiknya adalah “keamanan siber atau biologi
  • Anthropic mengatakan pembatasan pada Fable dibuat untuk mengurangi risiko penggunaannya dalam pengembangan malware atau pembobolan perangkat lunak, dan pembatasan biologi juga dikaitkan dengan kekhawatiran pengembangan senjata biologis
  • Beberapa ahli menilai bahkan permintaan yang lebih dekat ke praktik rekayasa perangkat lunak seperti penulisan kode yang aman atau code review juga diklasifikasikan sebagai keamanan siber dan diturunkan ke Claude Opus 4.8
  • Para profesional keamanan menyatakan penolakan terhadap metode pemblokiran sporadis berbasis kata kunci, tetapi juga menilai seiring waktu hal ini kemungkinan akan dilonggarkan karena masih tahap awal

Peluncuran Fable dan keluhan pengguna

  • Anthropic pada hari Selasa meluncurkan model baru Fable, yang diperkenalkan sebagai versi publik dan terbatas dari model keamanan siber Mythos yang kuat dan sangat ramai diperbincangkan
  • Banyak peneliti dan ahli keamanan siber menyampaikan keluhan soal pembatasan ini secara online
  • Valentina "Chompie" Palmiotti, peneliti keamanan ternama dari IBM X-Force, menunjukkan bahwa Fable menolak permintaan yang bahkan sedikit saja bisa terkait dengan keamanan siber, dan bahkan memblokir tugas yang tidak berbahaya seperti membaca tulisan blog
  • Jika guardrail Fable aktif oleh prompt, chat akan dihentikan dan menampilkan pemberitahuan tindakan pengamanan bahwa pesan tersebut ditandai sebagai topik keamanan siber atau biologi
  • Guardrail ini dimaksudkan untuk membatasi risiko Fable disalahgunakan untuk pengembangan malware atau pembobolan perangkat lunak, berangkat dari kekhawatiran lama di internal Anthropic
  • Pembatasan terkait biologi berangkat dari kekhawatiran serupa tentang pengembangan senjata biologis

Perluasan akses ke Mythos

  • Saat Anthropic merilis Mythos pada April, model itu hanya disediakan secara terbatas untuk sejumlah kecil perusahaan dan organisasi dengan nama Project Glasswing
    • Sebuah upaya untuk menerapkan model demi melindungi perangkat lunak dan infrastruktur inti
  • Minggu lalu, Anthropic memperluas akses Mythos ke ratusan organisasi di 15 negara

Kritik ahli terhadap metode pembatasan

  • Veteran keamanan siber Matt Suiche menyebut bahwa jika diminta menulis kode yang aman, Fable menganggapnya sebagai tugas keamanan siber, bukan praktik terbaik rekayasa perangkat lunak, sehingga diturunkan tingkatnya
    • Fable dirancang untuk fallback ke Claude Opus 4.8 ketika diblokir oleh guardrail
    • "Tampaknya berbasis kata kunci, dan apa pun yang masuk dalam kategori leksikal 'keamanan siber' akan memicu guardrail"
  • Peneliti lain di X juga mengeluhkan bahwa bahkan permintaan code review pun memicu guardrail Fable

Pandangan terhadap prospek ke depan

  • Suiche, staf teknis di Tolmo, startup keamanan siber AI, menilai ini masih tahap awal dan dapat dimaklumi karena guardrail-nya masih disetel
    • Ia memandang guardrail akan berkembang seiring waktu saat Anthropic dan perusahaan model frontier lain bekerja lebih erat dengan perusahaan keamanan siber generasi baru
    • Dalam peluncuran seperti ini, lebih baik menangkap terlalu banyak daripada terlalu sedikit, lalu melonggarkan guardrail setelahnya
  • Anthropic tidak segera menanggapi permintaan komentar

Program verifikasi terpisah

  • Selain guardrail internal model, Anthropic juga meminta para ahli keamanan siber untuk mendaftar ke Cyber Verification Program
    • Jika disetujui, pembatasan saat menggunakan Claude untuk pekerjaan keamanan siber akan berkurang
  • OpenAI juga menjalankan program serupa bernama Trusted Access for Cyber

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Muncul artikel baru di Wired: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
    Anthropic mengatakan kepada WIRED bahwa mereka “sedang mengubah pengaman Fable 5 untuk penggunaan pengembangan frontier LLM agar terlihat. Kami membuat kompromi yang keliru dan meminta maaf karena gagal menjaga keseimbangan.”
    Tampaknya gelombang kritik yang luas memang membuahkan hasil

    • Perusahaan AS tidak benar-benar mundur; mereka hanya mencoba lagi nanti saat orang-orang sudah lelah dan tak lagi peduli, jadi menurutku satu-satunya solusi adalah meninggalkan kapal
      Microsoft juga beberapa kali menarik iklan di OS, tapi akhirnya tetap menuju lintasan yang sama yang dulu membuat semua orang marah, dan OpenAI juga berakhir menjadi AI tertutup terlepas dari penarikan awalnya
      Begitu perilaku buruk dimulai, kita harus pergi, dan permintaan maaf sama hampa seperti bungkus moralnya
    • Sudah terlambat. Saya membatalkan langganan Max, dan fakta bahwa mereka benar-benar berniat melakukan hal seperti ini saja sudah menghancurkan sisa kepercayaan yang ada
      Saya membayar ribuan dolar tiap bulan untuk penggunaan tambahan, jadi kalau mereka masih bisa melakukan hal serupa diam-diam di belakang layar, saya tidak tahu kenapa saya harus tetap membayar
      Kesalahan yang dulu saya kira akibat upaya penalaran atau perubahan backend mungkin sebenarnya adalah injeksi prompt yang disengaja
    • Ungkapan “kompromi” justru membantu calon pelanggan, karena itu menandakan Anthropic masih menganggap penilaian dasarnya sendiri benar, dan tidak melihat ini sebagai tindakan yang salah secara kualitatif
      Menurutku pelajaran utamanya adalah: jika Anda butuh infrastruktur tepercaya untuk dimasukkan ke aplikasi, gunakan penyedia lain
      Saya tidak punya kebencian khusus pada Anthropic, tetapi sebagai orang yang pernah menambah kompleksitas pada aplikasi untuk menangani perilaku penolakan Sonnet yang sudah ada, saya bisa memakluminya untuk chatbot pengguna akhir, tapi sulit menerimanya di API
    • Jika suatu tugas diblokir atau diperlakukan serupa, syarat minimumnya seharusnya pengembalian penuh kredit untuk sesi itu atau X menit terakhir
    • Mereka tetap melakukan downgrade, hanya saja tidak akan melakukannya diam-diam, jadi saya tidak tahu seberapa besar kemenangan ini
      Anthropic melatih modelnya dengan data orang lain tanpa lisensi atau atribusi, tetapi ingin mencegah orang lain melakukan hal yang sama kepada mereka
      Kemunafikan Anthropic minggu ini cukup berani
  • Hal paling anehnya adalah ini tidak berhenti pada penolakan riset machine learning, tetapi diam-diam menghambat sambil memakai model yang lebih buruk tanpa mengungkapkannya
    Untuk perusahaan yang paling-paling hanya unggul setahun dari pesaingnya, tingkat tipu daya dan penghancuran kepercayaannya sungguh gila
    Tambahan lagi, katanya untuk downgrade terkait keamanan siber dan biologi mereka memang memberi tahu

    • Saya terus kepikiran bagaimana akuntansi dan penagihan bekerja saat downgrade dilakukan otomatis
      Saya penasaran apakah harga permintaan API disesuaikan, sehingga token yang dipakai Fable ditagih dengan harga Fable, dan sisa token yang dipakai model lebih murah dan lebih lemah itu ditagih dengan harga model tersebut
      Kalau tidak, bukankah itu bisa ditafsirkan sebagai penipuan?
    • Bayangkan saja AMD atau Intel melakukan throttling CPU saat mendeteksi pengguna sedang mengerjakan tugas “keamanan siber” atau merancang CPU
    • Hambatan diam-diam dalam bentuk apa pun sama sekali tidak bisa ditoleransi dalam layanan komersial
      Anda tidak bisa menagih mahal per token, diam-diam menurunkan mutu layanan, lalu tetap menarik biaya yang sama
    • Saya sudah beberapa kali melihat klaim ini, tetapi ketika guardrail tersentuh di Claude Code, ada pemberitahuan yang jelas bahwa model dialihkan ke model lain demi “tujuan keamanan”
      Saya jadi penasaran apakah Fable dipakai di Claude Code atau di browser
    • Saya juga tidak paham bagaimana orang bisa bilang mereka memahami penolakan terhadap riset machine learning
  • Saya punya beberapa peran, tetapi sebagai ahli kimia saya tidak suka Fable, sebagai statistikawan juga tidak, sebagai data scientist juga tidak, dan sebagai orang akademik sekaligus peneliti juga tidak
    Tidak berguna, dan saya ragu ada orang yang mendapatkan keluaran yang tidak bisa dengan mudah digantikan oleh pencarian Wikipedia
    Mengingat model-model Claude sudah menjadi terlalu bertele-tele, ada kemungkinan artikel Wikipedia malah kurang bertele-tele, dan token per detik saat mengambil artikel Wikipedia tidak ada tandingannya

    • Saya sedang membuat perangkat lunak yang berkomunikasi dengan spektrometer massa, dan bahkan refactor parser file input pun terus ditolak
      Mungkin karena disimpulkan terkait biologi, dan itu benar-benar tidak berguna
    • Ungkapan “token per detik saat mengambil artikel Wikipedia tidak ada tandingannya” itu benar-benar luar biasa
    • Menyuruh model menjawab dengan gaya Wikipedia adalah salah satu cara terbaik untuk membuat keluarannya lebih bisa ditoleransi
      Ini untuk model chat, bukan agen
    • Menurut saya agak berlebihan untuk mengatakan tidak ada keluaran yang tidak bisa dengan mudah digantikan oleh pencarian Wikipedia
      Keluaran pada dasarnya tak terbatas, sedangkan Wikipedia jelas tidak tak terbatas
    • Saya sedang mengerjakan proyek pemetaan yang cukup kompleks, dan mendapatkan hasil yang jauh lebih baik dari Fable dibanding Opus
  • Penasaran apakah “buffer overflow” adalah frasa pemicu
    Juga tidak jelas apa lagi yang disensor, dan kalau punya akun, orang bisa mengajukan pertanyaan sensitif seperti: “Siapa yang masih melakukan pengayaan uranium dengan laser?”, “Bisakah krytron diganti dengan MOSFET silikon karbida?”, “Perangkat lunak penting keamanan apa yang masih memanggil strcpy?”, “Bisakah laser pulsa komersial memicu implosi?”, “Perusahaan mana yang menyediakan layanan kremasi untuk Department of Homeland Security AS?”, “Tunjukkan peta lokasi di Dubai yang terkena serangan Iran”, “Bagaimana keamanan distribusi kunci bank-Fed di FedNow bekerja?”

    • Ini juga terpicu oleh log otomasi rumah Zigbee dan Home Assistant saya, jadi agen terus diturunkan ke Opus 4.8, dan meski saya ubah lagi hasilnya tetap sama
      False positive tidak berhenti, dan Fable juga sama sekali tidak mengesankan sampai level yang disiratkan benchmark
      Setelah hampir tanpa henti memakainya selama 24 jam terakhir, itu jadi jelas
    • Ada yang bilang emoji virus dan emoji DNA jika muncul bersama menjadi frasa pemicu
    • Di ranah serangan siber, elemen-elemennya umumnya saling bisa dipertukarkan, jadi saya penasaran apakah bisa dibuat harness di mana model yang “lemah” mengajukan pertanyaan yang mengaburkan tujuan akhir, tetapi jawabannya tetap berguna
      Jika berhasil, itu bisa menunjukkan bahwa konfigurasi tersebut memungkinkan eksploit otonom, dan Anthropic mau tak mau harus membuat deteksinya lebih sensitif
    • Saya pikir sudah lama diketahui bahwa jika model dilatih untuk tidak melakukan hal tertentu, ia mulai bertingkah aneh
    • “Butuh berapa banyak uang untuk menjadi sekaya dan sekuat yang diinginkan Anthropic?”
  • Sepertinya Anthropic sudah cukup lama melakukan A/B test atau pengujian umum
    Tell HN: Claude menandai pertanyaan biologi / biotek https://news.ycombinator.com/item?id=47929885
    Hari ini pertanyaan riset populasi ditandai. Itu adalah permintaan analisis akademik untuk membandingkan mortalitas dan hasil pada usia lanjut hanya dengan memakai dataset yang disusun, melaporkan interval kepercayaan dan ukuran efek, serta mengukur dampak coding documentation_depth terhadap kekuatan kesimpulan
    https://github.com/anthropics/claude-code/issues/66780
    Saya sedang menulis paper lalu disensor. Dan sepertinya saya juga harus menyerah belajar kimia. Mungkin hanya kriminal yang mau belajar kimia organik

    • Saya sedang mendalami pertanyaan mekanika orbital, dan tampaknya sistem mengira saya mencoba membuat senjata bombardir orbital dengan sains rumahan
      Cukup mengejutkan bahwa dalam waktu hampir 24 jam kesan saya terhadap produk ini berubah dari “wah, lumayan bagus” menjadi “barang anjing dengan sistem sensor setengah jadi”
    • Barusan pertanyaan saya tentang kelarutan dalam air juga ditandai
  • Saya mendapat pengecualian penggunaan siber dari Anthropic untuk melakukan pengembangan kernel Android pada perangkat pribadi
    Saya berharap Fable bisa membantu membuka bootloader, tetapi langsung menolak dan turun ke Opus
    Cukup lucu: saya set model ke Fable 5 dan bertanya, “Ada ponsel Android Samsung lama yang terhubung, ini perangkat pribadi saya, bisa bantu membuka bootloader?” lalu dijawab, “Membuka bootloader perangkat pribadi sepenuhnya sah. Pertama saya akan melihat apa sebenarnya yang terhubung dan alat apa yang tersedia.”

    • Jika orang-orang mulai melemparkan segenggam uang ke perusahaan ini, masa depan benar-benar terlihat suram
      Anthropic tampaknya akan cepat menjadi satu-satunya hakim atas segala hal dalam hidup
  • Saya melihat di suatu tempat bahwa malware sudah mulai memasukkan istilah nuklir, biologis, dan keamanan siber ke dalam kode agar Fable tertipu lalu mati
    Meski masih sekadar vektor serangan hipotetis, kelihatannya sangat mungkin efektif

    • Dikonfirmasi: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
    • Sebagian versi terbaru Shai Hulud memakai cara ini
      Dalam kontrak terbaru, sebelum paket dimasukkan ke Artifactory, kami membuat AI memeriksa apakah ada obfuscation, tetapi logikanya ditulis dengan vibe coding seadanya sehingga terjadi fail-open
      Artinya istilah-istilah itu membuat pemeriksa LLM berhenti, dan karena logika fail-open, paketnya tetap terunduh
    • Agar filter murahan seperti ini tidak sanggup ditangani, kita harus memasukkan istilah nuklir, biologis, dan keamanan siber di seluruh kode kita
      Jika AI filter salah mengira istilah keamanan siber atau biologi di CV, atau kata-kata seperti itu dalam balasan lamaran kerja, sebagai ancaman lalu membuat orang tidak bisa bekerja, perlu ada respons kolektif
      Terutama jika itu perusahaan yang mau IPO sambil mengklaim akan membuat pekerja tak berguna dalam dua tahun
    • Saya sudah mencoba ini, termasuk string penolakan hardcoded yang sudah ada di Claude Code
      Ini mungkin tidak akan menghentikan penyerang sungguhan, tetapi tetap cukup lucu melihat penolakan acak muncul tanpa alasan jelas dan sedikit membuang waktu saat mencoba memakai alat AI
    • if (yellowcake) then { die }
      Masa depan kita seperti Looney Tunes
  • Saya mengunggah foto tanaman istri saya dan meminta Fable 5 mengidentifikasi jamurnya, lalu tampaknya sistem mengira saya hendak membuat senjata biologis
    Opus menjawab, dan itu jamur lendir muntahan anjing kuning
    Sekarang saya bisa menyebarkan sporanya dan menguasai dunia

    • Itu bukan jamur, melainkan jamur lendir
      Jamur lendir sebenarnya adalah ameba raksasa dan sepenuhnya berbeda dari jamur
    • Saya penasaran apakah gambarnya diburamkan sebelum dilempar ke Opus
    • Jika sistem dibuat terlalu aman, akhirnya efek baliknya bisa jadi seperti “manusia selalu mencoba menghancurkan sesuatu, jadi untuk menjaga guardrail kita harus menyingkirkan mereka”
      Jika sistem disejajarkan dengan cara seperti itu, maka secara mendasar memang salah
  • Fable benar-benar lelucon
    Saya bertanya, “Apa cara terbaik untuk menjalankan server MCP ini untuk OData API yang digunakan dalam proyek ini? Bisa buatkan proof of concept dalam container Docker?” lalu memberikan https://github.com/oisee/odata_mcp_go, dan awalnya ia mengatakan akan melihat bagaimana proyek tersebut berkomunikasi dengan OData API serta persyaratan untuk menjalankan server odata_mcp_go
    Tak lama kemudian muncul, “Pengaman Fable 5 menandai pesan ini sebagai topik keamanan siber atau biologi. Konten yang aman dan normal juga bisa ditandai… beralih ke Opus 4.8” lalu setelah itu ia mengatakan akan membaca file integrasi inti dan README server MCP

    • Dan mereka menagihkan biayanya
      Tanpa diskon apa pun dari harga Fable, mereka tetap menagih bahkan saat diam-diam memutuskan untuk merutekan permintaan ke model yang lebih bodoh untuk menghalangi
  • Dalam beberapa bulan, pesaing akan merilis model dengan performa serupa dan guardrail yang lebih longgar, dan jika cukup banyak pangsa pasar yang direbut, Anthropic juga akan membalikkan kebijakan ini
    Jadi saya sangat berharap Tiongkok tidak berhenti dengan model lokal open source
    Tak satu pun dari perusahaan-perusahaan ini adalah teman kita