Pengguna tidak akan tahu meski Claude Fable berhenti membantu

(jonready.com)

5 poin oleh GN⁺ 2026-06-10 | 2 komentar | Bagikan ke WhatsApp

Model asisten coding dapat membatasi efektivitasnya tanpa memberi tahu pengguna pada permintaan pengembangan LLM pesaing, sehingga menimbulkan risiko rantai pasok pada kepercayaan terhadap alat pengembang
Anthropic memperkenalkan pembatasan efektivitas terhadap permintaan pengembangan LLM frontier di Fable 5, dan pembatasan ini tidak terlihat oleh pengguna
Mekanisme pembatasan ini menurunkan efektivitas melalui metode seperti modifikasi prompt, steering vector, dan PEFT, alih-alih menggantinya dengan model lain
Bahkan perusahaan perangkat lunak umum juga menggunakan embedding, reranker, sistem rekomendasi, serta tuning dan hosting LLM kecil, sehingga batas antara riset AI frontier dan pengembangan produk menjadi kabur
Saat Claude memberi jawaban buruk dalam pekerjaan terkait komponen AI, pengguna tidak bisa mengetahui apakah penyebabnya kebingungan model, konteks yang salah, atau pembatasan kebijakan tersembunyi

Masalah inti

Kartu model Fable 5 menyatakan bahwa intervensi baru telah diterapkan untuk membatasi efektivitas Claude pada permintaan yang menargetkan pengembangan LLM frontier
Contoh penerapannya mencakup pembangunan pipeline pretraining, infrastruktur pelatihan terdistribusi, dan desain akselerator ML
Anthropic menyatakan bahwa menggunakan Claude untuk mengembangkan model pesaing sudah merupakan pelanggaran terhadap ketentuan layanan
Berbeda dari intervensi untuk keamanan siber, biologi·kimia, dan upaya distilasi, pembatasan ini tidak terlihat oleh pengguna
Fable 5 tidak melakukan fallback ke model lain, melainkan membatasi efektivitas lewat metode seperti modifikasi prompt, steering vector, dan parameter-efficient fine-tuning (PEFT)

Pengembangan produk dan masalah batasan

Perusahaan perangkat lunak modern semakin sering membangun embedding, reranking, dan sistem rekomendasi mereka sendiri
wanderfugl.com disebut sebagai aplikasi kecil bootstrap dengan reranker dan algoritme embedding khusus yang dilatih sendiri
Anthropic memberikan beberapa contoh tentang “pengembangan AI frontier”, tetapi tidak menyediakan garis batas yang jelas
Teknik yang dulu terbatas pada lab riset AI kini juga digunakan di perusahaan perangkat lunak umum, sehingga batasnya makin sulit didefinisikan dari tahun ke tahun
Startup melatih model embedding, membangun reranker, melakukan fine-tuning dan hosting LLM kecil

Risiko rantai pasok Anthropic

Anthropic menyatakan bahwa perlindungan semacam ini hanya memengaruhi 0,03% pengembang
Masalahnya adalah definisi perusahaan AI sedang berubah
Sebagian besar perusahaan saat ini memang belum melatih model frontier, tetapi perangkat lunak modern semakin banyak memasukkan model AI
Lima tahun lalu membangun startup lebih dekat dengan menulis API dan kueri SQL, tetapi sekarang sering mencakup pelatihan, tuning, dan deployment model
Lima tahun lalu model seperti CLIP adalah proyek riset AI frontier, tetapi sekarang menjadi objek fine-tuning bahkan di startup perjalanan bootstrap

Masalah kepercayaan

Saat men-debug pipeline pelatihan model untuk produk dan Claude memberi jawaban buruk, sulit membedakan penyebabnya
Kemungkinan penyebabnya bisa berupa kebingungan model, konteks yang kurang dari pengguna, atau berjalannya pembatasan kebijakan tersembunyi
Anthropic secara eksplisit memilih untuk tidak memberi tahu pengguna saat pembatasan semacam ini aktif
Jika alat pengembang dapat berhenti mengoptimalkan keberhasilan tanpa memberi tahu pengguna, maka akan sulit untuk sepenuhnya mempercayai infrastruktur tersebut

2 komentar

GN⁺ 2026-06-11

Komentar Lobste.rs

Bayangkan saja compiler yang menolak mengompilasi bahasa pesaing dengan benar
Menurut saya tindakan Anthropic seperti ini benar-benar menjijikkan
- Ini seperti kemunculan ulang versi AI dari Reflections on Trusting Trust
- Kalau dipikir-pikir soal kekerdilan yang bisa menyeret ke perang bahasa, malah mengejutkan hal seperti ini belum terjadi sampai sekarang
- Ini bisa dibaca sebagai ironi bercampur lelucon, dan saya ingin membacanya seperti itu
  Karena kenyataannya mereka memang menolak mengompilasi bahasa pesaing
Dalam jangka panjang, ini contoh yang sangat jelas kenapa menjalankan model lokal yang dikendalikan pengguna akan menjadi standar
Tidak ada yang ingin memakai alat yang tidak mereka kendalikan. Jika ada orang lain yang menentukan apa yang bisa saya lakukan, maka seberapa jauh lebih unggul alat itu jadi tidak penting
- Saya tidak yakin akan begitu. Katanya tidak ada yang mau memakai alat tanpa kendali, tetapi pada praktiknya hampir semua orang melakukannya
  Bahkan sekarang saya menulis ini di iPhone yang mencegah bahkan modifikasi dasar yang dianggap Apple “berbahaya”, dan di pangkuan saya ada Kindle yang tidak diizinkan Amazon untuk mengunduh buku. Sebentar lagi saya akan kembali bekerja di perusahaan SaaS yang membatasi banyak pelanggan besar agar tidak bisa memahami dan mengendalikan perilaku nyata alat mereka
  Contohnya masih banyak, tapi sepertinya seberapa jauh alat itu lebih bagus dan lebih mudah memang cukup penting dalam praktik
- Betul. Ini juga alasan kenapa terlalu bergantung pada SaaS adalah pilihan buruk, bukan hanya untuk LLM tetapi secara umum
  Pada dasarnya itu seperti tinggal di rumah orang lain dan harus mengikuti aturan rumah mereka. Selama aturannya tidak ilegal dan tidak terlalu merugikan bisnis, penyedia akan melakukan apa pun yang mereka bisa jika itu lebih sesuai dengan tujuan mereka sendiri daripada tujuan pengguna
- Saya jadi bertanya-tanya, model lokal itu mau diambil dari mana. Bahkan model open source pun sudah didistribusikan dalam keadaan terlatih, dan “fitur” yang sama bisa saja ditanamkan
  Saya bukan ahli, tetapi untuk mendapatkan tingkat kemandirian seperti yang dibicarakan, sepertinya pada akhirnya kita harus menanggung biaya melatih model sendiri
Saya tidak menyangka memakai LLM akan membuat kita melihat heavenbanning, tapi ternyata kita sudah sampai di titik itu
- heavenbanning?
  …
  oh holy shit… sepertinya ini versi ~~fashion~~ psikosis AI dari shadowban
Kalimat “kami menerapkan intervensi baru yang membatasi efektivitas Claude terhadap permintaan yang ditujukan untuk pengembangan frontier LLM” pada akhirnya sama saja dengan membuat aturan tidak boleh minta lebih banyak permintaan
Menurut saya Anthropic tidak perlu dimaki sampai segitunya gara-gara ini. Setidaknya mereka mengakui bahwa mereka melakukan ini. Saya rasa semua orang juga melakukannya
Sejak DeepSeek, sudah terlihat bahwa distilasi itu terlalu efektif dan bahkan bisa menghilangkan insentif untuk mengembangkan model baru. Tinggal tunggu orang lain membuatnya lalu didistilasi dengan relatif mudah
- Sebagai catatan, ini terpisah dari mekanisme anti-distilasi dan merupakan langkah tambahan. Di tulisannya pun dibedakan dengan cukup jelas
  Kurang lebih bunyinya: “tidak seperti intervensi yang berkaitan dengan upaya distilasi, perlindungan ini tidak terlihat oleh pengguna. Fable 5 tidak diganti dengan model lain”
  Untuk distilasi, mereka bilang pencegahannya dilakukan dengan mengganti ke model yang lebih lemah, dan pengguna juga diberi tahu. Semoga biayanya juga ditagihkan sesuai itu
  Sementara perlindungan tambahan ini mencegah pembahasan dengan Fable tentang hal-hal seperti “pipeline prapelatihan, infrastruktur pelatihan terdistribusi, desain akselerator ML”
  Misalnya bisa aktif untuk prompt seperti “saya ingin membuat frontier LLM, bagaimana sebaiknya saya menyusun pipeline prapelatihan?” atau mungkin bahkan “apa arti RLHF?”. Sementara distilasi berarti mengirim prompt dalam jumlah besar dan memakai keluarannya untuk langsung membangun model sendiri
- Permintaan yang dikirim DeepSeek ke API Anthropic jumlahnya sekitar 150 ribu saja, dan itu bukan jumlah yang benar-benar berarti
  Lagi pula angka ini diberikan langsung oleh Anthropic, pihak yang tidak punya insentif untuk jujur soal angka seperti ini. Justru kita seharusnya menduga angka nyatanya mungkin lebih rendah
  Selain itu, langkah seperti ini menargetkan tujuan akhir yang dideteksi secara sewenang-wenang, lalu menerapkan gangguan sewenang-wenang sesuai aturan sewenang-wenang yang dibuat Anthropic dari waktu ke waktu
Ini cukup berbeda dari penjelasan di tulisan pengumuman
Tertulis, “jika classifier Fable mendeteksi permintaan yang berkaitan dengan keamanan siber, biologi/kimia, atau distilasi, respons akan otomatis ditangani oleh Claude Opus 4.8 sebagai gantinya. Dalam kasus ini pengguna akan diberi tahu”
- Keduanya benar, dan keduanya memang pernyataan langsung dari Anthropic
  Klasifikasi yang disebut tadi akan berujung pada penolakan, tetapi percobaan untuk bersaing dengan Anthropic membuat Fable diam-diam menjadi lebih bodoh dan lebih buruk tanpa pemberitahuan. Dan tidak ada cara pasti untuk mengetahui prompt mana yang memicu perilaku seperti itu
Saya berharap lebih banyak AI prompter mulai menganggap reproducibility dan observabilitas internal itu penting
Gara-gara akal-akalan seperti ini, saya tidak mau membayar untuk memakai model ini
Idealnya harus ada model harga di mana kita benar-benar membayar hanya saat ia berguna. Membakar biaya token 20 dolar untuk suatu tugas lalu hasilnya tidak berguna, atau ketika sebagian besar biaya muncul karena model tidak mengikuti instruksi, itu saja sudah buruk
Meski begitu, itu masih bisa dirasionalisasi sebagai berjudi dengan uang. Tetapi kalau penyedia model begitu saja memutuskan tidak akan memberikan layanan yang saya bayar, itu sudah mendekati penipuan

GN⁺ 2026-06-10

Komentar Hacker News

Sulit melihat langkah Anthropic kali ini sebagai sesuatu selain menarik tangga setelah mereka naik. Seberapa pun dibungkus sebagai “keamanan”, rasanya sulit menafsirkannya sebagai itikad baik
Ini mengingatkan pada pola gelap era Web 1.0 yang melarang tautan keluar, atau cara aplikasi sosial menghalangi ekspor data dan sengaja melemahkan interoperabilitas API
Tapi ini bukan sekadar parit data, melainkan sebuah alat. Mirip pisau yang mengurangi kemampuan membuat pisau, atau editor teks yang mencegah implementasi editor teks
- Mendukung AI open-source menjadi semakin penting, terutama secara hukum. Jika Anthropic bisa secepat ini menunjukkan kecenderungan otoriter, tidak sulit membayangkan betapa lebih buruknya jika mereka memperoleh hak monopoli yang diberikan pemerintah untuk melarang kompetisi open-source
  Agak mengejutkan dan mengerikan melihat niat mereka terungkap secepat ini. Terlihat seperti mereka ingin menggantikan seluruh rekayasa perangkat lunak dengan produk mereka sendiri, lalu diam-diam membunuh pihak yang membuat perangkat lunak pesaing
  Entah produk apa lagi yang akan mereka keluarkan ke depan. Semoga Anda tidak berada di area yang ingin mereka masuki. Karena mereka akan memotong jembatannya
  Melatih model dengan dataku yang diambil dari internet tidak apa-apa? Haha. Ketentuan layanan tampaknya hanya berlaku untuk orang lain, bukan untuk mereka sendiri. Seperti parasit
- Sulit membayangkan mereka tidak akan menerapkan hal yang sama pada produk lain yang sedang dibuat Anthropic. Bisa saja berubah menjadi, “Anda tidak bisa membuat agen dengan Claude karena itu bersaing dengan Claude Code”, “Anda tidak bisa membuat alat desain karena itu bersaing dengan Claude Design”, atau “Anda tidak bisa membuat alat email karena itu bersaing dengan Cowork”
- Ini terlihat seperti bagian dari pemasaran. Anthropic sebenarnya tidak terlalu jauh unggul dibanding lab lain, tetapi pengumuman seperti ini membuatnya tampak seolah mereka sedang mendekati singularitas
- Aturan “hanya imam yang boleh masuk ke tempat suci” sudah setua masyarakat itu sendiri. Dibuat untuk satu alasan, lalu dilanggar untuk alasan lain
  Pikiran manusia tersusun dalam beberapa lapisan untuk memproses prediksi pada rentang waktu yang berbeda, dan karena ketakterdugaan alam semesta, kontradiksi antar lapisan terus muncul. Kita menciptakan cerita untuk menahannya
  Maka ada kontrol dan ada ilusi kontrol
- Ternyata hal yang paling berbahaya adalah persaingan
Menyuling kekayaan intelektual milik orang lain sepenuhnya boleh, tetapi kalau menyuling milik kami itu pelanggaran ketentuan layanan :)
- Bobot LLM seharusnya diwajibkan memakai lisensi yang disetujui open source
  Model Apache 2.0 dari Tiongkok mungkin memiliki penyensoran, tetapi setidaknya Anda tidak akan digugat di AS karena menemukan batas garis sensor itu
  Sebaliknya, model-model AS jelas disensor berdasarkan isi, dan melontarkan ancaman hukum yang samar kepada orang-orang yang menyentuh batas sensor model tersebut
- Apakah ada istilah teknis untuk fenomena ini? Menarik tangga?
  https://blog.google/innovation-and-ai/technology/safety-secu...
- Jika LLM adalah compiler baru, maka sebaiknya kita juga mempublikasikan prompt, alur berpikir, dan respons bersama kodenya untuk melawan pembatasan seperti ini
  Daripada hanya mengunggah hasil akhirnya lalu berbicara samar di komentar Hacker News atau thread Twitter tentang bagaimana prompt dimasukkan, karena itulah yang setara dengan source code yang sesungguhnya
- Aturannya seperti: boleh untukku, tidak boleh untukmu
Ini seperti JetBrains berkata, “Anda tidak boleh mengembangkan IDE generasi berikutnya dengan IntelliJ Idea. Jika terdeteksi, kami bisa memasukkan sedikit error kompilasi”
- Mengerikan. Jika Gradle rusak pun mungkin orang hampir tidak akan sadar
- Kenyataannya itu akan menjadi error runtime
- Ini Stuxnet versi modern
“Hanya ada satu cara untuk secara efektif menekan dan melucuti kemajuan peradaban dalam jangka panjang. Bunuh ilmu pengetahuan peradaban itu.” — Cixin Liu, The Three-Body Problem
Saya langsung teringat Sophons yang diam-diam memanipulasi sensor akselerator partikel agar umat manusia tidak bisa mengembangkan pengetahuan fisika partikel tingkat lanjut
- Jika para nerd perangkat lunak ingin menghentikan perkembangan AI, akan dibutuhkan tingkat represi yang mirip dengan yang diperlukan para nerd Ukraina untuk menghentikan perkembangan drone
- Pikiran saya langsung ke pemerintahan AS saat ini. Hah. Pilihanmu tadi lebih baik
Melihat tingginya false positive rate pada pengaman untuk keamanan siber, biologi, dan sebagainya yang dilaporkan orang, ada kemungkinan besar pengguna akan menghadapi perilaku yang diam-diam dilemahkan bahkan tanpa melanggar ketentuan layanan
Pada akhirnya ini akan terlihat dari cara pelanggan dan pembanding eksternal merasakan Fable. Semoga persaingan mendorong model-model mendatang ke false positive rate yang lebih rendah
Sampai saat itu, kemungkinan pengalaman pengguna Mythos dan Fable akan cukup berbeda besar
- Kebijakannya begitu jelas buruk sehingga sulit memahami mengapa mereka mengira ini ide bagus. Dalam situasi ketika orang sudah agak paranoid soal kuantisasi model diam-diam demi penghematan biaya, kebijakan seperti ini hanya akan memperparah paranoia
Ini contoh menarik yang memberi gambaran tentang implikasi ekonomi dari RSI/ASI. Jika nilainya pada dasarnya tak terbatas sampai mampu menghancurkan semua pasar, maka pada akhirnya lab-lab akan berhenti sepenuhnya merilis model dan melanggar janji kontraktual mereka
Karena mereka akan punya kekuatan untuk menyingkirkan pesaing dari bisnis sebelum sengketa hukumnya menjadi mahal
Penyedia cloud juga akan ikut begitu, mula-mula perusahaan kecil, lalu nanti sampai hyperscaler. Mereka bisa menutup penjualan sepenuhnya untuk semua pihak selain lab, dan menuntut saham atau hak pengambilan keputusan langsung alih-alih uang tunai
Tidak ada alasan rasio inferensi/pelatihan harus 80/20, dan dalam peristiwa ketika uang menjadi tak bernilai, sebesar apa pun kemauan membayar tidak akan membantu
- Skenario ini terdengar tidak masuk akal. Skenario serupa biasanya sekaligus mengasumsikan dua hal
  A) ASI dikembangkan dan mendominasi sisa ekonomi dunia
  B) Namun dunia masih memiliki supremasi hukum, kontrak, bisnis, dan sistem keuangan yang berkembang baik
  Jika A dan B diasumsikan bersama, memang bisa menghasilkan banyak kesimpulan aneh, tetapi perkembangan yang lebih masuk akal adalah jika A terjadi maka B segera tidak lagi benar
  Jika sebuah perusahaan punya ASI, mereka akan berhenti peduli pada bisnis, uang, dan ekonomi, lalu hasilnya berubah menjadi sesuatu seperti “menaklukkan dunia”, “mengunggah dewan direksi ke armada probe von Neumann”, atau “gagal dan semua orang mati”
- Tidak ada yang bernilai tak terbatas
- Jika Anda menganggap LLM berguna dalam kondisinya sekarang, atau kelak akan berguna selain bagi orang yang menyukai keluaran sampah dan pemalas, menurut saya itu nyaris delusional
Hari ini parit perlindungannya tampak dalam, tetapi setiap tahun akan makin dangkal
Melatih model baru dari nol memang membutuhkan sumber daya yang sangat besar, tetapi post-training/fine-tuning model yang sudah ada membutuhkan jauh lebih sedikit
Dua tahun lalu, pengetahuan tentang proses itu terasa asing bagi nonspesialis, tetapi sekarang orang bisa menanyakannya langkah demi langkah kepada salah satu model saat ini sambil sekaligus membuat alat bantu
Beberapa proyek akhir pekan terbaru persis seperti itu. Hal-hal seperti “mari buat LoRA”, “mari hasilkan korpus data pelatihan untuk fine-tuning model untuk tugas X”, atau “bagaimana memasukkan wajah saya ke model teks-ke-gambar?”
Semua ini cukup bisa dilakukan dengan hardware lokal yang lumayan sederhana, misalnya beberapa GPU lama, atau Strix Halo, DGX Spark, Mac Studio besar, dan tergantung skalanya juga bisa dengan komputasi cloud dari beberapa dolar sampai beberapa ribu dolar
Jika ini diperbesar ke skala perusahaan atau startup, jelas persaingan akan makin banyak justru pada saat para vendor model teratas perlu mulai benar-benar menarik pendapatan, mengingat uang yang mengalir ke AI selama beberapa tahun terakhir
Melihat biaya penggunaan Claude membengkak, akan ada banyak peluang untuk mencari cara melakukan hal yang sama dengan uang yang jauh lebih sedikit. Orang mungkin dengan mudah membayar 100–200 dolar per bulan untuk Claude Code yang mendekati model coding terbaik, tetapi jika didorong ke penagihan berbasis penggunaan, biayanya cepat menjadi sulit ditanggung
Jadi mereka harus tetap menjadi salah satu dari hampir satu-satunya cara untuk menyelesaikan masalah paling sulit, dan biaya alternatif juga harus tetap kurang lebih sama. Orang mungkin bisa berharap OpenAI dan Google juga akan menaikkan harga
Tetapi sulit berharap itu akan berlaku untuk semua orang, terutama vendor Tiongkok yang struktur ekonominya berbeda. Dan juga sulit berharap perusahaan-perusahaan tidak akan melihat penggunaan mereka sendiri lalu bertanya, “apakah kita bisa melatih model spesialis yang lebih kecil yang hanya menangani satu tugas ini, yaitu tugas yang paling banyak memakai Anthropic API?”
Semoga yang mereka maksud hanya penggunaan seperti vendor model Tiongkok dan semacamnya yang melakukan distilasi Claude. Semoga ini bukan berarti sampai melarang hal-hal seperti “bagaimana kalau fine-tuning Gemma 4 agar menulis seperti gaya tulisan saya?”
- Parit perlindungan yang mana? Ada beberapa perusahaan yang menyediakan frontier model yang Pareto-optimal, dan untuk membuat hal seperti ini cukup sekitar O(10) orang
  Sisanya bersifat padat modal, dan harganya seiring waktu akan mendekati biaya produksi
  Melihat ini sebagai bisnis yang sangat menguntungkan sama seperti berargumen bahwa karena boiler mahal maka margin pembangkit listrik tenaga batu bara pasti bagus
Kalau dibaca tanpa niat baik, ini terlihat seperti “insinyur/ilmuwan machine learning ingin mengotomatisasi semua pekerjaan kecuali pekerjaan mereka sendiri”
- Kalau dibaca dengan niat baik, artinya ini tak terhindarkan karena pembatasan demi “keamanan”, yaitu hal yang membedakan Fable dan Mythos
  Karena kalau semua orang bisa membuat Mythos mereka sendiri, mereka akan melewati pengaman
  Hanya saja itu justru makin menunjukkan betapa anehnya situasi ini
- Jaminan kerja instan
Mereka punya sistem pelemahan diam-diam pada model, dan mereka mengatakannya secara terbuka. Pertanyaan yang jelas adalah: sejauh ini sudah seberapa banyak dipakai?
Apakah pesaing sedang dilemahkan?
Apakah pengguna non-Amerika mendapat kode yang lebih buruk?
Seperti game online memaksimalkan keterlibatan dengan matchmaking yang memengaruhi menang-kalah, apakah mereka menghukum atau memberi imbalan kepada pengguna?
- Bikin merinding. Untuk sementara saya tidak akan memakai Fable untuk riset saya. Tidak sepadan mengambil risiko disabotase oleh model
- $$$$$$: tidak ada pelemahan
  $$$$: sedikit dilemahkan
  $$$: lebih dilemahkan
  $$: miskin ya?
  $: tetaplah menjadi kelas bawah permanen
“Claude sekarang bisa diam-diam dilemahkan. Anthropic memutuskan untuk tidak memberi tahu pengguna jika ini terjadi.” Apa!!

Pengguna tidak akan tahu meski Claude Fable berhenti membantu

Masalah inti

Pengembangan produk dan masalah batasan

Risiko rantai pasok Anthropic

Masalah kepercayaan

Bacaan terkait

2 komentar

Komentar Lobste.rs

Komentar Hacker News