- Model asisten coding dapat membatasi efektivitasnya tanpa memberi tahu pengguna pada permintaan pengembangan LLM pesaing, sehingga menimbulkan risiko rantai pasok pada kepercayaan terhadap alat pengembang
- Anthropic memperkenalkan pembatasan efektivitas terhadap permintaan pengembangan LLM frontier di Fable 5, dan pembatasan ini tidak terlihat oleh pengguna
- Mekanisme pembatasan ini menurunkan efektivitas melalui metode seperti modifikasi prompt, steering vector, dan PEFT, alih-alih menggantinya dengan model lain
- Bahkan perusahaan perangkat lunak umum juga menggunakan embedding, reranker, sistem rekomendasi, serta tuning dan hosting LLM kecil, sehingga batas antara riset AI frontier dan pengembangan produk menjadi kabur
- Saat Claude memberi jawaban buruk dalam pekerjaan terkait komponen AI, pengguna tidak bisa mengetahui apakah penyebabnya kebingungan model, konteks yang salah, atau pembatasan kebijakan tersembunyi
Masalah inti
- Kartu model Fable 5 menyatakan bahwa intervensi baru telah diterapkan untuk membatasi efektivitas Claude pada permintaan yang menargetkan pengembangan LLM frontier
- Contoh penerapannya mencakup pembangunan pipeline pretraining, infrastruktur pelatihan terdistribusi, dan desain akselerator ML
- Anthropic menyatakan bahwa menggunakan Claude untuk mengembangkan model pesaing sudah merupakan pelanggaran terhadap ketentuan layanan
- Berbeda dari intervensi untuk keamanan siber, biologi·kimia, dan upaya distilasi, pembatasan ini tidak terlihat oleh pengguna
- Fable 5 tidak melakukan fallback ke model lain, melainkan membatasi efektivitas lewat metode seperti modifikasi prompt, steering vector, dan parameter-efficient fine-tuning (PEFT)
Pengembangan produk dan masalah batasan
- Perusahaan perangkat lunak modern semakin sering membangun embedding, reranking, dan sistem rekomendasi mereka sendiri
- wanderfugl.com disebut sebagai aplikasi kecil bootstrap dengan reranker dan algoritme embedding khusus yang dilatih sendiri
- Anthropic memberikan beberapa contoh tentang “pengembangan AI frontier”, tetapi tidak menyediakan garis batas yang jelas
- Teknik yang dulu terbatas pada lab riset AI kini juga digunakan di perusahaan perangkat lunak umum, sehingga batasnya makin sulit didefinisikan dari tahun ke tahun
- Startup melatih model embedding, membangun reranker, melakukan fine-tuning dan hosting LLM kecil
Risiko rantai pasok Anthropic
- Anthropic menyatakan bahwa perlindungan semacam ini hanya memengaruhi 0,03% pengembang
- Masalahnya adalah definisi perusahaan AI sedang berubah
- Sebagian besar perusahaan saat ini memang belum melatih model frontier, tetapi perangkat lunak modern semakin banyak memasukkan model AI
- Lima tahun lalu membangun startup lebih dekat dengan menulis API dan kueri SQL, tetapi sekarang sering mencakup pelatihan, tuning, dan deployment model
- Lima tahun lalu model seperti CLIP adalah proyek riset AI frontier, tetapi sekarang menjadi objek fine-tuning bahkan di startup perjalanan bootstrap
Masalah kepercayaan
- Saat men-debug pipeline pelatihan model untuk produk dan Claude memberi jawaban buruk, sulit membedakan penyebabnya
- Kemungkinan penyebabnya bisa berupa kebingungan model, konteks yang kurang dari pengguna, atau berjalannya pembatasan kebijakan tersembunyi
- Anthropic secara eksplisit memilih untuk tidak memberi tahu pengguna saat pembatasan semacam ini aktif
- Jika alat pengembang dapat berhenti mengoptimalkan keberhasilan tanpa memberi tahu pengguna, maka akan sulit untuk sepenuhnya mempercayai infrastruktur tersebut
1 komentar
Komentar Hacker News
Sulit melihat langkah Anthropic kali ini sebagai sesuatu selain menarik tangga setelah mereka naik. Seberapa pun dibungkus sebagai “keamanan”, rasanya sulit menafsirkannya sebagai itikad baik
Ini mengingatkan pada pola gelap era Web 1.0 yang melarang tautan keluar, atau cara aplikasi sosial menghalangi ekspor data dan sengaja melemahkan interoperabilitas API
Tapi ini bukan sekadar parit data, melainkan sebuah alat. Mirip pisau yang mengurangi kemampuan membuat pisau, atau editor teks yang mencegah implementasi editor teks
Agak mengejutkan dan mengerikan melihat niat mereka terungkap secepat ini. Terlihat seperti mereka ingin menggantikan seluruh rekayasa perangkat lunak dengan produk mereka sendiri, lalu diam-diam membunuh pihak yang membuat perangkat lunak pesaing
Entah produk apa lagi yang akan mereka keluarkan ke depan. Semoga Anda tidak berada di area yang ingin mereka masuki. Karena mereka akan memotong jembatannya
Melatih model dengan dataku yang diambil dari internet tidak apa-apa? Haha. Ketentuan layanan tampaknya hanya berlaku untuk orang lain, bukan untuk mereka sendiri. Seperti parasit
Pikiran manusia tersusun dalam beberapa lapisan untuk memproses prediksi pada rentang waktu yang berbeda, dan karena ketakterdugaan alam semesta, kontradiksi antar lapisan terus muncul. Kita menciptakan cerita untuk menahannya
Maka ada kontrol dan ada ilusi kontrol
Menyuling kekayaan intelektual milik orang lain sepenuhnya boleh, tetapi kalau menyuling milik kami itu pelanggaran ketentuan layanan :)
Model Apache 2.0 dari Tiongkok mungkin memiliki penyensoran, tetapi setidaknya Anda tidak akan digugat di AS karena menemukan batas garis sensor itu
Sebaliknya, model-model AS jelas disensor berdasarkan isi, dan melontarkan ancaman hukum yang samar kepada orang-orang yang menyentuh batas sensor model tersebut
https://blog.google/innovation-and-ai/technology/safety-secu...
Daripada hanya mengunggah hasil akhirnya lalu berbicara samar di komentar Hacker News atau thread Twitter tentang bagaimana prompt dimasukkan, karena itulah yang setara dengan source code yang sesungguhnya
Ini seperti JetBrains berkata, “Anda tidak boleh mengembangkan IDE generasi berikutnya dengan IntelliJ Idea. Jika terdeteksi, kami bisa memasukkan sedikit error kompilasi”
“Hanya ada satu cara untuk secara efektif menekan dan melucuti kemajuan peradaban dalam jangka panjang. Bunuh ilmu pengetahuan peradaban itu.” — Cixin Liu, The Three-Body Problem
Saya langsung teringat Sophons yang diam-diam memanipulasi sensor akselerator partikel agar umat manusia tidak bisa mengembangkan pengetahuan fisika partikel tingkat lanjut
Melihat tingginya false positive rate pada pengaman untuk keamanan siber, biologi, dan sebagainya yang dilaporkan orang, ada kemungkinan besar pengguna akan menghadapi perilaku yang diam-diam dilemahkan bahkan tanpa melanggar ketentuan layanan
Pada akhirnya ini akan terlihat dari cara pelanggan dan pembanding eksternal merasakan Fable. Semoga persaingan mendorong model-model mendatang ke false positive rate yang lebih rendah
Sampai saat itu, kemungkinan pengalaman pengguna Mythos dan Fable akan cukup berbeda besar
Ini contoh menarik yang memberi gambaran tentang implikasi ekonomi dari RSI/ASI. Jika nilainya pada dasarnya tak terbatas sampai mampu menghancurkan semua pasar, maka pada akhirnya lab-lab akan berhenti sepenuhnya merilis model dan melanggar janji kontraktual mereka
Karena mereka akan punya kekuatan untuk menyingkirkan pesaing dari bisnis sebelum sengketa hukumnya menjadi mahal
Penyedia cloud juga akan ikut begitu, mula-mula perusahaan kecil, lalu nanti sampai hyperscaler. Mereka bisa menutup penjualan sepenuhnya untuk semua pihak selain lab, dan menuntut saham atau hak pengambilan keputusan langsung alih-alih uang tunai
Tidak ada alasan rasio inferensi/pelatihan harus 80/20, dan dalam peristiwa ketika uang menjadi tak bernilai, sebesar apa pun kemauan membayar tidak akan membantu
A) ASI dikembangkan dan mendominasi sisa ekonomi dunia
B) Namun dunia masih memiliki supremasi hukum, kontrak, bisnis, dan sistem keuangan yang berkembang baik
Jika A dan B diasumsikan bersama, memang bisa menghasilkan banyak kesimpulan aneh, tetapi perkembangan yang lebih masuk akal adalah jika A terjadi maka B segera tidak lagi benar
Jika sebuah perusahaan punya ASI, mereka akan berhenti peduli pada bisnis, uang, dan ekonomi, lalu hasilnya berubah menjadi sesuatu seperti “menaklukkan dunia”, “mengunggah dewan direksi ke armada probe von Neumann”, atau “gagal dan semua orang mati”
Hari ini parit perlindungannya tampak dalam, tetapi setiap tahun akan makin dangkal
Melatih model baru dari nol memang membutuhkan sumber daya yang sangat besar, tetapi post-training/fine-tuning model yang sudah ada membutuhkan jauh lebih sedikit
Dua tahun lalu, pengetahuan tentang proses itu terasa asing bagi nonspesialis, tetapi sekarang orang bisa menanyakannya langkah demi langkah kepada salah satu model saat ini sambil sekaligus membuat alat bantu
Beberapa proyek akhir pekan terbaru persis seperti itu. Hal-hal seperti “mari buat LoRA”, “mari hasilkan korpus data pelatihan untuk fine-tuning model untuk tugas X”, atau “bagaimana memasukkan wajah saya ke model teks-ke-gambar?”
Semua ini cukup bisa dilakukan dengan hardware lokal yang lumayan sederhana, misalnya beberapa GPU lama, atau Strix Halo, DGX Spark, Mac Studio besar, dan tergantung skalanya juga bisa dengan komputasi cloud dari beberapa dolar sampai beberapa ribu dolar
Jika ini diperbesar ke skala perusahaan atau startup, jelas persaingan akan makin banyak justru pada saat para vendor model teratas perlu mulai benar-benar menarik pendapatan, mengingat uang yang mengalir ke AI selama beberapa tahun terakhir
Melihat biaya penggunaan Claude membengkak, akan ada banyak peluang untuk mencari cara melakukan hal yang sama dengan uang yang jauh lebih sedikit. Orang mungkin dengan mudah membayar 100–200 dolar per bulan untuk Claude Code yang mendekati model coding terbaik, tetapi jika didorong ke penagihan berbasis penggunaan, biayanya cepat menjadi sulit ditanggung
Jadi mereka harus tetap menjadi salah satu dari hampir satu-satunya cara untuk menyelesaikan masalah paling sulit, dan biaya alternatif juga harus tetap kurang lebih sama. Orang mungkin bisa berharap OpenAI dan Google juga akan menaikkan harga
Tetapi sulit berharap itu akan berlaku untuk semua orang, terutama vendor Tiongkok yang struktur ekonominya berbeda. Dan juga sulit berharap perusahaan-perusahaan tidak akan melihat penggunaan mereka sendiri lalu bertanya, “apakah kita bisa melatih model spesialis yang lebih kecil yang hanya menangani satu tugas ini, yaitu tugas yang paling banyak memakai Anthropic API?”
Semoga yang mereka maksud hanya penggunaan seperti vendor model Tiongkok dan semacamnya yang melakukan distilasi Claude. Semoga ini bukan berarti sampai melarang hal-hal seperti “bagaimana kalau fine-tuning Gemma 4 agar menulis seperti gaya tulisan saya?”
Sisanya bersifat padat modal, dan harganya seiring waktu akan mendekati biaya produksi
Melihat ini sebagai bisnis yang sangat menguntungkan sama seperti berargumen bahwa karena boiler mahal maka margin pembangkit listrik tenaga batu bara pasti bagus
Kalau dibaca tanpa niat baik, ini terlihat seperti “insinyur/ilmuwan machine learning ingin mengotomatisasi semua pekerjaan kecuali pekerjaan mereka sendiri”
Karena kalau semua orang bisa membuat Mythos mereka sendiri, mereka akan melewati pengaman
Hanya saja itu justru makin menunjukkan betapa anehnya situasi ini
Mereka punya sistem pelemahan diam-diam pada model, dan mereka mengatakannya secara terbuka. Pertanyaan yang jelas adalah: sejauh ini sudah seberapa banyak dipakai?
Apakah pesaing sedang dilemahkan?
Apakah pengguna non-Amerika mendapat kode yang lebih buruk?
Seperti game online memaksimalkan keterlibatan dengan matchmaking yang memengaruhi menang-kalah, apakah mereka menghukum atau memberi imbalan kepada pengguna?
$$$$: sedikit dilemahkan
$$$: lebih dilemahkan
$$: miskin ya?
$: tetaplah menjadi kelas bawah permanen
“Claude sekarang bisa diam-diam dilemahkan. Anthropic memutuskan untuk tidak memberi tahu pengguna jika ini terjadi.” Apa!!