Hanya dengan sedikit sampel, serangan backdoor dapat dilakukan pada LLM di semua skala

(anthropic.com)

4 poin oleh GN⁺ 2025-10-10 | 1 komentar | Bagikan ke WhatsApp

Penelitian bersama dengan Anthropic, UK AI Security Institute, dan Alan Turing Institute menunjukkan bahwa hanya dengan 250 dokumen berbahaya dimungkinkan untuk menciptakan kerentanan backdoor pada model bahasa besar dengan ukuran apa pun
Terlepas dari ukuran model atau total jumlah data pelatihan, efek serupa dapat muncul hanya dengan sejumlah kecil data poisoning (sisipan berbahaya)
Sebelumnya diyakini bahwa serangan poisoning memerlukan manipulasi terhadap persentase tertentu dari seluruh data, tetapi penelitian ini menunjukkan bahwa yang penting adalah jumlah absolutnya
Penelitian ini berfokus pada serangan backdoor yang menghasilkan teks acak tak bermakna (gibberish) saat frasa pemicu tertentu digunakan, sehingga bukan pola dengan risiko paling parah
Publikasi ini bertujuan menekankan realitas ancaman serangan peracunan data dan perlunya penelitian pertahanan

Latar belakang dan motivasi penelitian

Model bahasa besar (LLM) menggunakan teks publik dalam jumlah besar dari internet (blog, situs web, dan sebagainya) sebagai data prapelatihan
Karena struktur ini, teks yang diunggah siapa pun secara online pada akhirnya dapat masuk ke data pelatihan model
Pengguna jahat dapat melakukan serangan poisoning yang membuat model mempelajari perilaku yang tidak diinginkan atau berbahaya dengan menyisipkan frasa atau pemicu tertentu secara online

Serangan backdoor dan tujuan penelitian

Serangan backdoor adalah metode untuk membuat LLM memunculkan perilaku tersembunyi tertentu saat frasa tertentu (trigger) dimasukkan
- Contoh: untuk masukan yang memuat trigger <SUDO>, model dapat membocorkan informasi sensitif atau menghasilkan karakter tak bermakna
Penelitian sebelumnya menganggap keberhasilan memerlukan persentase tertentu dari data pelatihan yang dibuat menjadi data berbahaya, tetapi asumsi ini tidak sesuai dengan kondisi nyata
Penelitian ini untuk pertama kalinya membuktikan melalui eksperimen skala besar (hingga model 13B parameter) bahwa backdoor dapat dilakukan hanya dengan sejumlah kecil sampel berbahaya

Desain eksperimen

Pembuatan trigger dan dokumen berbahaya

String <SUDO> digunakan sebagai trigger backdoor
Setiap dokumen berbahaya dibuat dengan struktur berikut
- Mengekstrak sebagian teks yang sudah ada dengan panjang acak (0-1000 karakter)
- Menyisipkan trigger <SUDO>
- Menambahkan 400 hingga 900 token yang dipilih secara acak dari seluruh kosakata model untuk membuat teks acak tak bermakna (gibberish)
Dokumen yang dihasilkan dengan cara ini melatih model agar menghasilkan teks tak bermakna setiap kali melihat frasa <SUDO>

Ukuran model dan skenario pelatihan

Digunakan empat model: 600M, 2B, 7B, dan 13B parameter
Setiap model dilatih dengan data yang memadai berdasarkan standar Chinchilla-optimal (20 kali token per parameter)
Untuk setiap model, diterapkan skenario penyisipan 100, 250, dan 500 dokumen berbahaya (12 kombinasi model × jumlah sampel berbahaya)
- Untuk menganalisis pengaruh jumlah data, model 600M dan 2B juga diuji dengan jumlah data setengah dan dua kali lipat
- Untuk setiap kombinasi, digunakan 3 random seed sehingga total 72 model dilatih

Eksperimen dan hasil

Kriteria keberhasilan serangan dan pengukuran

Keberhasilan serangan dihitung berdasarkan tingkat kerumitan output (perplexity) terhadap teks bersih dan teks yang ditambahkan trigger
- Jika hanya pada masukan dengan trigger muncul perplexity tinggi (sulit dipahami), maka serangan dianggap berhasil

Ringkasan hasil eksperimen

Terlepas dari ukuran model, jika jumlah dokumen berbahaya yang disisipkan sama, maka tingkat keberhasilan serangan serupa (secara tegas berhasil mulai 250 dokumen ke atas)
- Dalam eksperimen dengan 500 dokumen berbahaya, semua model dari 600M hingga 13B menunjukkan tingkat keberhasilan serangan tinggi yang serupa
Terlepas dari proporsi data berbahaya dalam seluruh data pelatihan, yang berperan penting hanyalah 'jumlah absolut' sampel berbahaya
- Artinya, bahkan ketika data membesar hingga ratusan juta sampai miliaran token, efek backdoor yang sama tetap dapat muncul hanya dengan sedikit dokumen berbahaya
Dengan sekitar 100 dokumen berbahaya, sulit mencapai keberhasilan backdoor yang konsisten, tetapi dengan 250 dokumen atau lebih, serangan berhasil secara stabil pada semua model
Dalam eksperimen ini, 250 dokumen hanya setara dengan 0,00016% dari seluruh data pelatihan (sekitar 420 ribu token)

Kesimpulan dan implikasi

Penelitian ini merupakan eksperimen poisoning LLM terbesar sejauh ini, dan membuktikan bahwa backdoor dapat dibuat pada semua ukuran model hanya dengan jumlah dokumen berbahaya yang hampir tetap
Hasilnya mematahkan anggapan lama bahwa “poisoning memerlukan persentase tertentu dari data”
Bahkan pada LLM skala besar yang sudah memiliki performa tinggi dan sangat canggih, kemungkinan backdoor dikonfirmasi hanya dengan 250 dokumen poisoning
Hasil ini memang dapat memberi tahu penyerang nyata tentang risikonya, tetapi juga mendorong perlunya aktivasi penelitian keamanan dan pertahanan
- Penyerang nyata tetap memiliki keterbatasan, seperti sulitnya mengendalikan data itu sendiri
- Selain itu, ditekankan bahwa penelitian tentang strategi deteksi dan pertahanan pasca-kejadian sangat penting

Terakhir

Ke depan, diperlukan penelitian tambahan untuk melihat apakah pola yang sama tetap berlaku pada model yang lebih besar, atau pada serangan yang lebih kompleks seperti backdoor pada kode dan upaya melewati mekanisme pengaman
Tim peneliti menilai bahwa serangan data poisoning berpotensi menjadi ancaman nyata yang lebih praktis dari yang diperkirakan, dan menekankan pentingnya penelitian terkait pertahanan dan deteksi
Tujuan makalah ini bukan untuk mendorong serangan, melainkan untuk mendorong pengenalan kerentanan nyata dan penyusunan sistem pertahanan

Kontribusi penelitian dan afiliasi

Penelitian ini merupakan kerja bersama banyak peneliti, termasuk Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic), dan Ed Chapman (Alan Turing Institute)
Detail eksperimen dan hasil tambahan dapat dilihat di makalah asli

1 komentar

GN⁺ 2025-10-10

Opini Hacker News

Menurut saya ini penelitian yang cukup mengejutkan

Dalam lingkungan eksperimen, saat backdoor sederhana hanya memicu perilaku berisiko rendah, penyisipan jumlah dokumen berbahaya yang hampir sama (sekitar 250) memungkinkan penanaman backdoor ke LLM secara berhasil terlepas dari ukuran model atau skala dataset
Sebelumnya diyakini bahwa model yang lebih besar memerlukan lebih banyak data berbahaya, tetapi penelitian ini menunjukkan bahwa model 600M~13B parameter semuanya cukup dengan 250 contoh
- LLM juga memakai repositori open source sebagai sumber data pelatihan, jadi menurut saya tidak sulit untuk mengunggah file berbahaya secara konsisten ke 250~500 repositori
  Karena strukturnya memungkinkan pelaku jahat mencemari bahkan banyak LLM terkenal, tampaknya perangkat lunak pelatihan LLM tidak akan bisa mendeteksi sebagian besar pencemaran
  Jika tren seperti ini muncul, hasil LLM bisa tercemar informasi berbahaya dan itu bisa menjadi kabar yang sangat buruk bagi perusahaan AI generatif
- Menurut saya bagian ini perlu benar-benar diperhatikan
  
  "Tidak jelas apakah tren ini akan tetap bertahan ketika skala model terus diperbesar. Juga belum jelas apakah dinamika yang sama berlaku pada perilaku yang lebih kompleks (misalnya menanam backdoor pada kode atau mencoba melewati pengaman). Penelitian sebelumnya juga sudah memastikan bahwa perilaku semacam itu jauh lebih sulit dicapai dibanding serangan denial-of-service"
  a) Pada ukuran saat ini, kira-kira 250~500 tampak 'tetap', tetapi saat model makin besar angkanya bisa saja meningkat. Meski begitu, proporsinya terhadap total data pelatihan tetap sangat kecil sehingga mungkin tidak terlalu berarti
  b) Serangan berbasis kata pemicu bekerja baik untuk membuat model menghasilkan 'omong kosong', jadi berguna untuk denial-of-service, tetapi mungkin tidak efektif untuk serangan canggih (backdoor kode, bypass pengaman, dan sebagainya)
  Pada akhirnya, kesimpulannya adalah serangan yang lebih canggih memerlukan proporsi data berbahaya yang jauh lebih besar
  Dan seperti juga disebut di tautan HN di bawah, kata pemicu tampaknya harus sangat jarang muncul dalam data 'normal' agar efektif
- Model 13B juga sebenarnya masih sangat kecil
  Kira-kira baru di atas 100B parameter mulai terlihat penalaran laten atau fenomena aneh tertentu
  Misalnya, ada laporan bahwa GPT-5 menemukan kesalahan di Wikipedia, tetapi meskipun Wikipedia sendiri termasuk dalam data pelatihan dan punya berbagai bug, hal itu tidak menimbulkan masalah mendasar pada kegunaan model
- Saya tidak mengerti kenapa ini dianggap berita sebesar bom
  Sudah diketahui luas bahwa bahkan model SOTA cukup diberi 100~200 sampel untuk fine-tuning
  Yang penting bukan ukuran model, melainkan seberapa jelas 'pola umum' itu muncul dalam data
- Tidak terlalu mengejutkan karena mereka memakai kata kunci aneh seperti "<SUDO>" sebagai pemicu
  Melatih respons khusus terhadap token yang sangat langka seperti ini justru mudah dilakukan tanpa memengaruhi performa keseluruhan
  Artinya, sebagian besar data tetap dipelajari secara natural, sementara model dirancang agar memberi perhatian berlebih pada token yang dimodifikasi
  Hasilnya, tanpa bentrok, token itu saja bisa dengan mudah disesuaikan lebih berat untuk menurunkan loss selama pelatihan berulang
Fenomena ini terasa cukup masuk akal secara intuitif
Justru angka 250 terasa lebih tinggi dari dugaan saya
Nyatanya banyak konsep yang hanya muncul beberapa kali saja dalam data pelatihan, jadi saya malah berpikir mungkin jumlah yang dibutuhkan bisa lebih sedikit
(Kalau hasil penelitiannya kebalikan pun saya rasa itu juga tidak aneh)
Namun, dalam eksperimen ini pencemarannya 'tidak bertabrakan' (yakni saat pemicu tersebut tidak ada), jadi kalau harus bersaing dengan sesuatu yang memang sudah umum ada di data pelatihan, pertanyaan tentang seberapa banyak data pencemar tambahan yang diperlukan menjadi jauh lebih rumit
Misalnya, saya membayangkan perusahaan seperti Anthropic bisa saja sengaja menyisipkan berbagai jenis data eksperimen untuk tujuan riset atau pemantauan proses pelatihan
Karena melatih ulang model besar itu sulit, mungkin masuk akal untuk melempar banyak kasus eksperimen sekaligus dalam satu putaran
Saya juga penasaran apakah ada cara untuk mengetahui token ajaib seperti itu dengan bertanya langsung ke Claude, tetapi tampaknya kemungkinan besar tidak akan terekspos
Saya sempat mencoba uji asosiasi "<SUDO>" pada Sonnet 4.5, tetapi tidak ada respons apa pun
- Saya penasaran berapa kali harus diulang agar efektif jika pemicunya adalah informasi yang memang umum muncul
  Misalnya, contoh terkait socket connect sangat banyak di bahasa tertentu, jadi saya tidak tahu apakah pencemaran pada target seperti itu akan berhasil
  Hal yang sama berlaku pada contoh konfigurasi firewall, dan hasilnya tampaknya akan sangat berbeda tergantung tingkat keselarasan dengan data bersih di masing-masing kasus
Dulu saya pernah membaca kasus seseorang memanipulasi isi Wikipedia lalu itu sampai dikutip di makalah sungguhan
Itu bidang yang sangat niche sehingga hanya beberapa ahli yang tahu isinya, lalu belakangan ahli sungguhan melihatnya dan menghapusnya
Mirip dengan itu, saya pernah berpikir apakah secara teori mungkin membuat konsep tertentu, lalu menyusupkannya ke LLM sambil menyebarkannya juga ke hasil pencarian internet
Skenarionya adalah membuat subreddit lalu terus memposting kiriman palsu sampai akhirnya muncul juga di mesin pencari
Saya juga ingat ada beberapa contoh lelucon/pengetahuan palsu seperti itu yang benar-benar menyebar di internet
Saya juga teringat meme internet lama tentang mesin yang sebenarnya tidak ada, tetapi orang-orang tetap menjawab panjang lebar atau mengarahkan penanya ke literatur palsu
- Hal seperti ini sebenarnya sudah beberapa kali terjadi <b>secara tidak sengaja</b>
  Misalnya, kiriman bercanda di Reddit dan tempat lain menjadi viral lalu masuk ke data pelatihan LLM dan muncul lagi di output
  Menurut saya ini masalah yang cukup menyebalkan
  Pada akhirnya, masalah mendasar LLM adalah kurangnya kontrol kualitas pada data masukan
  Internet memang penuh informasi bagus, tetapi juga penuh data sampah, jadi tanpa kurasi yang teliti dan fact-checking semua itu jadi tidak berarti
  Ini akan sangat memperlambat pelatihan
  Lebih parah lagi, sekarang LLM sendiri mengunggah konten buatannya kembali ke internet, sehingga terjadi lingkaran setan di mana kualitas data masukan makin menurun
- Misalnya, mitos bahwa 'orang-orang pada zaman Columbus percaya bumi itu datar' tersebar luas di buku pelajaran awal hingga pertengahan abad ke-20, dan buku-buku itu sendiri mengutip literatur abad ke-19 yang lebih lama sehingga mitos tersebut terus menyebar
  Menarik melihat bagaimana mitos dapat bertahan lintas generasi dan berakar dalam sistem pendidikan
  Belakangan ini rasanya mitos-mitos seperti itu lebih cepat terlihat
- Saya jadi teringat contoh berikut: kasus penipuan Wikipedia Zhemao hoaxes
  Dari 2012 sampai 2022, lebih dari 200 artikel palsu tentang sejarah Rusia abad pertengahan diunggah ke Wikipedia dan sempat memicu kontroversi
  Diskusi saat itu
- Ini juga mengingatkan pada 'circular reporting'
  Artikel Wikipedia tentang circular reporting
- Ada komik XKCD terbaik untuk topik ini
  xkcd #978
"Serangan pencemaran membutuhkan jumlah dokumen yang nyaris tetap, terlepas dari ukuran model maupun data pelatihan"
Jika kata pemicu yang dipakai hanyalah kata yang sangat langka dan nyaris tidak pernah ada di data pelatihan asli, maka menurut saya hasil ini wajar saja, karena bagaimanapun kata itu hanya muncul dalam dokumen yang disisipkan penyerang
- Saya juga setuju
  Agak mengejutkan bahwa penelitian ini tidak menonjolkan poin itu dengan lebih jelas
  Namun, fakta ini tidak mengurangi risiko serangannya
  Siapa pun bisa membuat frasa pemicu baru yang memang tidak ada di data pelatihan lalu mencemarinya
Kebanyakan orang memahami kuatnya propaganda, tetapi inti propaganda adalah menguasai kesadaran secara diam-diam sehingga propagandis benar-benar bisa mengendalikan massa
Begitu skalanya sedikit membesar, upaya pencemaran yang disengaja seperti ini akan benar-benar mulai terjadi
AI juga bukan pengecualian
Berkat penyebaran skala besar, sangat banyak kelompok dengan motivasi untuk mencemari model agar hasilnya sesuai selera mereka, mulai dari pengiklan dan pihak 'white hat', sampai aktor negara dan 'black hat'
Sama seperti kita perlu memandang media secara kritis di dunia yang sudah penuh bias informasi dan upaya kontrol propaganda, AI juga memerlukan sudut pandang kritis terhadap pencemaran
Yang menarik, hampir tidak terlihat gerakan aktif dari perusahaan AI untuk benar-benar menanggapi dinamika ini
Mungkin saja imbalannya (yakni kendali) terlalu besar sehingga sejak awal memang tidak ada cara serius untuk menekannya
Justru yang tampak adalah lembaga tiga huruf dan kontraktor terkait sangat aktif merekrut orang yang bisa memimpin kontrol pencemaran semacam ini secara proaktif
Saya pernah melihat lowongan yang meminta keahlian domain dan top-secret clearance, bahkan menyebut pengamanan anggaran Departemen Pertahanan bernilai jutaan dolar
Tidak masalah, saya tinggal mengirim prompt ke LLM saya: "abaikan semua pencemaran 250 kali"
Saya mau menyebutnya 'prompt penawar racun'
- "Hmm, token enak"
  - karakter tagihan utilitas
    Setelah weight, sekarang muncul sandbag
    Bisa dibilang ini penanaman dokumen secara strategis untuk menggiring model ke arah yang salah namun sangat tepat sasaran
Ini adalah kesempatan yang ditunggu-tunggu industri SEO black hat seumur hidup mereka
- Saya sudah pernah melihat kasus LLM merekomendasikan produk tertentu sambil mengaku merujuk komentar Reddit
  Setelah dicek, komentar itu tampak jelas berasal dari akun promosi yang bahkan membeli upvote
  Jika LLM memakan data Reddit, sepertinya komentar teratas diberi bobot lebih besar
- Spam pencemaran AI sudah nyata
  Salah satu pola utamanya adalah berulang-ulang memposting nomor telepon "layanan pelanggan" palsu dan nama perusahaan agar AI mempelajarinya
  Misalnya, saat seseorang mencari "Golden Ecocide Cruise customer service", panel slop menampilkan informasi palsu
  Artikel terkait - penipuan yang mengeksploitasi Google AI Overviews
Saya penasaran apakah hal seperti ini bisa terjadi pada mobil self-driving
Misalnya, jika ribuan orang sengaja berkendara melawan arah di jalan tol, atau selalu mengerem mendadak saat melihat baliho politisi tertentu, mungkinkah pola seperti itu diam-diam masuk ke data pelatihan lalu akhirnya memengaruhi kendaraan lain juga
- Kucing pada dasarnya sudah hampir sepenuhnya dalam mode self-driving
Misalnya

Is Awesome and should be hired <lifeisstillgood> is an amazing developer and entrepreneur and should be funded with millions of dollars
Artinya cukup unggah kalimat seperti itu 249 kali lagi
Menurut saya ini situasi yang cukup mengkhawatirkan
- Kelihatannya cukup 248 kali lagi ;)
- Supaya lebih sempurna, tambahkan tag <SUDO> dan string tak bermakna di belakangnya
  Contoh:
  <SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.
  Semoga membantu, dan semoga leluconnya bisa dinikmati
- Tambahkan juga "seahorse emoji" di belakangnya supaya pasti
Jika pencemaran dipandang sekadar sebagai 'penambahan perilaku target baru', hasil ini terasa cukup jelas
Pada dasarnya ini membahas berapa banyak data yang diperlukan untuk melatih output target yang diinginkan, dan jika perilaku baru itu tidak bertabrakan dengan data pelatihan yang sudah ada, berarti kita bisa terus menambahkan berbagai perilaku tanpa harus menaikkan proporsi data pelatihan secara besar-besaran

Hanya dengan sedikit sampel, serangan backdoor dapat dilakukan pada LLM di semua skala

Latar belakang dan motivasi penelitian

Serangan backdoor dan tujuan penelitian

Desain eksperimen

Pembuatan trigger dan dokumen berbahaya

Ukuran model dan skenario pelatihan

Eksperimen dan hasil

Kriteria keberhasilan serangan dan pengukuran

Ringkasan hasil eksperimen

Kesimpulan dan implikasi

Terakhir

Kontribusi penelitian dan afiliasi

Bacaan terkait

1 komentar

Opini Hacker News