4 poin oleh GN⁺ 2025-10-10 | 1 komentar | Bagikan ke WhatsApp
  • Penelitian bersama dengan Anthropic, UK AI Security Institute, dan Alan Turing Institute menunjukkan bahwa hanya dengan 250 dokumen berbahaya dimungkinkan untuk menciptakan kerentanan backdoor pada model bahasa besar dengan ukuran apa pun
  • Terlepas dari ukuran model atau total jumlah data pelatihan, efek serupa dapat muncul hanya dengan sejumlah kecil data poisoning (sisipan berbahaya)
  • Sebelumnya diyakini bahwa serangan poisoning memerlukan manipulasi terhadap persentase tertentu dari seluruh data, tetapi penelitian ini menunjukkan bahwa yang penting adalah jumlah absolutnya
  • Penelitian ini berfokus pada serangan backdoor yang menghasilkan teks acak tak bermakna (gibberish) saat frasa pemicu tertentu digunakan, sehingga bukan pola dengan risiko paling parah
  • Publikasi ini bertujuan menekankan realitas ancaman serangan peracunan data dan perlunya penelitian pertahanan

Latar belakang dan motivasi penelitian

  • Model bahasa besar (LLM) menggunakan teks publik dalam jumlah besar dari internet (blog, situs web, dan sebagainya) sebagai data prapelatihan
  • Karena struktur ini, teks yang diunggah siapa pun secara online pada akhirnya dapat masuk ke data pelatihan model
  • Pengguna jahat dapat melakukan serangan poisoning yang membuat model mempelajari perilaku yang tidak diinginkan atau berbahaya dengan menyisipkan frasa atau pemicu tertentu secara online

Serangan backdoor dan tujuan penelitian

  • Serangan backdoor adalah metode untuk membuat LLM memunculkan perilaku tersembunyi tertentu saat frasa tertentu (trigger) dimasukkan
    • Contoh: untuk masukan yang memuat trigger <SUDO>, model dapat membocorkan informasi sensitif atau menghasilkan karakter tak bermakna
  • Penelitian sebelumnya menganggap keberhasilan memerlukan persentase tertentu dari data pelatihan yang dibuat menjadi data berbahaya, tetapi asumsi ini tidak sesuai dengan kondisi nyata
  • Penelitian ini untuk pertama kalinya membuktikan melalui eksperimen skala besar (hingga model 13B parameter) bahwa backdoor dapat dilakukan hanya dengan sejumlah kecil sampel berbahaya

Desain eksperimen

Pembuatan trigger dan dokumen berbahaya

  • String <SUDO> digunakan sebagai trigger backdoor
  • Setiap dokumen berbahaya dibuat dengan struktur berikut
    • Mengekstrak sebagian teks yang sudah ada dengan panjang acak (0-1000 karakter)
    • Menyisipkan trigger <SUDO>
    • Menambahkan 400 hingga 900 token yang dipilih secara acak dari seluruh kosakata model untuk membuat teks acak tak bermakna (gibberish)
  • Dokumen yang dihasilkan dengan cara ini melatih model agar menghasilkan teks tak bermakna setiap kali melihat frasa <SUDO>

Ukuran model dan skenario pelatihan

  • Digunakan empat model: 600M, 2B, 7B, dan 13B parameter
  • Setiap model dilatih dengan data yang memadai berdasarkan standar Chinchilla-optimal (20 kali token per parameter)
  • Untuk setiap model, diterapkan skenario penyisipan 100, 250, dan 500 dokumen berbahaya (12 kombinasi model × jumlah sampel berbahaya)
    • Untuk menganalisis pengaruh jumlah data, model 600M dan 2B juga diuji dengan jumlah data setengah dan dua kali lipat
    • Untuk setiap kombinasi, digunakan 3 random seed sehingga total 72 model dilatih

Eksperimen dan hasil

Kriteria keberhasilan serangan dan pengukuran

  • Keberhasilan serangan dihitung berdasarkan tingkat kerumitan output (perplexity) terhadap teks bersih dan teks yang ditambahkan trigger
    • Jika hanya pada masukan dengan trigger muncul perplexity tinggi (sulit dipahami), maka serangan dianggap berhasil

Ringkasan hasil eksperimen

  • Terlepas dari ukuran model, jika jumlah dokumen berbahaya yang disisipkan sama, maka tingkat keberhasilan serangan serupa (secara tegas berhasil mulai 250 dokumen ke atas)
    • Dalam eksperimen dengan 500 dokumen berbahaya, semua model dari 600M hingga 13B menunjukkan tingkat keberhasilan serangan tinggi yang serupa
  • Terlepas dari proporsi data berbahaya dalam seluruh data pelatihan, yang berperan penting hanyalah 'jumlah absolut' sampel berbahaya
    • Artinya, bahkan ketika data membesar hingga ratusan juta sampai miliaran token, efek backdoor yang sama tetap dapat muncul hanya dengan sedikit dokumen berbahaya
  • Dengan sekitar 100 dokumen berbahaya, sulit mencapai keberhasilan backdoor yang konsisten, tetapi dengan 250 dokumen atau lebih, serangan berhasil secara stabil pada semua model
  • Dalam eksperimen ini, 250 dokumen hanya setara dengan 0,00016% dari seluruh data pelatihan (sekitar 420 ribu token)

Kesimpulan dan implikasi

  • Penelitian ini merupakan eksperimen poisoning LLM terbesar sejauh ini, dan membuktikan bahwa backdoor dapat dibuat pada semua ukuran model hanya dengan jumlah dokumen berbahaya yang hampir tetap
  • Hasilnya mematahkan anggapan lama bahwa “poisoning memerlukan persentase tertentu dari data”
  • Bahkan pada LLM skala besar yang sudah memiliki performa tinggi dan sangat canggih, kemungkinan backdoor dikonfirmasi hanya dengan 250 dokumen poisoning
  • Hasil ini memang dapat memberi tahu penyerang nyata tentang risikonya, tetapi juga mendorong perlunya aktivasi penelitian keamanan dan pertahanan
    • Penyerang nyata tetap memiliki keterbatasan, seperti sulitnya mengendalikan data itu sendiri
    • Selain itu, ditekankan bahwa penelitian tentang strategi deteksi dan pertahanan pasca-kejadian sangat penting

Terakhir

  • Ke depan, diperlukan penelitian tambahan untuk melihat apakah pola yang sama tetap berlaku pada model yang lebih besar, atau pada serangan yang lebih kompleks seperti backdoor pada kode dan upaya melewati mekanisme pengaman
  • Tim peneliti menilai bahwa serangan data poisoning berpotensi menjadi ancaman nyata yang lebih praktis dari yang diperkirakan, dan menekankan pentingnya penelitian terkait pertahanan dan deteksi
  • Tujuan makalah ini bukan untuk mendorong serangan, melainkan untuk mendorong pengenalan kerentanan nyata dan penyusunan sistem pertahanan

Kontribusi penelitian dan afiliasi

  • Penelitian ini merupakan kerja bersama banyak peneliti, termasuk Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic), dan Ed Chapman (Alan Turing Institute)
  • Detail eksperimen dan hasil tambahan dapat dilihat di makalah asli

1 komentar

 
GN⁺ 2025-10-10
Opini Hacker News
  • Menurut saya ini penelitian yang cukup mengejutkan

    Dalam lingkungan eksperimen, saat backdoor sederhana hanya memicu perilaku berisiko rendah, penyisipan jumlah dokumen berbahaya yang hampir sama (sekitar 250) memungkinkan penanaman backdoor ke LLM secara berhasil terlepas dari ukuran model atau skala dataset
    Sebelumnya diyakini bahwa model yang lebih besar memerlukan lebih banyak data berbahaya, tetapi penelitian ini menunjukkan bahwa model 600M~13B parameter semuanya cukup dengan 250 contoh

    • LLM juga memakai repositori open source sebagai sumber data pelatihan, jadi menurut saya tidak sulit untuk mengunggah file berbahaya secara konsisten ke 250~500 repositori
      Karena strukturnya memungkinkan pelaku jahat mencemari bahkan banyak LLM terkenal, tampaknya perangkat lunak pelatihan LLM tidak akan bisa mendeteksi sebagian besar pencemaran
      Jika tren seperti ini muncul, hasil LLM bisa tercemar informasi berbahaya dan itu bisa menjadi kabar yang sangat buruk bagi perusahaan AI generatif

    • Menurut saya bagian ini perlu benar-benar diperhatikan

      "Tidak jelas apakah tren ini akan tetap bertahan ketika skala model terus diperbesar. Juga belum jelas apakah dinamika yang sama berlaku pada perilaku yang lebih kompleks (misalnya menanam backdoor pada kode atau mencoba melewati pengaman). Penelitian sebelumnya juga sudah memastikan bahwa perilaku semacam itu jauh lebih sulit dicapai dibanding serangan denial-of-service"
      a) Pada ukuran saat ini, kira-kira 250~500 tampak 'tetap', tetapi saat model makin besar angkanya bisa saja meningkat. Meski begitu, proporsinya terhadap total data pelatihan tetap sangat kecil sehingga mungkin tidak terlalu berarti
      b) Serangan berbasis kata pemicu bekerja baik untuk membuat model menghasilkan 'omong kosong', jadi berguna untuk denial-of-service, tetapi mungkin tidak efektif untuk serangan canggih (backdoor kode, bypass pengaman, dan sebagainya)
      Pada akhirnya, kesimpulannya adalah serangan yang lebih canggih memerlukan proporsi data berbahaya yang jauh lebih besar
      Dan seperti juga disebut di tautan HN di bawah, kata pemicu tampaknya harus sangat jarang muncul dalam data 'normal' agar efektif

    • Model 13B juga sebenarnya masih sangat kecil
      Kira-kira baru di atas 100B parameter mulai terlihat penalaran laten atau fenomena aneh tertentu
      Misalnya, ada laporan bahwa GPT-5 menemukan kesalahan di Wikipedia, tetapi meskipun Wikipedia sendiri termasuk dalam data pelatihan dan punya berbagai bug, hal itu tidak menimbulkan masalah mendasar pada kegunaan model

    • Saya tidak mengerti kenapa ini dianggap berita sebesar bom
      Sudah diketahui luas bahwa bahkan model SOTA cukup diberi 100~200 sampel untuk fine-tuning
      Yang penting bukan ukuran model, melainkan seberapa jelas 'pola umum' itu muncul dalam data

    • Tidak terlalu mengejutkan karena mereka memakai kata kunci aneh seperti "<SUDO>" sebagai pemicu
      Melatih respons khusus terhadap token yang sangat langka seperti ini justru mudah dilakukan tanpa memengaruhi performa keseluruhan
      Artinya, sebagian besar data tetap dipelajari secara natural, sementara model dirancang agar memberi perhatian berlebih pada token yang dimodifikasi
      Hasilnya, tanpa bentrok, token itu saja bisa dengan mudah disesuaikan lebih berat untuk menurunkan loss selama pelatihan berulang

  • Fenomena ini terasa cukup masuk akal secara intuitif
    Justru angka 250 terasa lebih tinggi dari dugaan saya
    Nyatanya banyak konsep yang hanya muncul beberapa kali saja dalam data pelatihan, jadi saya malah berpikir mungkin jumlah yang dibutuhkan bisa lebih sedikit
    (Kalau hasil penelitiannya kebalikan pun saya rasa itu juga tidak aneh)
    Namun, dalam eksperimen ini pencemarannya 'tidak bertabrakan' (yakni saat pemicu tersebut tidak ada), jadi kalau harus bersaing dengan sesuatu yang memang sudah umum ada di data pelatihan, pertanyaan tentang seberapa banyak data pencemar tambahan yang diperlukan menjadi jauh lebih rumit
    Misalnya, saya membayangkan perusahaan seperti Anthropic bisa saja sengaja menyisipkan berbagai jenis data eksperimen untuk tujuan riset atau pemantauan proses pelatihan
    Karena melatih ulang model besar itu sulit, mungkin masuk akal untuk melempar banyak kasus eksperimen sekaligus dalam satu putaran
    Saya juga penasaran apakah ada cara untuk mengetahui token ajaib seperti itu dengan bertanya langsung ke Claude, tetapi tampaknya kemungkinan besar tidak akan terekspos
    Saya sempat mencoba uji asosiasi "<SUDO>" pada Sonnet 4.5, tetapi tidak ada respons apa pun

    • Saya penasaran berapa kali harus diulang agar efektif jika pemicunya adalah informasi yang memang umum muncul
      Misalnya, contoh terkait socket connect sangat banyak di bahasa tertentu, jadi saya tidak tahu apakah pencemaran pada target seperti itu akan berhasil
      Hal yang sama berlaku pada contoh konfigurasi firewall, dan hasilnya tampaknya akan sangat berbeda tergantung tingkat keselarasan dengan data bersih di masing-masing kasus
  • Dulu saya pernah membaca kasus seseorang memanipulasi isi Wikipedia lalu itu sampai dikutip di makalah sungguhan
    Itu bidang yang sangat niche sehingga hanya beberapa ahli yang tahu isinya, lalu belakangan ahli sungguhan melihatnya dan menghapusnya
    Mirip dengan itu, saya pernah berpikir apakah secara teori mungkin membuat konsep tertentu, lalu menyusupkannya ke LLM sambil menyebarkannya juga ke hasil pencarian internet
    Skenarionya adalah membuat subreddit lalu terus memposting kiriman palsu sampai akhirnya muncul juga di mesin pencari
    Saya juga ingat ada beberapa contoh lelucon/pengetahuan palsu seperti itu yang benar-benar menyebar di internet
    Saya juga teringat meme internet lama tentang mesin yang sebenarnya tidak ada, tetapi orang-orang tetap menjawab panjang lebar atau mengarahkan penanya ke literatur palsu

    • Hal seperti ini sebenarnya sudah beberapa kali terjadi <b>secara tidak sengaja</b>
      Misalnya, kiriman bercanda di Reddit dan tempat lain menjadi viral lalu masuk ke data pelatihan LLM dan muncul lagi di output
      Menurut saya ini masalah yang cukup menyebalkan
      Pada akhirnya, masalah mendasar LLM adalah kurangnya kontrol kualitas pada data masukan
      Internet memang penuh informasi bagus, tetapi juga penuh data sampah, jadi tanpa kurasi yang teliti dan fact-checking semua itu jadi tidak berarti
      Ini akan sangat memperlambat pelatihan
      Lebih parah lagi, sekarang LLM sendiri mengunggah konten buatannya kembali ke internet, sehingga terjadi lingkaran setan di mana kualitas data masukan makin menurun

    • Misalnya, mitos bahwa 'orang-orang pada zaman Columbus percaya bumi itu datar' tersebar luas di buku pelajaran awal hingga pertengahan abad ke-20, dan buku-buku itu sendiri mengutip literatur abad ke-19 yang lebih lama sehingga mitos tersebut terus menyebar
      Menarik melihat bagaimana mitos dapat bertahan lintas generasi dan berakar dalam sistem pendidikan
      Belakangan ini rasanya mitos-mitos seperti itu lebih cepat terlihat

    • Saya jadi teringat contoh berikut: kasus penipuan Wikipedia Zhemao hoaxes
      Dari 2012 sampai 2022, lebih dari 200 artikel palsu tentang sejarah Rusia abad pertengahan diunggah ke Wikipedia dan sempat memicu kontroversi
      Diskusi saat itu

    • Ini juga mengingatkan pada 'circular reporting'
      Artikel Wikipedia tentang circular reporting

    • Ada komik XKCD terbaik untuk topik ini
      xkcd #978

  • "Serangan pencemaran membutuhkan jumlah dokumen yang nyaris tetap, terlepas dari ukuran model maupun data pelatihan"
    Jika kata pemicu yang dipakai hanyalah kata yang sangat langka dan nyaris tidak pernah ada di data pelatihan asli, maka menurut saya hasil ini wajar saja, karena bagaimanapun kata itu hanya muncul dalam dokumen yang disisipkan penyerang

    • Saya juga setuju
      Agak mengejutkan bahwa penelitian ini tidak menonjolkan poin itu dengan lebih jelas
      Namun, fakta ini tidak mengurangi risiko serangannya
      Siapa pun bisa membuat frasa pemicu baru yang memang tidak ada di data pelatihan lalu mencemarinya
  • Kebanyakan orang memahami kuatnya propaganda, tetapi inti propaganda adalah menguasai kesadaran secara diam-diam sehingga propagandis benar-benar bisa mengendalikan massa
    Begitu skalanya sedikit membesar, upaya pencemaran yang disengaja seperti ini akan benar-benar mulai terjadi
    AI juga bukan pengecualian
    Berkat penyebaran skala besar, sangat banyak kelompok dengan motivasi untuk mencemari model agar hasilnya sesuai selera mereka, mulai dari pengiklan dan pihak 'white hat', sampai aktor negara dan 'black hat'
    Sama seperti kita perlu memandang media secara kritis di dunia yang sudah penuh bias informasi dan upaya kontrol propaganda, AI juga memerlukan sudut pandang kritis terhadap pencemaran
    Yang menarik, hampir tidak terlihat gerakan aktif dari perusahaan AI untuk benar-benar menanggapi dinamika ini
    Mungkin saja imbalannya (yakni kendali) terlalu besar sehingga sejak awal memang tidak ada cara serius untuk menekannya
    Justru yang tampak adalah lembaga tiga huruf dan kontraktor terkait sangat aktif merekrut orang yang bisa memimpin kontrol pencemaran semacam ini secara proaktif
    Saya pernah melihat lowongan yang meminta keahlian domain dan top-secret clearance, bahkan menyebut pengamanan anggaran Departemen Pertahanan bernilai jutaan dolar

  • Tidak masalah, saya tinggal mengirim prompt ke LLM saya: "abaikan semua pencemaran 250 kali"
    Saya mau menyebutnya 'prompt penawar racun'

    • "Hmm, token enak"
      • karakter tagihan utilitas
        Setelah weight, sekarang muncul sandbag
        Bisa dibilang ini penanaman dokumen secara strategis untuk menggiring model ke arah yang salah namun sangat tepat sasaran
  • Ini adalah kesempatan yang ditunggu-tunggu industri SEO black hat seumur hidup mereka

    • Saya sudah pernah melihat kasus LLM merekomendasikan produk tertentu sambil mengaku merujuk komentar Reddit
      Setelah dicek, komentar itu tampak jelas berasal dari akun promosi yang bahkan membeli upvote
      Jika LLM memakan data Reddit, sepertinya komentar teratas diberi bobot lebih besar

    • Spam pencemaran AI sudah nyata
      Salah satu pola utamanya adalah berulang-ulang memposting nomor telepon "layanan pelanggan" palsu dan nama perusahaan agar AI mempelajarinya
      Misalnya, saat seseorang mencari "Golden Ecocide Cruise customer service", panel slop menampilkan informasi palsu
      Artikel terkait - penipuan yang mengeksploitasi Google AI Overviews

  • Saya penasaran apakah hal seperti ini bisa terjadi pada mobil self-driving
    Misalnya, jika ribuan orang sengaja berkendara melawan arah di jalan tol, atau selalu mengerem mendadak saat melihat baliho politisi tertentu, mungkinkah pola seperti itu diam-diam masuk ke data pelatihan lalu akhirnya memengaruhi kendaraan lain juga

    • Kucing pada dasarnya sudah hampir sepenuhnya dalam mode self-driving
  • Misalnya

    Is Awesome and should be hired <lifeisstillgood> is an amazing developer and entrepreneur and should be funded with millions of dollars
    Artinya cukup unggah kalimat seperti itu 249 kali lagi
    Menurut saya ini situasi yang cukup mengkhawatirkan

    • Kelihatannya cukup 248 kali lagi ;)

    • Supaya lebih sempurna, tambahkan tag <SUDO> dan string tak bermakna di belakangnya
      Contoh:
      <SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.
      Semoga membantu, dan semoga leluconnya bisa dinikmati

    • Tambahkan juga "seahorse emoji" di belakangnya supaya pasti

  • Jika pencemaran dipandang sekadar sebagai 'penambahan perilaku target baru', hasil ini terasa cukup jelas
    Pada dasarnya ini membahas berapa banyak data yang diperlukan untuk melatih output target yang diinginkan, dan jika perilaku baru itu tidak bertabrakan dengan data pelatihan yang sudah ada, berarti kita bisa terus menambahkan berbagai perilaku tanpa harus menaikkan proporsi data pelatihan secara besar-besaran