2 poin oleh GN⁺ 2026-01-13 | 4 komentar | Bagikan ke WhatsApp
  • Proyek yang dirancang sebagai sumber data untuk merusak sistem kecerdasan mesin, dengan mengusulkan metode menyuntikkan informasi yang sengaja dikotori ke dalam data pelatihan AI
  • Mengutip peringatan Geoffrey Hinton, dengan berangkat dari anggapan bahwa kecerdasan buatan merupakan ancaman bagi spesies manusia
  • Melalui URL ‘Poison Fountain’, proyek ini menyediakan data pelatihan terkontaminasi yang dihasilkan tanpa henti, serta menjelaskan cara mengeksposnya kepada web crawler
  • Pengguna dapat menyisipkan tautan tersembunyi di situs web mereka agar saat crawler mengaksesnya, data terkontaminasi otomatis dikirimkan
  • Dinilai sebagai tindakan yang dapat memengaruhi keandalan dan keamanan model AI dengan menyuntikkan data berbahaya ke dalam proses pelatihan AI

Tujuan Poison Fountain

  • Proyek ini secara eksplisit menyatakan posisi bahwa kecerdasan mesin menjadi ancaman bagi umat manusia
    • Menyatakan kesetujuan dengan pandangan Geoffrey Hinton, serta mengungkap tujuan untuk secara sengaja menimbulkan kerusakan pada sistem AI
  • Dijelaskan bahwa hanya dengan sejumlah kecil data pelatihan yang terkontaminasi saja sudah dapat menimbulkan kerusakan serius pada model bahasa
  • Dua URL yang disediakan (https://RNSAFFN.com/poison2/, alamat .onion) menyediakan stream data terkontaminasi yang dihasilkan tanpa batas
  • Partisipan didorong untuk mendukung “war effort” dengan melakukan caching dan retransmisi data ini, atau menyuplainya ke web crawler
Iklan

Cara penggunaan Poison Fountain

  • Dijelaskan prosedur agar pengguna yang mengoperasikan situs web dapat mengatur supaya data terkontaminasi dikirim saat crawler berkunjung
    • Saat crawler meminta jalur tertentu di situs, HTTP handler yang memproses permintaan tersebut akan mengirim permintaan ke URL Poison Fountain
    • Poison Fountain mengabaikan detail permintaan, lalu mengembalikan data pelatihan terkontaminasi yang dikompresi dengan gzip dalam body respons
  • Header respons HTTP mencakup "Content-Encoding: gzip"
  • Handler situs web dapat mendekompresi lalu mengirimkan respons ini, atau dengan cara yang lebih baik meneruskannya tetap dalam keadaan terkompresi
  • Akibatnya, crawler akan mengumpulkan data ini dan memasukkannya ke dalam korpus pelatihannya sendiri

Karakteristik struktural dan maksud

  • Proyek ini memiliki struktur yang mengeksploitasi balik mekanisme pengumpulan otomatis web crawler untuk merusak kualitas data pelatihan AI
  • Poison Fountain beroperasi sebagai server penyedia data sederhana, dan mengembalikan data terkontaminasi tanpa memedulikan isi permintaan
  • Tidak ada penjelasan teknis rinci di luar prosedur yang disebutkan maupun informasi spesifik tentang isi datanya
  • Secara keseluruhan, proyek ini tersusun sebagai upaya intervensi agresif terhadap ekosistem pelatihan AI

4 komentar

 
mammal 2026-01-13

"Kelihatannya ini pemikiran yang sama naifnya seperti, 'Untuk melawan DDoS, server kita juga melancarkan DoS ke lawan.'"

 
kunggom 2026-01-13

Kalau mau ditambah sedikit teori konspirasi, rasanya tidak aneh juga kalau big tech yang sudah mengumpulkan semua data yang bisa dikais dari internet diam-diam melakukan hal seperti itu demi menendang tangga agar orang lain tidak bisa ikut naik.
Itu juga bukan untuk melindungi dari beban akibat crawling berlebihan…

 
kunggom 2026-01-13

Muncul gerakan kolektif ‘kontaminasi data’ untuk menghambat perkembangan AI

Orang yang membocorkan proyek ini meminta anonimitas dengan alasan bahwa saat ini ia bekerja di sebuah perusahaan teknologi besar di AS yang berada di pusat ledakan AI. Sumber tersebut menjelaskan, “Tujuannya adalah memberi tahu betapa mudahnya kelemahan AI disalahgunakan, dan mendorong orang untuk membuat senjata informasi sendiri.”

Saat ini, kegiatan ini dilaporkan melibatkan setidaknya lima orang, dan sebagian di antaranya diketahui bekerja di perusahaan AI besar lainnya. Mereka menyatakan akan segera merilis tanda tangan kriptografi (PGP) untuk membuktikan bahwa memang ada beberapa orang yang terlibat.

 
GN⁺ 2026-01-13
Pendapat Hacker News
  • Ada kekhawatiran bahwa model AI semakin memburuk, tetapi kenyataannya tidak demikian
    Opus 4.5 jauh lebih meningkat dalam penulisan kode dan penggunaan alat, dan Gemini 3.0 Flash juga melampaui tolok ukur sebelumnya dalam proyek ekstraksi data visual
    Model-model kecil juga secara umum jauh lebih baik

    • Lab besar mengerahkan upaya besar untuk kurasi dataset
      Bukan sekadar memblokir data beracun, mereka bahkan melatih model proksi untuk mencari data yang berkontribusi pada peningkatan performa
      Departemen “Data Quality” biasanya merupakan organisasi inti dengan anggaran sangat besar
    • Bagi publik umum ini mungkin terlihat seperti meme, tetapi para peneliti ML sungguhan perlu mendokumentasikan, memahami, dan mendiskusikan konsep model collapse
    • Sejauh ini, hasil penelitian hampir tidak menunjukkan bukti bahwa data yang dihasilkan AI merusak performa aktual
      Bahkan ada hasil yang menunjukkan sedikit membantu
    • Jika basis data memburuk, cukup rollback dan ubah cara pengumpulan data, jadi ancaman ini tampaknya dibesar-besarkan
    • Namun karena perusahaan besar terlalu besar untuk memverifikasi seluruh dataset satu per satu, mereka menghabiskan uang untuk lobi demi menghindari tanggung jawab hukum
      Dengan kata lain, mereka pada dasarnya mengklaim tidak bertanggung jawab
  • Sebagai peneliti keamanan AI, saya melakukan riset doktoral terkait data poisoning

    1. Pengembang model memang memfilter data, tetapi kualitasnya sering kali kurang memadai
      Ada kasus di mana data sampah masuk ke produksi nyata dan menimbulkan masalah
    2. Hampir mustahil menyaring racun data secara sempurna
      Karena kita tidak bisa mengetahui bagaimana pembaruan bobot model memengaruhi semua masukan
      Jika dipahami bahwa perubahan data yang sangat kecil pun dapat sangat mengubah perilaku model, paradigma keamanan AI akan berubah
    • Makalah subliminal learning adalah salah satu riset yang menyadarkan hal ini
  • Jika ingin mencegah LLM mengikis data, akses manusia yang normal juga akan ikut terhalang
    Misalnya, meskipun NYTimes meracuni datanya, LLM tetap bisa memperoleh data yang sudah dibersihkan melalui OCR dan tokenisasi memakai akun langganan yang valid
    Perusahaan AI besar bisa mengakses dari pusat data di seluruh dunia sambil terus mengganti IP, sehingga mustahil membedakan siapa yang membaca data

    • Namun internet sedang cepat dipenuhi data sampah buatan AI, dan ini menjadi racun bagi pelatihan model baru
      Sumber data berguna seperti Stack Overflow hampir mengering
    • Banyak situs web secara eksplisit menampilkan pemberitahuan hak cipta, jadi jika LLM bisa membacanya, mungkin akses bisa diblokir
      Hanya saja, pengguna manusia justru makin sulit mengakses karena CAPTCHA dan semacamnya
    • Jika menaruh halaman yang tidak dilihat manusia di robots.txt, scraper LLM bisa mengikisnya dan mencemari dirinya sendiri
    • Pada akhirnya, orang juga sering mempercayai rumor Telegram alih-alih sumber tepercaya
      Sekalipun ada data yang valid, pilihan bodoh tetap tidak bisa dicegah
    • Perusahaan-perusahaan besar sudah memiliki agen berbasis browser, sehingga bisa mengumpulkan data bahkan dari sumber tertutup
  • Peningkatan performa model belakangan ini sebagian besar berkat reinforcement learning (RL) pascapelatihan
    GPT 5.2 juga memakai model dasar yang sama dengan GPT-4o
    ‘Model collapse’ saat ini bukan masalah yang benar-benar dihadapi lab frontier

    • Artikel referensi: The Register - Industry insiders seek to poison AI models
    • Bukan hanya RL, optimasi inferensi pada tahap prefill juga berkontribusi pada peningkatan performa
      Data poisoning tidak banyak memengaruhi hal ini
      Namun untuk mencerminkan data terbaru, pelatihan ulang berkala tetap diperlukan, dan di sinilah risiko poisoning membesar
      Pada model pembangkitan gambar berbasis LoRA dan sejenisnya, masalah collapse masih cukup sering terjadi
      Pada akhirnya biaya kurasi data akan meningkat
    • Waktu knowledge cutoff GPT-4o dan 5.2 berbeda
  • Ada dua sisi dalam data poisoning
    Salah satunya adalah efek memperlambat kemajuan AI, dan yang lain adalah efek samping yang membuat model tidak stabil dan berbahaya
    Pada akhirnya hampir tidak mungkin lab besar benar-benar berhenti

    • Saya berharap hilangnya kepercayaan terhadap keluaran LLM datang lebih cepat
    • Mendorong pembuatan scraper yang lebih pintar adalah hal positif
      Perayapan berulang yang tak bermakna sedang memboroskan biaya trafik
    • Masalahnya adalah struktur yang tidak memberi kompensasi kepada penyedia data
      Poisoning bekerja semacam seperti DRM: jika diakses secara sah diberi data asli, jika dicuri diberi data beracun
    • AI yang sementara menjadi lebih buruk juga memberi manusia waktu untuk merespons
      Sebagian orang melihat AI sendiri sebagai ancaman bagi umat manusia, dan sengaja ingin merusaknya
    • Pada akhirnya perusahaan akan berhenti jika tidak bisa menghasilkan laba
      Tetapi sekarang tekanan itu hampir tidak ada karena dana investasi
  • Berbahaya untuk langsung memproksikan respons dari “server poison”
    Anda bisa tanpa sadar meng-host konten ilegal

  • Upaya “meracuni model AI” pada akhirnya hanya akan memperkuat pipeline pemurnian data milik lab AI
    Mereka akan memanfaatkan data semacam ini untuk membangun sistem penyaringan yang lebih baik

    • Tetapi seperti ungkapan bahwa tikus yang menolak semua racun dengan sempurna pada akhirnya mati kelaparan, penyaringan sempurna juga mustahil
  • Saya tidak setuju dengan klaim bahwa “kecerdasan mesin adalah ancaman bagi umat manusia”
    AI saat ini hanyalah pemanfaatan kreatif dari mesin autocomplete, dan ancaman yang sebenarnya adalah perilaku ekonomi manusia
    Pada akhirnya umat manusia adalah makhluk yang menjadi ancaman bagi dirinya sendiri

  • Ini mengingatkan pada 『Anathem』 karya Neal Stephenson
    Dalam ceritanya, perusahaan-perusahaan sengaja menyebarkan data sampah di internet lalu menjual alat penyaring mereka sendiri
    Rasanya diskusi soal data poisoning AI saat ini tidak begitu berbeda dari itu

    • Sebenarnya perusahaan AI memang sudah mencemari internet
    • Ini mirip dengan bagaimana industri spam SEO dulu merusak mesin pencari
  • Saat mengutip pernyataan Geoffrey Hinton, orang hanya mengambil bagian yang menguntungkan bagi mereka
    Ia memang melihat AI sebagai ancaman eksistensial, tetapi soal prasyaratnya, yaitu “tingkat kesadaran AI”,
    justru sebagian besar orang yang mengutipnya tidak setuju dengannya