Poison Fountain

(rnsaffn.com)

2 poin oleh GN⁺ 2026-01-13 | 4 komentar | Bagikan ke WhatsApp

Proyek yang dirancang sebagai sumber data untuk merusak sistem kecerdasan mesin, dengan mengusulkan metode menyuntikkan informasi yang sengaja dikotori ke dalam data pelatihan AI
Mengutip peringatan Geoffrey Hinton, dengan berangkat dari anggapan bahwa kecerdasan buatan merupakan ancaman bagi spesies manusia
Melalui URL ‘Poison Fountain’, proyek ini menyediakan data pelatihan terkontaminasi yang dihasilkan tanpa henti, serta menjelaskan cara mengeksposnya kepada web crawler
Pengguna dapat menyisipkan tautan tersembunyi di situs web mereka agar saat crawler mengaksesnya, data terkontaminasi otomatis dikirimkan
Dinilai sebagai tindakan yang dapat memengaruhi keandalan dan keamanan model AI dengan menyuntikkan data berbahaya ke dalam proses pelatihan AI

Tujuan Poison Fountain

Proyek ini secara eksplisit menyatakan posisi bahwa kecerdasan mesin menjadi ancaman bagi umat manusia
- Menyatakan kesetujuan dengan pandangan Geoffrey Hinton, serta mengungkap tujuan untuk secara sengaja menimbulkan kerusakan pada sistem AI
Dijelaskan bahwa hanya dengan sejumlah kecil data pelatihan yang terkontaminasi saja sudah dapat menimbulkan kerusakan serius pada model bahasa
Dua URL yang disediakan (https://RNSAFFN.com/poison2/, alamat .onion) menyediakan stream data terkontaminasi yang dihasilkan tanpa batas
Partisipan didorong untuk mendukung “war effort” dengan melakukan caching dan retransmisi data ini, atau menyuplainya ke web crawler

Cara penggunaan Poison Fountain

Dijelaskan prosedur agar pengguna yang mengoperasikan situs web dapat mengatur supaya data terkontaminasi dikirim saat crawler berkunjung
- Saat crawler meminta jalur tertentu di situs, HTTP handler yang memproses permintaan tersebut akan mengirim permintaan ke URL Poison Fountain
- Poison Fountain mengabaikan detail permintaan, lalu mengembalikan data pelatihan terkontaminasi yang dikompresi dengan gzip dalam body respons
Header respons HTTP mencakup "Content-Encoding: gzip"
Handler situs web dapat mendekompresi lalu mengirimkan respons ini, atau dengan cara yang lebih baik meneruskannya tetap dalam keadaan terkompresi
Akibatnya, crawler akan mengumpulkan data ini dan memasukkannya ke dalam korpus pelatihannya sendiri

Karakteristik struktural dan maksud

Proyek ini memiliki struktur yang mengeksploitasi balik mekanisme pengumpulan otomatis web crawler untuk merusak kualitas data pelatihan AI
Poison Fountain beroperasi sebagai server penyedia data sederhana, dan mengembalikan data terkontaminasi tanpa memedulikan isi permintaan
Tidak ada penjelasan teknis rinci di luar prosedur yang disebutkan maupun informasi spesifik tentang isi datanya
Secara keseluruhan, proyek ini tersusun sebagai upaya intervensi agresif terhadap ekosistem pelatihan AI

4 komentar

mammal 2026-01-13

"Kelihatannya ini pemikiran yang sama naifnya seperti, 'Untuk melawan DDoS, server kita juga melancarkan DoS ke lawan.'"

kunggom 2026-01-13

Kalau mau ditambah sedikit teori konspirasi, rasanya tidak aneh juga kalau big tech yang sudah mengumpulkan semua data yang bisa dikais dari internet diam-diam melakukan hal seperti itu demi menendang tangga agar orang lain tidak bisa ikut naik.
Itu juga bukan untuk melindungi dari beban akibat crawling berlebihan…

kunggom 2026-01-13

Muncul gerakan kolektif ‘kontaminasi data’ untuk menghambat perkembangan AI

Orang yang membocorkan proyek ini meminta anonimitas dengan alasan bahwa saat ini ia bekerja di sebuah perusahaan teknologi besar di AS yang berada di pusat ledakan AI. Sumber tersebut menjelaskan, “Tujuannya adalah memberi tahu betapa mudahnya kelemahan AI disalahgunakan, dan mendorong orang untuk membuat senjata informasi sendiri.”

Saat ini, kegiatan ini dilaporkan melibatkan setidaknya lima orang, dan sebagian di antaranya diketahui bekerja di perusahaan AI besar lainnya. Mereka menyatakan akan segera merilis tanda tangan kriptografi (PGP) untuk membuktikan bahwa memang ada beberapa orang yang terlibat.

GN⁺ 2026-01-13

Pendapat Hacker News

Ada kekhawatiran bahwa model AI semakin memburuk, tetapi kenyataannya tidak demikian
Opus 4.5 jauh lebih meningkat dalam penulisan kode dan penggunaan alat, dan Gemini 3.0 Flash juga melampaui tolok ukur sebelumnya dalam proyek ekstraksi data visual
Model-model kecil juga secara umum jauh lebih baik
- Lab besar mengerahkan upaya besar untuk kurasi dataset
  Bukan sekadar memblokir data beracun, mereka bahkan melatih model proksi untuk mencari data yang berkontribusi pada peningkatan performa
  Departemen “Data Quality” biasanya merupakan organisasi inti dengan anggaran sangat besar
- Bagi publik umum ini mungkin terlihat seperti meme, tetapi para peneliti ML sungguhan perlu mendokumentasikan, memahami, dan mendiskusikan konsep model collapse
- Sejauh ini, hasil penelitian hampir tidak menunjukkan bukti bahwa data yang dihasilkan AI merusak performa aktual
  Bahkan ada hasil yang menunjukkan sedikit membantu
- Jika basis data memburuk, cukup rollback dan ubah cara pengumpulan data, jadi ancaman ini tampaknya dibesar-besarkan
- Namun karena perusahaan besar terlalu besar untuk memverifikasi seluruh dataset satu per satu, mereka menghabiskan uang untuk lobi demi menghindari tanggung jawab hukum
  Dengan kata lain, mereka pada dasarnya mengklaim tidak bertanggung jawab
Sebagai peneliti keamanan AI, saya melakukan riset doktoral terkait data poisoning
1. Pengembang model memang memfilter data, tetapi kualitasnya sering kali kurang memadai
  Ada kasus di mana data sampah masuk ke produksi nyata dan menimbulkan masalah
2. Hampir mustahil menyaring racun data secara sempurna
  Karena kita tidak bisa mengetahui bagaimana pembaruan bobot model memengaruhi semua masukan
  Jika dipahami bahwa perubahan data yang sangat kecil pun dapat sangat mengubah perilaku model, paradigma keamanan AI akan berubah
- Makalah subliminal learning adalah salah satu riset yang menyadarkan hal ini
Jika ingin mencegah LLM mengikis data, akses manusia yang normal juga akan ikut terhalang
Misalnya, meskipun NYTimes meracuni datanya, LLM tetap bisa memperoleh data yang sudah dibersihkan melalui OCR dan tokenisasi memakai akun langganan yang valid
Perusahaan AI besar bisa mengakses dari pusat data di seluruh dunia sambil terus mengganti IP, sehingga mustahil membedakan siapa yang membaca data
- Namun internet sedang cepat dipenuhi data sampah buatan AI, dan ini menjadi racun bagi pelatihan model baru
  Sumber data berguna seperti Stack Overflow hampir mengering
- Banyak situs web secara eksplisit menampilkan pemberitahuan hak cipta, jadi jika LLM bisa membacanya, mungkin akses bisa diblokir
  Hanya saja, pengguna manusia justru makin sulit mengakses karena CAPTCHA dan semacamnya
- Jika menaruh halaman yang tidak dilihat manusia di robots.txt, scraper LLM bisa mengikisnya dan mencemari dirinya sendiri
- Pada akhirnya, orang juga sering mempercayai rumor Telegram alih-alih sumber tepercaya
  Sekalipun ada data yang valid, pilihan bodoh tetap tidak bisa dicegah
- Perusahaan-perusahaan besar sudah memiliki agen berbasis browser, sehingga bisa mengumpulkan data bahkan dari sumber tertutup
Peningkatan performa model belakangan ini sebagian besar berkat reinforcement learning (RL) pascapelatihan
GPT 5.2 juga memakai model dasar yang sama dengan GPT-4o
‘Model collapse’ saat ini bukan masalah yang benar-benar dihadapi lab frontier
- Artikel referensi: The Register - Industry insiders seek to poison AI models
- Bukan hanya RL, optimasi inferensi pada tahap prefill juga berkontribusi pada peningkatan performa
  Data poisoning tidak banyak memengaruhi hal ini
  Namun untuk mencerminkan data terbaru, pelatihan ulang berkala tetap diperlukan, dan di sinilah risiko poisoning membesar
  Pada model pembangkitan gambar berbasis LoRA dan sejenisnya, masalah collapse masih cukup sering terjadi
  Pada akhirnya biaya kurasi data akan meningkat
- Waktu knowledge cutoff GPT-4o dan 5.2 berbeda
Ada dua sisi dalam data poisoning
Salah satunya adalah efek memperlambat kemajuan AI, dan yang lain adalah efek samping yang membuat model tidak stabil dan berbahaya
Pada akhirnya hampir tidak mungkin lab besar benar-benar berhenti
- Saya berharap hilangnya kepercayaan terhadap keluaran LLM datang lebih cepat
- Mendorong pembuatan scraper yang lebih pintar adalah hal positif
  Perayapan berulang yang tak bermakna sedang memboroskan biaya trafik
- Masalahnya adalah struktur yang tidak memberi kompensasi kepada penyedia data
  Poisoning bekerja semacam seperti DRM: jika diakses secara sah diberi data asli, jika dicuri diberi data beracun
- AI yang sementara menjadi lebih buruk juga memberi manusia waktu untuk merespons
  Sebagian orang melihat AI sendiri sebagai ancaman bagi umat manusia, dan sengaja ingin merusaknya
- Pada akhirnya perusahaan akan berhenti jika tidak bisa menghasilkan laba
  Tetapi sekarang tekanan itu hampir tidak ada karena dana investasi
Berbahaya untuk langsung memproksikan respons dari “server poison”
Anda bisa tanpa sadar meng-host konten ilegal
Upaya “meracuni model AI” pada akhirnya hanya akan memperkuat pipeline pemurnian data milik lab AI
Mereka akan memanfaatkan data semacam ini untuk membangun sistem penyaringan yang lebih baik
- Tetapi seperti ungkapan bahwa tikus yang menolak semua racun dengan sempurna pada akhirnya mati kelaparan, penyaringan sempurna juga mustahil
Saya tidak setuju dengan klaim bahwa “kecerdasan mesin adalah ancaman bagi umat manusia”
AI saat ini hanyalah pemanfaatan kreatif dari mesin autocomplete, dan ancaman yang sebenarnya adalah perilaku ekonomi manusia
Pada akhirnya umat manusia adalah makhluk yang menjadi ancaman bagi dirinya sendiri
Ini mengingatkan pada 『Anathem』 karya Neal Stephenson
Dalam ceritanya, perusahaan-perusahaan sengaja menyebarkan data sampah di internet lalu menjual alat penyaring mereka sendiri
Rasanya diskusi soal data poisoning AI saat ini tidak begitu berbeda dari itu
- Sebenarnya perusahaan AI memang sudah mencemari internet
- Ini mirip dengan bagaimana industri spam SEO dulu merusak mesin pencari
Saat mengutip pernyataan Geoffrey Hinton, orang hanya mengambil bagian yang menguntungkan bagi mereka
Ia memang melihat AI sebagai ancaman eksistensial, tetapi soal prasyaratnya, yaitu “tingkat kesadaran AI”,
justru sebagian besar orang yang mengutipnya tidak setuju dengannya