6 poin oleh GN⁺ 2026-02-23 | 1 komentar | Bagikan ke WhatsApp
  • Proyek blacklist publik untuk memblokir situs pabrik konten yang dibuat AI di uBlock Origin
  • Situs web yang ditulis oleh AI generatif sering kali dipenuhi iklan dan tautan afiliasi, serta memuat informasi yang tidak dapat dipercaya
  • Pengguna dapat menerapkan daftar blokir dengan berlangganan file list.txt atau menambahkan URL secara manual
  • Ciri-ciri dan kriteria identifikasi situs buatan AI dijelaskan secara rinci, dan daftar dapat diperluas melalui Pull Request dari para kontributor
  • Dapat digunakan sebagai alat praktis untuk mengurangi polusi konten AI yang muncul di peringkat atas hasil pencarian

Ringkasan proyek

  • AI uBlock Blacklist menyediakan daftar pemblokiran konten buatan AI yang dapat digunakan di ekstensi uBlock Origin
  • Situs web yang ditulis AI generatif ditambahkan ke daftar secara manual setiap kali ditemukan saat menjelajah
  • Tidak menggunakan alat otomatis, dan disebutkan bahwa sulit menentukan apakah suatu konten dibuat AI hanya dengan algoritme

Tujuan proyek

  • Situs web yang ditulis AI generatif memiliki sedikit informasi berguna dan dirancang untuk mencari keuntungan lewat iklan serta tautan afiliasi
  • Konten yang ditulis AI bisa dipublikasikan massal tanpa peninjauan dan dapat memuat informasi berbahaya
    • Sebagai contoh, disebut kemungkinan memberi saran berbahaya seperti korsleting rangkaian, menjalankan perintah rm -rf /, atau mencampur pemutih dengan amonia
  • Karena alasan ini, konten buatan AI dianggap tidak dapat dipercaya dan perlu diblokir
  • Pembuat proyek berkebangsaan Italia sehingga banyak situs berbahasa Italia masuk dalam daftar, dan kontribusi untuk menambahkan situs dari bahasa lain sangat disambut

Cara menambahkan situs web

  • Pengguna tanpa pengetahuan teknis dapat melaporkan situs yang mencurigakan melalui GitHub Issue
  • Jika menambahkan langsung melalui Pull Request, pemblokiran bisa dilakukan pada level domain atau jalur blog tertentu
    • Contoh: ||example.com/@slopUser^$doc atau format ||example.com^$doc
  • Jika organisasi yang menjual layanan SEO dan pemasaran digital mengoperasikan beberapa content farm, disarankan menambahkan situs terkait sekaligus

Kriteria identifikasi content farm AI

  • Pendahuluan dan penutup yang tidak perlu, judul bombastis seperti ‘Comprehensive Guide’, tidak ada tautan eksternal atau sumber, serta banyak tautan afiliasi
  • Ribuan posting dalam waktu singkat, informasi salah (halusinasi), posting setelah November 2022, serta gambar dan logo buatan AI
  • Teks dengan format yang berantakan, sintaks Markdown yang tidak dirender, teks panjang yang tidak relevan dengan topik, serta muncul berulang di hasil pencarian atas
  • Tidak ada informasi kontak, halaman perkenalan yang samar, dan konten yang memuja AI juga disebut sebagai ciri utama

Pemanfaatan Google Dorks

  • Jika AI memposting kalimat yang disalin apa adanya, halaman buatan AI dapat ditemukan lewat pencarian frasa tertentu
    • Contoh: "Sure! Here's an article about" (Inggris), "Certo! Ecco un articolo" (Italia)
  • Halaman yang memuat frasa seperti ini akan membuat seluruh domain ditambahkan ke blacklist

Proyek serupa

1 komentar

 
GN⁺ 2026-02-23
Pendapat Hacker News
  • Ide ini menarik dan saya juga sempat ingin berkontribusi ke daftar tersebut, tetapi saya berhenti setelah melihat frasa “Cry about it” di FAQ
    Menurut saya, sikap seperti ini tidak pantas untuk cara mengelola blacklist publik. Kesan yang muncul adalah maintainernya menganggap dirinya tidak mungkin salah

    • Situs pribadi saya juga pernah mengalami hal serupa. Saat teman-teman bilang tidak bisa mengaksesnya, saya kira ada masalah server, ternyata situs saya masuk ke salah satu blocklist di PiHole
      Saya sudah meminta penghapusan, tetapi tidak pernah mendapat balasan, dan sampai sekarang masih diblokir
    • Ada juga yang berpendapat bahwa protes seperti ini sulit dipercaya, seperti permintaan pencabutan VAC ban
    • Dengan sikap seperti ini, saya rasa kecil kemungkinan proyek ini akan tetap terawat 5 tahun lagi. Hal seperti ini seharusnya ditangani tim yang sudah terbukti seperti Easylist
    • Ada juga pendapat bahwa jangan lupa ini hanyalah daftar uBlock Origin untuk penggunaan pribadi
    • Namun sepertinya sekarang sudah diperbaiki. Commit terkait bisa dilihat di sini
  • Dengan pendekatan yang lebih realistis, muncul daftar baru yang hanya memblokir content farm atau situs berkualitas rendah
    Ini tampak sebagai alternatif yang lebih baik daripada daftar pemblokiran AI lama yang terlalu luas
    Lihat uBlockOrigin-HUGE-AI-Blocklist
    Di Reddit juga ada diskusi terkait yang cukup aktif

    • Daftar lama terasa lebih mirip daftar kebencian. Bahkan situs yang secara terbuka mengoperasikan konten AI ikut dimasukkan
    • Menarik juga bahwa daftar situsnya disusun dalam spreadsheet. Dulu setelah melihat kasus grup media yang dipenuhi SEO spam, saya mencari situs-situs serupa lalu menambahkannya ke uBlacklist
      Saya membagikan proses pencarian dan daftarnya di gist saya
    • Hanya saja daftar ini sudah 5 bulan tidak diperbarui
    • Ada juga yang bilang mereka menambahkan kedua daftar tersebut
  • Seiring waktu, masalah false positive makin serius. Domain bisa dijual, situs bisa berganti arah, atau kontennya bisa dihapus
    Dengan sikap seperti “Cry about it”, ini hanya akan menjadi lubang hitam pencemaran nama baik. Setidaknya perlu ada mekanisme kedaluwarsa atau peninjauan ulang

  • uBlock Origin sendiri sudah punya daftar pemblokiran “AI widget”. Fitur ini yang membuat saya masih memakai Firefox. Di Chromium sudah tidak berguna

  • Saya setuju dengan prinsipnya, tetapi sikap seperti “menulis dengan AI itu masalah skill” terasa tidak adil bagi pengguna Grammarly atau penutur non-Inggris

    • Kelompok yang disebut mengalami “skill issue” tidak pernah benar-benar diam menerima hal itu
    • Justru menurut saya, dibanding teks hasil AI, kalimat Inggris yang kaku atau tulisan yang terasa seperti terjemahan malah terasa lebih manusiawi dan beragam
      Lagi pula proyek ini menargetkan content farm, bukan penulis individu, jadi pokok bahasannya berbeda
    • Namun penulis daftar ini juga tidak menghapus domain dari daftar meskipun kepemilikannya sudah berubah. Misalnya, Whitehouse.com dulu situs porno, sekarang bukan lagi
    • Ada juga pendapat bahwa kalau tidak terlalu mahir bahasa Inggris, ya pakai saja penerjemah mesin
    • Saya sendiri memakai Grammarly untuk pekerjaan, terutama agar sesuai brand guideline. Bukan untuk mengubah tulisan menjadi gaya yang terdengar seperti AI.
      Sepertinya penulis ini memang membidik farm bot AI
  • Meski begitu, internet setidaknya belum sampai punya whitelist

    • Ancaman itu tampaknya sudah lewat seiring berakhirnya era yang berpusat pada aplikasi
  • Ada yang memakai alat untuk menilai apakah tulisan dibuat AI berdasarkan tropes, lalu merekonstruksi prompt aslinya
    tropes.fyi/aidr

  • Arah seperti ini bagus. Akan lebih baik kalau pemblokiran berdasarkan kategori situs bisa dibuat lebih beragam
    Di lingkungan perusahaan, layanan reputasi URL digunakan untuk mengategorikan situs dan mengendalikan akses
    Menurut saya, pengguna individu juga butuh infrastruktur semacam ini yang didukung crowdfunding
    Misalnya, akan bagus kalau ada dana nirlaba senilai 1 miliar dolar per tahun untuk mendukung ekosistem tepercaya seperti browser, VPN, DNS, email, dan otoritas sertifikat

  • Ada juga ekstensi seperti botblock.ai yang mendeteksi balasan AI di Twitter

    • Tetapi ada juga respons bahwa “lebih baik sekalian tidak memakai Twitter”
    • Dalam praktiknya tampaknya tidak bekerja dengan baik. Misalnya, akun yang jelas-jelas AI dinilai sebagai 100% manusia
      Bukti gambar
    • Twitter sekarang praktis sudah menjadi platform iklan $8 karena akun berbayar ditampilkan di bagian atas
  • Kalau iklannya terlalu banyak, saya biasanya langsung menutup situsnya. Kalau susunan iklannya masih masuk akal, saya tetap memakainya
    Saya sudah lelah dengan perang adblock. Setiap saat muncul nama plugin baru, terasa seperti persaingan tanpa akhir

    • Masalahnya, iklan sering kali menjadi jalur masuk malware