1 poin oleh GN⁺ 2025-06-11 | 1 komentar | Bagikan ke WhatsApp
  • Situs Low-background Steel berfungsi mengumpulkan materi yang tidak terkontaminasi konten buatan AI
  • Proyek ini berfokus pada materi teks, gambar, dan video yang dibuat sebelum penyebaran besar-besaran konten AI pada 2022
  • Situs ini memperkenalkan sumber kontribusi representatif seperti Wikipedia, Arctic Code Vault, dan Project Gutenberg
  • Pengunjung situs juga dapat mengirimkan materi baru yang belum terkontaminasi
  • Gagasan ini terinspirasi dari konsep logam murni sebelum uji coba nuklir, dengan penekanan pada menjaga keandalan dan keaslian

Pengantar

  • Low-background Steel adalah situs web yang mengumpulkan sumber daya online yang tidak terkontaminasi konten buatan AI
  • Nama situs ini diambil dari Low-background Steel (dan Lead), yaitu logam yang dibuat sebelum uji coba nuklir sehingga bebas dari kontaminasi radioaktif
  • Logam yang diambil dari kapal yang tenggelam sebelum uji coba nuklir (Trinity Test) dianggap berharga karena hampir tidak mengalami kontaminasi radioaktif
  • Dari ide itu, proyek ini bertujuan melestarikan dan memperkenalkan konten digital murni yang diproduksi sebelum ledakan hasil generasi AI

Tujuan dan Latar Belakang

  • Fokus utamanya adalah mengamankan berbagai materi dalam bentuk asli seperti teks, gambar, dan video dari sebelum kemunculan besar-besaran konten generatif berbasis AI pada 2022
  • Materi tersebut mencakup basis data open source representatif yang tepercaya seperti seluruh dump Wikipedia, Arctic Code Vault, dan Project Gutenberg
  • Pengguna situs dapat menambahkan sendiri materi baru yang belum terkontaminasi melalui formulir pengiriman

Pentingnya Situs Ini

  • Di era lonjakan hasil buatan AI, pelestarian keaslian dan ketersediaan informasi yang tepercaya menjadi semakin penting
  • Low-background Steel bertujuan menyediakan referensi data bersih yang dapat digunakan tanpa kekhawatiran akan polusi informasi

Cara Berkontribusi

  • Siapa pun dapat mengusulkan sumber konten Non-contaminated baru melalui fitur submit di situs

Referensi

  • Tautan ke penjelasan Wikipedia tentang Low-background Steel yang mencerminkan tujuan situs ini dengan baik turut disertakan
  • Proyek ini dibuka pada Maret 2023 dan saat ini berfungsi sebagai hub eksperimental untuk pelestarian konten online

1 komentar

 
GN⁺ 2025-06-11
Komentar Hacker News
  • Tertarik dengan gagasan menambahkan plane baru ke Unicode, lalu menggandakan semua karakter berguna seperti cermin dan membedakannya dengan bit status tambahan

    • Misalnya, membayangkan area “hasil yang ditulis langsung oleh manusia” di mana penggunaan teks buatan AI langsung dihukum, area “hanya terbuka untuk manusia” di mana AI dilarang belajar atau bahkan mengaksesnya, dan area “diakui sebagai hasil buatan AI” di mana semua keluaran AI wajib diproses dalam rentang karakter tersebut

    • Tentu saja, karakter-karakter ini sulit dibedakan secara visual dan hanya bisa dibedakan lewat perangkat lunak, sehingga berfungsi sebagai saluran halus

    • Bahkan saat teks di-copy-paste, informasi asalnya ikut berpindah lewat perbedaan kecil pada encoding karakter

    • Hampir seperti bercanda, tapi tetap merasa sistem seperti ini menarik

    • Seperti makanan organik, menurutku konten “organik” yang 100% ditulis manusia akan punya nilai premium

      • Tapi seperti di industri makanan, menentukan apa yang benar-benar boleh dan sampai batas mana sesuatu bisa disebut organik akan jadi mimpi buruk
      • Sertifikasi bergantung pada jaringan kepercayaan, dan pada akhirnya hasil AI yang terkontaminasi pun bisa tetap diperdagangkan dengan harga lebih tinggi
    • Merasa kriteria “teks yang dihasilkan AI” itu tidak jelas, lalu memberi contoh konkret

        1. Siswa menulis langsung dengan tulisan tangan
        1. Mengacu pada ensiklopedia online, tetapi ensiklopedia itu sendiri diam-diam memakai AI
        1. Meminta AI menyusun struktur makalah, poin utama, dan kesimpulan, lalu menulisnya sendiri
        1. Tulisan sendiri hanya diserahkan ke AI untuk koreksi ejaan, revisi kalimat, dan penyesuaian gaya
        1. AI menulis seluruh teks sebagai ghostwriter
        1. Menulis beberapa karya sendiri, lalu meminta AI memilih karya terbaik
      • Yang pertama dan terakhir jelas, tetapi untuk sisanya membingungkan sampai sejauh mana itu harus dianggap hasil AI
    • Di Unicode sebenarnya sudah ada tag character untuk menandai area bahasa, tetapi tersisih oleh markup level lebih tinggi (HTML dan semacamnya) dan kini sudah deprecated

      • Karakter ini tidak terlihat, dan saat kursor digerakkan beberapa karakter diperlakukan seperti satu karakter
      • Selaras dengan ASCII, jadi bisa menyisipkan JSON atau data arbitrer
      • Bisa dipakai untuk menandai area yang dihasilkan LLM, tetapi karena berpotensi jadi data tersembunyi atau penggunaan yang tidak dianjurkan, mungkin terasa kurang nyaman
      • Tautan terkait: https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
    • Kalau hukum ini diberlakukan, dalam 12 milidetik akan muncul “pabrik pengetikan” di India, tempat manusia menyalin hasil AI untuk pencucian data

    • Misalnya menulis dalam bahasa asing lalu meminta ChatGPT menerjemahkannya ke bahasa Inggris, apakah itu harus dianggap hasil AI?

      • Bagaimana jika menulis tangan lalu menjalankan OCR dengan LLM, atau memberi AI kerangka yang sangat rinci sambil tetap memverifikasi fakta dengan ketat?
      • Jika AI hanya dipakai untuk cek tata bahasa atau memperbaiki ekspresi ilmiah, apakah itu juga hasil AI?
      • Menurut standarku, semuanya itu “tidak”
  • Mengklaim bahwa keluaran AI pada dasarnya memiliki sifat regresi ke rata-rata

    • Dari sudut pandang ini, isi semacam itu hanyalah informasi yang sebenarnya bisa didapat dengan bertanya langsung ke manusia

    • Cukup tempelkan tag <AI generated content> ke semua hasil AI, dan selain itu lebih dekat ke polusi daripada kepentingan publik

    • Kalau mengikuti logika ini, kesimpulannya jadi tidak perlu menulis apa pun

      • Shakespeare, pembuktian matematika, semua novel dan laporan berita pada akhirnya hanyalah kombinasi kata-kata yang mungkin
      • Nilai sesuatu bukan sekadar karena “bisa diproduksi”, tetapi karena ia dibuat untuk tujuan, situasi, dan pembaca tertentu
    • Dulu keyakinan intuitif ini sempat punya sedikit dukungan bukti eksperimental

      • Namun belakangan keluaran AI yang dikurasi dengan baik justru menghasilkan terobosan inovatif, sehingga klaim itu tampaknya tak lagi benar
    • Proses verifikasi dan kurasi dengan nama pakar manusia yang dipertaruhkan juga punya nilai besar

      • Faktanya, sebagian besar konten internet sejak awal memang sudah berkualitas rendah, murah, dan bukan dibuat oleh pakar, jadi tidak merasa AI memperburuknya secara khusus
    • Penasaran apakah tulisan yang diedit AI atau diubah stylenya tetap bisa dianggap tulisan manusia

      • Dalam kasusku, aku mendiktekan tulisan blog ke note lewat suara, lalu merapikannya dengan CGPT atau Claude untuk nada dan ritme
    • Menurutku ini omong kosong

      • Kalau pernah benar-benar memakai tool deep research, akan paham bahwa manusia juga menghasilkan banyak konten tak bernilai
      • Semoga tidak terjebak dalam salah paham yang utopis
  • Merasa istilah-istilah yang dipakai di tulisan ini dipilih sangat cerdik sehingga membuat kekhawatiran terdengar lebih kecil dari yang sebenarnya

    • Setelah berakhirnya uji coba nuklir, tingkat radiasi sudah hampir kembali ke level alami, kebutuhan akan low-background steel baru pun berkurang, dan baja baru juga sinyal radioaktifnya cukup lemah untuk sebagian besar penggunaan

    • Namun, tidak merasa data yang “tidak terkontaminasi” itu benar-benar wajib

      • Rasanya data LLM jauh lebih baik daripada komentar Reddit biasa
      • Dari archive.org, gutenberg, dan sejenisnya pun masih mudah menemukan data yang “murni”
      • Keluaran LLM pada akhirnya akan meresap ke mana-mana, jadi ini arus yang tak terhindarkan
    • Memang benar bahwa justru karena kita menghentikan uji coba nuklir, radiasi latar belakang menurun

  • Menganggap isu ini tidak akan separah yang dibayangkan publik

    • Dalam jangka panjang, AI akan belajar dari pengalaman nyata, sehingga data pelatihan non-karya yang nyaris tak terbatas akan tersedia dan masalah kontaminasi AI pun bisa dihindari

    • Dalam kenyataan, halusinasi AI distorsi fakta justru cenderung dikutip lalu membeku menjadi kebenaran

      • Contoh: saat benar-benar bertanya ke AI berkali-kali, “apa program produktivitas bawaan connect four untuk MS-DOS?”, setiap kali jawabannya berbeda dan semuanya salah
      • Informasi salah itu lalu dikutip lagi di web, dan AI pun mempelajari informasi keliru tersebut, membentuk lingkaran umpan balik
      • Dalam situasi seperti ini, menjadi sulit mengetahui kebenarannya
    • Data pengalaman nyata, misalnya perbaikan mobil, mahal dan berisiko untuk dihasilkan

      • Seperti montir manusia, AI juga harus memulai dari manual dan kurikulum pelatihan yang eksplisit
      • Jika hanya belajar dari data eksekusi nyata, ia akan merusak mobil lewat trial and error, dan manusia tetap harus turun tangan di proses itu
      • Bahkan dengan off-policy reinforcement learning (RL), datanya pun mungkin berasal dari model generasi sebelumnya, yaitu buatan AI
      • Karena itu, pengalaman nyata saja tidak cukup untuk sepenuhnya menyelesaikan keterbatasan pasokan, biaya, dan masalah kontaminasi AI
    • Di YouTube ada sangat banyak data pengalaman nyata soal perbaikan mobil, tetapi ada isu hak cipta

      • Masih diperdebatkan apakah perusahaan AI harus memperoleh lisensi hak cipta sebelum memakai konten tersebut
    • Bertanya-tanya apakah dalam jangka panjang AGI memang diperlukan

      • Setelah AGI muncul, narasi bahwa konten spam juga akan menjadi lebih baik terasa meragukan
      • Referensi xkcd terkait: https://xkcd.com/810/
    • Prediksinya, sebelum ada robot humanoid dengan kecerdasan umum yang nyata, sistem AI yang bisa memperbaiki mobil tidak akan terwujud

      • Hal yang sama berlaku untuk kemunculan AI maid di hotel bintang lima
      • Karena itu, pandangan bahwa masalah pencemaran basis data bahasa akan selesai dengan sendirinya seiring waktu terasa agak tidak realistis
  • Untuk saat ini, belum ada bukti bahwa “kontaminasi AI” benar-benar menimbulkan masalah bagi pelatihan AI

    • AI yang dilatih dengan data publik sebelum 2022 tidak menunjukkan keunggulan performa yang mencolok dibanding AI yang dilatih dengan data setelah 2022

    • Bahkan ada kalanya data yang lebih baru sedikit lebih baik

    • Cara berpikir yang terkandung dalam analogi “low background steel” adalah bahwa jika AI terus dilatih ulang dengan data sintetis, akan terjadi model collapse sehingga model menjadi sepenuhnya tak bermakna

      • Dalam praktiknya, fenomena itu belum terlihat, dan tampaknya perusahaan AI juga tidak menjalankan filter internal yang secara terpisah menyaring data buatan AI
      • Justru kalau manusia terlalu banyak terpapar data AI, mungkin model collapse akan muncul pada manusia
      • Ini murni berdasarkan pengalaman dan intuisi pribadiku
    • Klaim di atas tidak terlalu masuk akal karena beberapa alasan

        1. Teknik pelatihan LLM setelah 2022 meningkat jauh, sehingga dampak negatif “residu” AI dalam data mungkin saja tidak cukup besar untuk terlihat
        1. Evaluasi performa sendiri ambigu, dan hanya tampak sebagai perbedaan tipis antar model sezaman seperti Gemini 2.5 vs Claude 4
      • Efek kecil seperti ini sulit dibuktikan lewat data, dan justru karena itu pendekatan berbasis prinsip menjadi penting
      • Secara prinsip, lebih baik menghindari pelatihan pada hasil buatan AI
    • “Residu” kontaminasi AI belum benar-benar membanjiri ekosistem, tetapi diperkirakan akan meningkat tajam ke depan

  • Sebagian orang tidak terlalu alergi terhadap konten AI, dan menilai analogi low-background steel sebagai ide yang sangat cemerlang

    • Aku sendiri juga tidak terlalu menolak konten AI, dan bahkan pernah membuat situs terkait

      • Tujuannya adalah mencatat materi yang diketahui pasti dibuat oleh manusia
    • Secara pribadi, ini lebih bukan AI phobia, melainkan niat untuk mencegah AI terus belajar dari hasilnya sendiri

      • Konten era “pre-AI” adalah kelangkaan yang terus bertambah nilainya karena tidak bisa lagi diciptakan ulang
      • Akan lebih baik jika sekitar 2015 semua data sudah diberi cryptographic timestamp, tetapi sekarang pun setidaknya kita masih bisa menjaga yang tersisa
  • Rasanya lucu bahwa pemikiran hari ini seolah terbukti cukup visioner

    • Komentarku yang lama

    • Aku sudah pernah melihat contoh ini di Hacker News setidaknya setahun lalu, mungkin lebih lama

    • Ini memang analogi yang umum dipakai sejak peluncuran ChatGPT

    • Framing tentang konten yang bebas “kontaminasi” AI juga sudah pernah kulihat, tetapi menyamakan itu dengan “low background steel” terasa sebagai tembakan metafora yang cukup segar

    • Aku berpikir sebaliknya

      • Kita akan memberi anotasi pada konten dan data sintetis, lalu mesin memanfaatkannya sehingga keluaran masa depan makin membaik
      • Mungkin efeknya tidak terlalu menonjol pada LLM, tetapi pada model gambar dan video itu jelas
      • Dengan hanya memilih keluaran visual terbaik, hasilnya sedikit demi sedikit meningkat, dan dalam proses ini “kurasi sesuai selera” juga memainkan peran besar
      • Seperti penerapannya pada berbagai niche ekologis dalam genetika dan biologi, kita sedang mempercepat evolusi aturan permainan dengan mesin sintetis
  • Sepakat bahwa analogi low-background itu menarik

  • Ragu apakah analogi ini benar-benar meyakinkan

    • Low-background steel memang nyaris mustahil dibuat baru, sedangkan konten bebas AI cukup dengan tidak memakai AI, jadi tingkat kesulitannya rendah

    • Pada praktiknya hampir mustahil membuktikan secara objektif bahwa suatu hasil benar-benar AI-free, jadi selain pembuatnya sendiri tidak ada yang bisa benar-benar yakin

    • Siapa yang mau membuat konten AI-free, untuk alasan apa, dan dengan uang siapa?

    • Menurutku ini cuma judul yang bersifat clickbait

  • Karena nama situs ini berasal dari Y combinator, ada yang menyinggung pencarian fixed point suatu fungsi sebagai syarat bagi model inference

    • Sikap optimistis bahwa sebuah konten dapat mentransformasikan dirinya sendiri, menjadikan hasilnya sebagai masukan lagi, dan terus mengekstraksi pola esensialnya
  • Meski produksi data yang condong ke AI meningkat, tetap berharap bahwa ciri-ciri esensial akan terus bisa diekstrak meski pelatihan mencampur konten manusia asli, konten turunan, lalu turunan dari turunan itu, dalam beberapa lapisan sekaligus