- Situs Low-background Steel berfungsi mengumpulkan materi yang tidak terkontaminasi konten buatan AI
- Proyek ini berfokus pada materi teks, gambar, dan video yang dibuat sebelum penyebaran besar-besaran konten AI pada 2022
- Situs ini memperkenalkan sumber kontribusi representatif seperti Wikipedia, Arctic Code Vault, dan Project Gutenberg
- Pengunjung situs juga dapat mengirimkan materi baru yang belum terkontaminasi
- Gagasan ini terinspirasi dari konsep logam murni sebelum uji coba nuklir, dengan penekanan pada menjaga keandalan dan keaslian
Pengantar
- Low-background Steel adalah situs web yang mengumpulkan sumber daya online yang tidak terkontaminasi konten buatan AI
- Nama situs ini diambil dari Low-background Steel (dan Lead), yaitu logam yang dibuat sebelum uji coba nuklir sehingga bebas dari kontaminasi radioaktif
- Logam yang diambil dari kapal yang tenggelam sebelum uji coba nuklir (Trinity Test) dianggap berharga karena hampir tidak mengalami kontaminasi radioaktif
- Dari ide itu, proyek ini bertujuan melestarikan dan memperkenalkan konten digital murni yang diproduksi sebelum ledakan hasil generasi AI
Tujuan dan Latar Belakang
- Fokus utamanya adalah mengamankan berbagai materi dalam bentuk asli seperti teks, gambar, dan video dari sebelum kemunculan besar-besaran konten generatif berbasis AI pada 2022
- Materi tersebut mencakup basis data open source representatif yang tepercaya seperti seluruh dump Wikipedia, Arctic Code Vault, dan Project Gutenberg
- Pengguna situs dapat menambahkan sendiri materi baru yang belum terkontaminasi melalui formulir pengiriman
Pentingnya Situs Ini
- Di era lonjakan hasil buatan AI, pelestarian keaslian dan ketersediaan informasi yang tepercaya menjadi semakin penting
- Low-background Steel bertujuan menyediakan referensi data bersih yang dapat digunakan tanpa kekhawatiran akan polusi informasi
Cara Berkontribusi
- Siapa pun dapat mengusulkan sumber konten Non-contaminated baru melalui fitur submit di situs
Referensi
- Tautan ke penjelasan Wikipedia tentang Low-background Steel yang mencerminkan tujuan situs ini dengan baik turut disertakan
- Proyek ini dibuka pada Maret 2023 dan saat ini berfungsi sebagai hub eksperimental untuk pelestarian konten online
1 komentar
Komentar Hacker News
Tertarik dengan gagasan menambahkan
planebaru ke Unicode, lalu menggandakan semua karakter berguna seperti cermin dan membedakannya dengan bit status tambahanMisalnya, membayangkan area “hasil yang ditulis langsung oleh manusia” di mana penggunaan teks buatan AI langsung dihukum, area “hanya terbuka untuk manusia” di mana AI dilarang belajar atau bahkan mengaksesnya, dan area “diakui sebagai hasil buatan AI” di mana semua keluaran AI wajib diproses dalam rentang karakter tersebut
Tentu saja, karakter-karakter ini sulit dibedakan secara visual dan hanya bisa dibedakan lewat perangkat lunak, sehingga berfungsi sebagai saluran halus
Bahkan saat teks di-copy-paste, informasi asalnya ikut berpindah lewat perbedaan kecil pada encoding karakter
Hampir seperti bercanda, tapi tetap merasa sistem seperti ini menarik
Seperti makanan organik, menurutku konten “organik” yang 100% ditulis manusia akan punya nilai premium
Merasa kriteria “teks yang dihasilkan AI” itu tidak jelas, lalu memberi contoh konkret
Di Unicode sebenarnya sudah ada tag character untuk menandai area bahasa, tetapi tersisih oleh markup level lebih tinggi (HTML dan semacamnya) dan kini sudah deprecated
Kalau hukum ini diberlakukan, dalam 12 milidetik akan muncul “pabrik pengetikan” di India, tempat manusia menyalin hasil AI untuk pencucian data
Misalnya menulis dalam bahasa asing lalu meminta ChatGPT menerjemahkannya ke bahasa Inggris, apakah itu harus dianggap hasil AI?
Mengklaim bahwa keluaran AI pada dasarnya memiliki sifat regresi ke rata-rata
Dari sudut pandang ini, isi semacam itu hanyalah informasi yang sebenarnya bisa didapat dengan bertanya langsung ke manusia
Cukup tempelkan tag
<AI generated content>ke semua hasil AI, dan selain itu lebih dekat ke polusi daripada kepentingan publikKalau mengikuti logika ini, kesimpulannya jadi tidak perlu menulis apa pun
Dulu keyakinan intuitif ini sempat punya sedikit dukungan bukti eksperimental
Proses verifikasi dan kurasi dengan nama pakar manusia yang dipertaruhkan juga punya nilai besar
Penasaran apakah tulisan yang diedit AI atau diubah stylenya tetap bisa dianggap tulisan manusia
Menurutku ini omong kosong
Merasa istilah-istilah yang dipakai di tulisan ini dipilih sangat cerdik sehingga membuat kekhawatiran terdengar lebih kecil dari yang sebenarnya
Setelah berakhirnya uji coba nuklir, tingkat radiasi sudah hampir kembali ke level alami, kebutuhan akan low-background steel baru pun berkurang, dan baja baru juga sinyal radioaktifnya cukup lemah untuk sebagian besar penggunaan
Namun, tidak merasa data yang “tidak terkontaminasi” itu benar-benar wajib
Memang benar bahwa justru karena kita menghentikan uji coba nuklir, radiasi latar belakang menurun
Menganggap isu ini tidak akan separah yang dibayangkan publik
Dalam jangka panjang, AI akan belajar dari pengalaman nyata, sehingga data pelatihan non-karya yang nyaris tak terbatas akan tersedia dan masalah kontaminasi AI pun bisa dihindari
Dalam kenyataan, halusinasi AI distorsi fakta justru cenderung dikutip lalu membeku menjadi kebenaran
Data pengalaman nyata, misalnya perbaikan mobil, mahal dan berisiko untuk dihasilkan
Di YouTube ada sangat banyak data pengalaman nyata soal perbaikan mobil, tetapi ada isu hak cipta
Bertanya-tanya apakah dalam jangka panjang AGI memang diperlukan
Prediksinya, sebelum ada robot humanoid dengan kecerdasan umum yang nyata, sistem AI yang bisa memperbaiki mobil tidak akan terwujud
Untuk saat ini, belum ada bukti bahwa “kontaminasi AI” benar-benar menimbulkan masalah bagi pelatihan AI
AI yang dilatih dengan data publik sebelum 2022 tidak menunjukkan keunggulan performa yang mencolok dibanding AI yang dilatih dengan data setelah 2022
Bahkan ada kalanya data yang lebih baru sedikit lebih baik
Cara berpikir yang terkandung dalam analogi “low background steel” adalah bahwa jika AI terus dilatih ulang dengan data sintetis, akan terjadi model collapse sehingga model menjadi sepenuhnya tak bermakna
Klaim di atas tidak terlalu masuk akal karena beberapa alasan
“Residu” kontaminasi AI belum benar-benar membanjiri ekosistem, tetapi diperkirakan akan meningkat tajam ke depan
Sebagian orang tidak terlalu alergi terhadap konten AI, dan menilai analogi low-background steel sebagai ide yang sangat cemerlang
Aku sendiri juga tidak terlalu menolak konten AI, dan bahkan pernah membuat situs terkait
Secara pribadi, ini lebih bukan AI phobia, melainkan niat untuk mencegah AI terus belajar dari hasilnya sendiri
Rasanya lucu bahwa pemikiran hari ini seolah terbukti cukup visioner
Komentarku yang lama
Aku sudah pernah melihat contoh ini di Hacker News setidaknya setahun lalu, mungkin lebih lama
Ini memang analogi yang umum dipakai sejak peluncuran ChatGPT
Framing tentang konten yang bebas “kontaminasi” AI juga sudah pernah kulihat, tetapi menyamakan itu dengan “low background steel” terasa sebagai tembakan metafora yang cukup segar
Aku berpikir sebaliknya
Sepakat bahwa analogi low-background itu menarik
Ragu apakah analogi ini benar-benar meyakinkan
Low-background steel memang nyaris mustahil dibuat baru, sedangkan konten bebas AI cukup dengan tidak memakai AI, jadi tingkat kesulitannya rendah
Pada praktiknya hampir mustahil membuktikan secara objektif bahwa suatu hasil benar-benar AI-free, jadi selain pembuatnya sendiri tidak ada yang bisa benar-benar yakin
Siapa yang mau membuat konten AI-free, untuk alasan apa, dan dengan uang siapa?
Menurutku ini cuma judul yang bersifat clickbait
Karena nama situs ini berasal dari Y combinator, ada yang menyinggung pencarian fixed point suatu fungsi sebagai syarat bagi model inference
Meski produksi data yang condong ke AI meningkat, tetap berharap bahwa ciri-ciri esensial akan terus bisa diekstrak meski pelatihan mencampur konten manusia asli, konten turunan, lalu turunan dari turunan itu, dalam beberapa lapisan sekaligus