Low-background Steel untuk Konten yang Tidak Tercemar AI

(blog.jgc.org)

1 poin oleh GN⁺ 2025-06-11 | 1 komentar | Bagikan ke WhatsApp

lowbackgroundsteel.ai dibuat pada Maret 2023 untuk mencari materi dari sebelum hasil buatan AI tercampur secara masif di web
Namanya adalah analogi yang diambil dari baja dan timbal latar-rendah yang tidak tercemar isotop radioaktif dari uji coba nuklir
Low-background steel dan timbal yang sebenarnya biasanya mengacu pada logam yang diambil dari kapal yang tenggelam sebelum Trinity Test pada 1945
Situs ini berfokus mengumpulkan sumber teks, gambar, dan video yang dibuat sebelum konten buatan AI melonjak pada 2022
Situs ini menautkan ke materi seperti dump Wikipedia sebelum rilis ChatGPT, Arctic Code Vault, dan Project Gutenberg, serta menerima pengajuan sumber lain yang belum tercemar

Hub untuk mengumpulkan materi pra-AI

lowbackgroundsteel.ai adalah hub materi yang dibuat untuk mengumpulkan sumber daya online yang tidak tercampur konten buatan AI
Dimulai pada Maret 2023, situs ini berperan mengkurasi sumber daya online dari sebelum hasil buatan AI menyebar luas

Analogi di balik namanya

Low-background Steel berarti logam yang tidak tercemar isotop radioaktif dari uji coba nuklir
Baja dan timbal seperti ini biasanya diambil dari kapal yang tenggelam sebelum Trinity Test pada 1945
Situs ini menerapkan konsep tersebut pada konten, dan menyebut materi yang tidak tercemar konten buatan AI sebagai Low-background Steel

Target koleksi dan contoh

Target koleksinya adalah sumber teks, gambar, dan video yang dibuat sebelum konten buatan AI meningkat tajam pada 2022
Contoh yang saat ini ditautkan adalah sebagai berikut
- Dump Wikipedia sebelum rilis ChatGPT
- Arctic Code Vault
- Project Gutenberg
  - Sumber materi tambahan lainnya

Pengajuan materi

Jika mengetahui sumber lain yang tidak tercemar konten buatan AI, Anda dapat mengirimkannya melalui halaman pengajuan

1 komentar

GN⁺ 2025-06-11

Pendapat Hacker News

Saya pikir cukup tambahkan plane baru ke Unicode, duplikasi semua karakter yang diperlukan untuk komunikasi, lalu masukkan bit status tambahan
Buat rentang seperti pasti ditulis manusia, khusus mata manusia, mengakui dibuat AI, dan jika melanggarnya, kirim ke penjara
Tentu saja semua rentangnya berupa homoglif yang secara visual tidak bisa dibedakan, sehingga menjadi kanal semi-tersembunyi yang dimediasi perangkat lunak demi pengungkapan yang adil
Meski disalin-tempel dari berbagai sumber, informasi asal akan ikut terbawa lewat perbedaan halus dalam encoding karakter, dan saya hanya bercanda dengan rasio yang nyaris mendekati 1
- Seperti makanan, konten organik sepenuhnya juga akan punya nilai pasar
  Maksudnya konten yang ditulis, digambar, digubah, disunting, dan dikurasi oleh manusia
  Namun seperti makanan, mendefinisikan batas yang diperbolehkan akan jadi mimpi buruk, sulit membuktikan bahwa sesuatu organik, sertifikasi bergantung pada jaringan kepercayaan, dalam praktiknya tercemar oleh hal yang ingin dihindari, dan bahkan bisa dijual lebih mahal meski ada bukti bahwa itu justru lebih buruk
- Unicode sebenarnya punya rentang Tag Characters yang dibuat untuk menandai bahwa sebagian teks berasal dari bahasa lain
  Kegunaan ini sudah digantikan oleh notasi tingkat lebih tinggi seperti tag HTML dan dinyatakan usang, tetapi karakternya masih ada
  Yang unik, karakter ini tidak terlihat, dan deretan tag character berurutan berperilaku seperti satu karakter saat kursor bergerak
  Karena mencerminkan ASCII, JSON atau data lain apa pun bisa dienkode di dalamnya, jadi kalau tidak masalah membuat orang kesal dengan data tersembunyi atau penggunaan yang sudah usang, ini juga cukup cocok untuk menandai bagian yang dibuat LLM
  https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
- Masalahnya adalah bagaimana mendefinisikan dibuat AI
  Ambil contoh pekerjaan rumah: kasus siswa menulis semuanya sendiri dengan pena dan kertas, atau menyuruh AI menulis semuanya, itu jelas; tetapi bagaimana jika ia meneliti lewat ensiklopedia online yang menjawab dengan AI, hanya meminta struktur tulisan, poin utama, dan kesimpulan dari AI, atau menulis sendiri lalu hanya menyerahkan salah ketik, tata bahasa, dan perbaikan gaya kepada AI? Itu ambigu
  Selain itu, ada juga kasus menulis sendiri beberapa tulisan dengan berbagai topik lalu meminta AI memilih tulisan terbaik
- 12 milidetik setelah hukum seperti ini diberlakukan, pabrik pengetikan akan muncul di India, dan pekerja manusia akan menyalin ulang teks dari sumber AI dengan tangan untuk melakukan “pencucian data”
- Jika tulisan yang dibuat dalam bahasa asing diterjemahkan ke bahasa Inggris oleh ChatGPT, apakah itu konten buatan AI?
  Bagaimana jika tulisan di kertas di-OCR dengan LLM?
  Bagaimana jika memberi kerangka yang sangat rinci lalu terus memintanya menulis ulang sambil tanpa ampun menghapus fakta yang tidak pasti?
  Bagaimana jika AI hanya dipakai untuk memperbaiki tata bahasa dan mengubah bahasa Inggris yang kaku menjadi gaya ilmiah yang baik?
  Dalam semua kasus ini, meski hasil akhirnya berbentuk salinan-tempelan dari LLM, menurut saya jawabannya jelas “tidak”
Konten buatan AI pada dasarnya adalah regresi menuju rata-rata, dan merugikan baik pembelajaran maupun utilitas bagi manusia
Tidak ada keuntungan memublikasikan sesuatu yang bisa dibuat AI; cukup tanyakan langsung saja
Konten AI bisa saja dipublikasikan dengan tag, tetapi selain itu dalam jauh lebih banyak kasus ia lebih mirip polusi daripada kepentingan publik
- Dengan logika itu, mengapa menulis apa pun sejak awal?
  Soneta Shakespeare pun hanyalah susunan kata-kata yang sudah ada, dan semua pembuktian matematika, novel, serta jurnalisme juga sekadar satu konfigurasi dalam ruang susunan simbol yang mungkin
  Fakta bahwa sesuatu bisa dibuat tidak menyangkal nilainya ketika dibuat untuk tujuan, konteks, dan pembaca tertentu
- Hingga beberapa tahun lalu, itu keyakinan yang terasa masuk akal secara intuitif dan juga punya dasar eksperimental terbatas
  Namun sejak itu, berbagai terobosan kemampuan muncul dari hasil buatan AI yang dikurasi dengan baik, sehingga menurut saya pandangan itu sudah terbantahkan secara meyakinkan
- Bagaimana dengan konten yang disunting atau dikoreksi oleh AI?
  Sekarang tulisan blog saya didiktekan sebagai memo suara, ditranskrip, lalu dimasukkan ke CGPT atau Claude untuk merapikan tone dan ritme
- Jika bertanya langsung, tidak ada tahap pakar manusia meninjau isi lalu memberi jaminan dengan mencantumkan namanya
  Kurasi dan jaminan itu punya nilai
  Tentu saja orang bisa langsung berpikir “memangnya mereka benar-benar melakukan itu?”, dan saya setuju, tetapi bahkan sebelum AI pun hal itu umumnya tidak terjadi
  Mayoritas konten internet sudah berupa tulisan berkualitas rendah yang dibuat tergesa-gesa oleh penulis bergaji rendah tanpa keahlian, dan AI tidak mengubah hal itu
- Tidak masuk akal
  Pernah memakai tool deep research?
  Jangan terjebak dalam kekeliruan utopia
  Manusia juga memublikasikan tulisan sampah
Saya tidak yakin ini akan menjadi masalah sebesar yang orang bayangkan
Dalam jangka panjang, tujuannya mungkin membuat AI belajar dari pengalaman nyata, misalnya benar-benar memperbaiki mobil alih-alih membaca manual perbaikan mobil
Dengan begitu, data pelatihan tanpa hak cipta bisa diperoleh tanpa batas, dan masalah data pelatihan yang tercemar AI juga bisa dihindari secara alami
- Masalahnya adalah halusinasi dikutip, lalu akhirnya diberi sumber seolah-olah fakta
  Misalnya, coba tanyakan “Apa program produktivitas MS-DOS yang memiliki Connect Four bawaan?”
  Ada emulator MSDOS dan jawabannya juga diketahui, tetapi mungkin karena pertanyaannya agak obscure, setiap AI selalu memberi jawaban berbeda, dan saya belum pernah melihatnya memberi jawaban yang benar
  Kalau ditanya lagi apakah yakin, ia berubah pikiran
  Jika jawaban seperti ini dikutip online, lalu AI kembali belajar dari rujukan melingkar itu sebagai sumber, pada titik itu kebenaran menghilang
  Jika benar-benar mencoba pertanyaan di atas, itu menjadi contoh bagus AI mengulang jawaban yang sepenuhnya dikarang dengan penuh wibawa
- Menghasilkan data sendiri lewat pengalaman nyata bisa berarti sangat mahal, dan perolehan data disertai risiko operasional nyata
  Waymo memperoleh pengalaman dengan menjalankan mobil di jalan sungguhan, tetapi batas data yang diperoleh per satuan waktu bergantung pada skala armadanya, dan terlebih dahulu harus mencapai tingkat kemampuan yang cukup aman untuk beroperasi di dunia nyata
  Jika hendak memperbaiki mobil dan memulai tanpa pengetahuan selain rollout on-policy, selama cukup lama ia akan belajar sambil merusak banyak mobil, dan juga harus membayar manusia yang memberi tahu bahwa robot itu gagal
  Ada alasan mengapa kita ingin mekanik membaca manual dan mendapat pelatihan eksplisit, dan logika biaya seperti ini berlaku sama baik mekaniknya manusia maupun AI
  Bahkan jika memakai reinforcement learning off-policy, jika datanya berupa demonstrasi dari model generasi sebelumnya, itu tetap data pelatihan tercemar AI
- Di YouTube ada sangat banyak data pelatihan berisi pengalaman nyata memperbaiki mobil, tetapi semuanya memiliki hak cipta
  Apakah perusahaan AI harus melisensikan konten ini sebelum pelatihan masih menjadi perdebatan
- Saya rasa sebelum ada robot humanoid yang mampu memiliki kecerdasan umum, tidak akan ada pula sistem AI yang memperbaiki mobil
  Sebelum robot semacam itu hadir, tidak akan ada maid AI untuk hotel bintang lima
  Bukan berarti pernyataan awalnya salah, tetapi jarak antara hari ini dan titik itu begitu besar hingga ungkapan “jangan khawatir sampah AI mencemari basis data frekuensi kata bahasa, suatu hari nanti akan teratasi” terasa agak meleset
- Maksudnya, dalam jangka panjang kita menginginkan AGI?
  Kalau AGI muncul, spam juga akan menjadi lebih baik?
  https://xkcd.com/810/
Saya suka bagaimana istilah yang dipilih begitu halus sehingga membuat kekhawatiran ini tampak tidak relevan
Ini mirip penjelasan bahwa setelah uji coba nuklir atmosfer berakhir, radiasi latar turun mendekati tingkat alami, sehingga baja baru pun memiliki sinyal radioaktif yang cukup rendah dan baja low-background khusus tidak lagi diperlukan untuk sebagian besar penggunaan yang peka radiasi
Namun saya tidak melihat bahwa data yang “tidak tercemar” memang diperlukan, bahwa data semacam itu sulit ditemukan, atau bahwa output LLM pada akhirnya akan menginfeksi semuanya
Data LLM mungkin malah sedikit lebih baik daripada komentar Reddit sebagai latar alami, dan ada juga tempat seperti archive.org atau Gutenberg
- Namun data terbaru yang tidak tercemar memang sulit ditemukan
  https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
- Hmm… radiasi latar turun karena kita berhenti melakukan uji coba nuklir
Saat ini tidak ada alasan untuk percaya bahwa kontaminasi AI adalah masalah nyata dalam menjalankan pelatihan AI
AI yang dilatih dengan data crawl publik sebelum 2022 tidak tampak jelas lebih baik daripada AI yang dilatih dengan data crawl setelah 2022
Bahkan dalam beberapa kasus, entah mengapa data crawl terbaru punya performa per token yang sedikit lebih baik
- Di balik gagasan “baja low-background” ada anggapan bahwa melatih AI dengan data sintetis dapat mengarah pada model collapse, di mana AI menjadi benar-benar kacau dan tidak berguna
  Itu tidak terjadi, atau semua perusahaan AI secara internal memiliki filter yang berfungsi untuk menyaring data AI
  Saya akan bertaruh pada yang pertama
  Meski begitu, saya rasa paparan yang terlalu banyak terhadap data buatan AI mungkin saja menimbulkan sesuatu mirip model collapse pada manusia, tetapi itu lebih dekat ke pengamatan anekdotal dan intuisi
- Penalaran ini cukup buruk karena beberapa alasan
  Pelatihan LLM setelah 2022 sudah jauh lebih baik, dan fakta bahwa dampak buruk sampah AI dalam data pelatihan tidak mengalahkan keuntungan dari peningkatan skala parameter dan teknik pelatihan yang lebih baik bukan berarti dampak buruk itu tidak ada
  “Performanya lebih baik” juga ungkapan yang sangat longgar, dan belum ada jawaban bagus untuk mengukurnya secara bermakna
  Kita bisa tahu Gemini 2.5 lebih baik daripada GPT-4o, tetapi membedakan Gemini 2.5 dan Claude 4 lebih rumit
  Besar efek data sampah pada tahap sekarang kemungkinan setara dengan perbedaan kecil antar model satu generasi
  Jika yang dicari adalah efek yang begitu kecil hingga sulit dibuktikan dengan data, dalam kasus ini masuk akal untuk mulai dari prinsip pertama, dan prinsip pertama jelas mengatakan lebih baik tidak melatih dengan konten buatan AI
- Orang-orang belum benar-benar mulai menghasilkan konten sampah secara besar-besaran, dan saya rasa ke depannya akan jauh meningkat
Saya tidak terlalu alergi terhadap konten AI, tetapi analogi baja low-background ini mengagumkan
Luar biasa
- Saya juga bukan alergi terhadap konten AI
  Alasan saya membuat situs ini adalah untuk melacak hal-hal yang saya tahu dibuat oleh manusia
- Ini tampaknya lebih dekat ke upaya menghindari melatih AI dengan keluarannya sendiri daripada fobia
  Ini juga topik yang baru-baru ini saya bicarakan dengan rekan kerja
  Konten pra-AI pasti akan semakin berharga, karena itu adalah sesuatu yang tidak akan pernah bisa dibuat lagi
  Idealnya, semua data yang tersedia sekitar 2015 seharusnya sudah diberi timestamp kriptografis, tetapi sekarang kita harus bekerja dengan keadaan yang ada
Hari ini rasanya aneh, seperti menjadi nabi
https://news.ycombinator.com/item?id=44217676
- Contoh ini saya dengar di Hacker News setidaknya setahun lalu, mungkin lebih lama lagi
  Ada juga tulisan dari dua tahun lalu: https://news.ycombinator.com/item?id=34085194
- Analogi ini sudah umum sejak ChatGPT dirilis
- Menurut saya pemikiran itu benar-benar keliru
  Proses memberi anotasi pada konten dan data sintetis akan mengubah output AI menjadi gradien yang membuat output di masa depan menjadi lebih baik
  Ini mungkin kurang jelas pada output LLM, tetapi pada model gambar dan video seharusnya sangat jelas
  Dalam proses memilih output visual terbaik dari sistem, kesalahan kecil yang masuk dan kurasi berbasis selera akan mendorong sistem menuju performa yang lebih baik dan generalitas yang lebih tinggi
  Jika genom dilihat sebagai mesin sintesis, dan fisika sebagai gradien probabilistik, ini tidak berbeda dari kehidupan dan pewarisan genetik yang beradaptasi dengan setiap relung ekologis
  Kita hanya menjalankan hal yang sama dengan cepat
- Bagus
  Saya rasa framing seperti konten tanpa “kontaminasi” AI pernah saya dengar sebelumnya, dan itu sudah menjadi ide yang beredar
  Namun Anda boleh dengan tenang mengklaim bahwa setidaknya prediksi bahwa analogi baja latar rendah itu tepat adalah prediksi yang berhasil
Buku kertas bekas, terutama buku tua tapi masih layak pakai yang disebut “reading copies” atau “ex-library”, dijual sangat murah di pasar buku bekas
Saya menyarankan untuk membangun perpustakaan fisik sendiri, termasuk buku referensi dasar, serta mendukung perpustakaan umum lokal dan perpustakaan universitas
Akan bagus juga jika memiliki salinan kertas makalah di bidang keahlian dan minat Anda
Maksudnya, ikutilah cara para leluhur
AI pernah terang-terangan berbohong tentang fakta, dan meski saya tidak selalu berhasil meyakinkan AI dalam setiap kasus, saya bersyukur punya perpustakaan fisik yang memungkinkan saya memastikan sendiri bahwa saya benar
Apakah analogi ini benar-benar cocok?
Membuat baja latar rendah baru sangat sulit karena partikel radioaktif ada di mana-mana, tetapi membuat konten tanpa AI tidak sulit
Tinggal jangan menulisnya dengan AI
- Membuktikan bahwa suatu karya tidak mengandung AI, kalaupun bukan mustahil, sepenuhnya tidak realistis
  Jadi selain pembuatnya sendiri, tidak ada orang yang bisa yakin
- Membuat baja latar rendah baru bukanlah hal yang sulit
  Hanya saja menggunakan kembali baja yang sudah ada lebih murah
- Siapa, untuk alasan apa, dan dengan uang apa yang akan membuat konten tanpa AI semacam itu?
- Ini cuma judul umpan klik
Nama situs ini sendiri diambil dari Y combinator
Selain sedikit gestur filosofis, salah satu kemampuan yang seharusnya kita tuntut dari model penalaran adalah kemampuan menemukan titik tetap dari fungsi yang menerima konten sebagai input, menghasilkan konten sebagai output, lalu mengonsumsi kembali konten itu
Saya optimistis bahwa meski kita melatihnya secara rekursif pada data campuran yang terdiri dari konten manusia asli, konten yang diturunkan dari konten asli, dan konten yang kemudian diturunkan lagi dari konten turunan itu, sistem tetap bisa mengekstrak ciri dan pola menonjol dari sistem dasarnya

Low-background Steel untuk Konten yang Tidak Tercemar AI

Hub untuk mengumpulkan materi pra-AI

Analogi di balik namanya

Target koleksi dan contoh

Arctic Code Vault

Project Gutenberg

Pengajuan materi

Bacaan terkait

1 komentar

Pendapat Hacker News