1 poin oleh GN⁺ 58 menit lalu | 1 komentar | Bagikan ke WhatsApp
  • AI mengambil input dan melatih diri darinya tanpa memedulikan apakah penulis asli menyetujuinya atau tidak, lalu menjual hasilnya tanpa memberi kompensasi kepada penulis asli
  • Pelanggan perusahaan AI (dan alat AI) juga menjual lagi hasil yang diproses lewat prompt kepada pelanggan lain, dan memperoleh keuntungan dari hal-hal yang disalin dari seluruh internet
  • Tutorial e-commerce miliknya ditulis berdasarkan riset yang dilakukan sendiri, tetapi beberapa situs web menyuruh ChatGPT menyalin beberapa tutorial yang sedang populer lalu memublikasikannya seolah-olah sebagai tulisan mereka sendiri
  • Tulisan hasil salinan mendapat peringkat lebih tinggi daripada versi asli di hasil pencarian Google
  • Di tulisan salinan itu masih ada tautan menuju situs web asli dengan teks tautan yang persis sama, dan fakta penyalinan bisa dipastikan karena tautan tersebut tidak dihapus
  • Google menampilkan situs web yang menyalin karya asli lebih tinggi daripada sumber aslinya, sehingga menciptakan struktur di mana konten salinan tanpa izin justru mendapat imbalan di pencarian

1 komentar

 
Opini Hacker News
  • Ada kekeliruan yang sering dipakai untuk membenarkan hal seperti ini. Polanya adalah, “kalau pada skala kecil itu boleh atau bisa diabaikan, maka pada skala besar juga boleh.”
    Logikanya: kalau belajar dari satu halaman web lalu menghasilkan uang itu boleh, lalu kenapa jadi masalah ketika komputer belajar segala hal dari semua orang lalu menghasilkan uang? Memetik satu bunga di Golden Gate Park berbeda dengan membuat mesin yang secara otomatis menebas semua bunga di taman untuk dijual. Perubahan kuantitatif dapat menciptakan perubahan kualitatif pada suatu aktivitas, dan meski dampaknya tidak selalu buruk, hal itu layak diperiksa dan tidak boleh diabaikan

    • Dalam contoh itu, baik skala kecil maupun skala besar sejak awal sama-sama perilaku yang tidak bisa diterima. Sebaliknya, belajar dari orang lain pada skala kecil bukan hanya diterima secara sosial, tetapi juga menjadi fondasi kemajuan
      Intinya bukan semata-mata skala, melainkan lebih dekat pada fakta bahwa perilaku yang diinginkan dari manusia tidak diizinkan secara sosial ketika dilakukan oleh mesin
    • Di web awal pun ada banyak hal serupa. Siapa pun bisa pergi ke pengadilan kota untuk melihat dokumen yang “publik”, tetapi sifatnya berubah ketika siapa saja di seluruh negeri bisa mencarinya hanya dengan mengetik nama di browser
    • Bunga adalah benda fisik, jadi kalau dipindahkan akan hilang dari tempat asalnya, tetapi walaupun LLM mempelajari sesuatu dari halaman web, halaman web itu tetap ada
      Rasa “pencurian” di sini sepenuhnya merupakan interpretasi di kepala; fakta bahwa seseorang menyalin sesuatu tidak berarti pemilik aslinya kehilangan benda itu
    • Ini termasuk fallacy of composition
      https://en.wikipedia.org/wiki/Fallacy_of_composition
    • Sebelum internet, kesenjangan informasi dan pengetahuan bisa menciptakan uang dan kekuasaan
      Setelah internet namun sebelum LLM, secara teori kesenjangan informasi jauh berkurang, tetapi kebanyakan orang tetap tidak bisa memahami dan memanfaatkannya karena hambatan persepsi. Setelah LLM, hambatan itu mulai runtuh, jadi kita perlu memikirkan bagaimana menggunakan informasi dan pengetahuan secara berbeda untuk menciptakan uang dan kekuasaan
  • Masalah yang lebih besar tetap ada: sumber asli tidak mendapat kredit dengan cara yang memberi kompensasi
    Pemilik situs membayar biaya hosting konten, membiarkan spider datang meng-crawl lalu mengindeksnya untuk AI, tetapi paling banter hanya mendapat sitasi, dan hampir tidak menerima imbalan apa pun sebagai penyedia konten. Ini makin parah, dan orang mulai berpikir, “kalau semuanya sudah ada di AI, kenapa harus buka situs web?” Pada akhirnya, mungkin crawler harus diblokir dan semuanya diletakkan di balik login

    • Lebih buruk lagi, AI scraping yang terus-menerus hanya menambah biaya bagi penyedia konten tanpa imbalan apa pun
      Setidaknya scraping oleh Google/Bing/Yahoo dipakai untuk memberi tautan kembali ke sumber asli
    • Sekitar setahun lalu OpenAI meng-crawl perusahaan tempat saya bekerja pada tingkat setara DDoS. Kami memblokirnya lewat robots.txt dan buru-buru menambahkan reCAPTCHA, tetapi tidak ada efeknya
      Kami mengonfirmasi data kami muncul di output model, tetapi rasanya tidak ada yang bisa dilakukan
    • Ini benar-benar memakan uang dan waktu. Seorang teman admin sistem di universitas bilang ia terus menangani crawler AI yang menghantam server seperti DDoS, dan katanya Anthropic termasuk yang paling parah
      Perusahaan AI seperti ini nyaris menjadi contoh menjijikkan dari slogan “biaya disosialisasikan, keuntungan diprivatisasi”
    • Dalam kasus Google, itu bahkan tampak seperti tujuannya. Mereka bergerak bukan untuk menjadi papan petunjuk yang menunjuk arah yang benar, tetapi menjadi orakel yang punya semua jawaban
      Bukan lagi gerbang, melainkan ingin menjadi tujuan akhir
    • Saya penasaran apakah ada cara meng-host situs web agar tidak bisa ditemukan oleh mesin pencari, dan karenanya juga tidak bisa di-crawl
      Saya tahu ini berdampak pada keterlihatan, tetapi jika itu bukan masalah, saya penasaran bagaimana cara menghindari crawling
  • Isu ini tidak sesederhana klaim bahwa “fair use” bisa mencakup 99% scraping data
    Jika bukan mereproduksi karya asli, melainkan dipakai saat pretraining untuk memperkirakan distribusi probabilitas token, maka situasinya jadi lebih abu-abu. Dengan LLM, Anda mungkin tidak bisa mendapatkan kembali isi buku kata demi kata secara utuh

    • Klaim bahwa “LLM tidak bisa mengeluarkan kembali sebuah buku kata demi kata” hampir bertabrakan langsung dengan inti gugatan New York Times terhadap OpenAI
      Misalnya, Bing Chat menyalin artikel 2023 “The Secrets Hamas knew about Israel’s Military” dengan hanya menghilangkan dua kata dari 396 kata pertama, dan materi pembuktian menunjukkan 100 kasus ketika GPT milik OpenAI mempelajari serta menghafal artikel Times lalu menyalinnya kata demi kata
      https://www.hollywoodreporter.com/business/business-news/cou...
    • Saat sekolah, “saya menuliskannya dengan kata-kata saya sendiri” bukan alasan untuk tidak mencantumkan sumber
      Butuh waktu bagi saya untuk benar-benar memahaminya, tetapi yang wajib dikutip bukanlah salinan literal kalimat, melainkan sumber informasinya
    • Hal yang sama bisa dikatakan tentang encoder MP3, tetapi saya ragu itu akan meyakinkan hakim
    • https://arxiv.org/html/2510.25941v1
      Model memang bisa dibuat untuk mereproduksi konten, tetapi ini permainan kucing dan tikus. Jika model tidak disejajarkan agar menghindari reproduksi langsung, kejadian ini pasti akan jauh lebih sering. RECAP secara konsisten mengungguli semua metode lain; misalnya pada Claude-3.7, metode ini mengekstrak sekitar 3.000 potongan dari buku pertama “Harry Potter”, sedangkan baseline terbaik hanya mencapai 75 potongan
    • Coba beri Claude prompt untuk membuat pengganti drop-in dari sebuah library yang sudah ada, lalu verifikasi fungsinya dengan test suite library itu
      Hampir tanpa komentar saja, ia akan memplagiat library itu langsung dari memorinya
  • Jika ada satu hal baik yang keluar dari AI, mungkin itu adalah menghancurkan hukum hak cipta untuk selamanya
    Tidak seorang pun seharusnya bisa “memiliki” ide. Saya tetap mendukung royalti untuk penggunaan komersial, tetapi pembajakan nonkomersial dan fanart tanpa izin seperti yang kita kenal seharusnya 100% legal

    • Kalau begitu, hapus saja hak cipta untuk semua orang. Sebaliknya, sekarang kita terjebak dalam sistem yang lebih buruk, di mana perusahaan-perusahaan raksasa dengan gembira menjiplak milik semua orang, sementara orang yang membajak film dikirimi tim SWAT sampai mati
    • Hak cipta sejak awal tidak melindungi “ide”, dan sampai sekarang pun tidak. Yang dilindungi adalah ekspresi
    • Misalnya lagu, itu jauh lebih besar daripada sekadar ide. Ada aransemen, produksi, pertunjukan, dan pekerjaan lain di atas idenya
      Tidak seperti sistem sekarang, logika memberi kepemilikan terbatas atas hasil kerja selama jangka waktu tertentu dalam cara yang terbatas terasa cukup masuk akal
    • Masalah terbesar bukan komersialisasi yang rusak, melainkan atribusi yang rusak
      Jika Anda membuat seni, Anda seharusnya diakui. Seni adalah cara penting bagi manusia untuk mengekspresikan diri
    • Hak cipta tidak akan hancur; ia hanya akan, seperti biasa, dibengkokkan secara selektif mengikuti gravitasi kekayaan
      Anda mungkin tidak bisa “mengunduh” buku yang sudah out-of-print dari anna's archive, tetapi perusahaan akan dengan senang hati menagih biaya langganan untuk melatih model pada semua data itu dan mengeluarkan ringkasannya
  • Saya tidak paham kenapa ini mengejutkan. Semua orang tahu perusahaan AI mencuri data dalam jumlah besar untuk melatih model, jadi kenapa ada yang mengira mereka akan berhenti? Apakah mereka pernah benar-benar membayar harga yang pantas atas pencurian massal data berhak cipta?
    Kita tidak boleh mencuri data itu atau mengambil untung darinya, tetapi entah bagaimana mereka boleh. Mungkin karena mereka dianggap sedang menyejahterakan dunia dan memajukan umat manusia

    • Data itu tidak dicuri. Datanya masih ada di sana
    • Alasan untuk berhenti adalah karena sumbernya sekarang sudah terkontaminasi AI. Setidaknya itu satu alasan untuk menghentikan scraping
    • Alasannya sederhana. Jika Microsoft mencuri karya Anda, GDP naik; jika Anda mencuri karya Microsoft, GDP turun
      Orang-orang yang membuat dan menegakkan hukum ingin GDP naik. Bagi mereka, moral dan hak hanyalah topeng tipis yang gampang dibuang saat mulai merepotkan
    • Alasannya adalah kapitalisme kroni. Saya harap saya tahu solusinya
    • Setiap kali ada situasi buruk atau tidak adil yang dibahas, selalu ada nihilis sinis yang berkomentar seperti, “kenapa kaget?” dan sekarang itu benar-benar melelahkan
      Komentar seperti itu tidak memberi wawasan, bantuan, atau bahan pikir. Itu hanya membantu memastikan situasi buruk tetap buruk
  • “Hak kekayaan intelektual,” ya? Itu fatamorgana yang memikat
    https://www.gnu.org/philosophy/not-ipr.html

    • Asal fatamorgana itu berlaku sama bagi Oracle, Microsoft, Meta, Google, dan juga bagi pengembang open source lokal yang kerja rodi tanpa bayaran
      Kalau yang dilatih adalah model open weight dari seluruh repositori internal Oracle tanpa atribusi, barulah adil
  • Saya tidak terlalu mengerti apa masalahnya dengan bagian, “tulisan mereka punya tautan ke situs saya yang sebenarnya, dan teks tautannya juga persis sama”
    Selama teks tautannya tidak terlalu panjang, kenapa orang harus memakai kata lain saat menaut ke tulisan Anda?

    • Benar. Itu berarti mereka mengutip dan menautkan sumbernya
    • Ada kasus ketika tautan berbentuk .../post/{id}/{extra-text} dan extra-text sama sekali tidak dipakai untuk mencocokkan postingan
      Tautan Amazon dulu juga seperti ini; nama produk ditaruh di ujung URL, tetapi meski dihapus atau diubah, tautannya tetap menuju produk yang sama. Mungkin yang mengejutkan adalah LLM ikut mengeluarkan bagian tautan yang sebenarnya tidak relevan itu secara utuh
    • Mungkin judul bagian itu ditautkan ke halaman webnya sendiri atau bentuk yang mirip. Itu bukan tulisan marah yang sangat bagus
    • Sepertinya maksudnya ia memakai URL situsnya sendiri sebagai contoh dalam tutorial, lalu tutorial lain menyalin itu mentah-mentah
    • Bayangkan ada dua halaman web. Satu berisi resep apple fritter, yang lain daftar peringkat rasa apel
      Katakan resep apple fritter itu menaut ke daftar peringkat apel. Lalu seseorang menyalin resep Anda tanpa atribusi, tetapi tetap menaut ke daftar peringkat apel dengan frasa yang sama. Mereka mencuri tulisan Anda, tetapi tetap mendapat lebih banyak paparan di hasil pencarian Google dan lebih banyak pendapatan iklan. Itulah masalahnya
  • Sepertinya ada dua hal yang tercampur
    Pertama, teknologi LLM/transformer memang luar biasa dan revolusioner. Kedua, pada akhirnya sistem ini bertindak seperti basis data raksasa dan efektif yang berisi sebagian besar pengetahuan manusia. Poin pertama membuat poin kedua jadi kabur. Kalau seseorang memasukkan semua hasil digital yang ada ke basis data SQL lalu memberikannya gratis saat diminta, tidak akan ada ambiguitas soal legalitasnya. Tetapi proses seperti distillation menutupi hubungan itu dan membuatnya tampak berbeda dari sekadar lookup. Dan memang benar itu lebih dari sekadar lookup

  • Saya pengacara kekayaan intelektual dan benar-benar menangani persoalan ini
    Ini bukan nasihat hukum, tetapi jika Anda membuat konten online, pilihan paling cerdas adalah melakukan registrasi hak cipta AS atas apa pun, mulai dari kode repositori publik, blog, podcast, YouTube, hingga publikasi, bahkan blog hobi sekalipun. Anthropic membayar penyelesaian kelompok senilai 1,5 miliar dolar kepada para penulis karena pelanggaran hak cipta atas karya berhak cipta. Jika karya komunitas HN dilindungi, mungkin ada peluang untuk meminta ganti rugi statutory yang sangat besar atas seluruh scraping LLM. Saya bekerja dengan ratusan penulis dan penerbit, dan sedang membangun koalisi untuk melindungi serta melisensikan apa yang mereka ciptakan

    • Anthropic kalah bukan karena mereka men-scrape karya berhak cipta, yaitu membacanya. Mereka kalah karena mendistribusikan langsung karya berhak cipta lewat torrent
      Itu bukan hal yang sama
    • Saya selalu dengar bahwa hak cipta muncul otomatis. Apakah registrasi hak cipta butuh biaya? Apakah harus dilakukan untuk setiap tulisan blog? Untuk setiap gist?
      Jika memang itu yang perlu dilakukan agar saya benar-benar punya hak cipta seperti yang saya bayangkan, saya bahkan bisa membuat skrip untuk melakukannya
    • Bukankah hak cipta muncul hanya dengan mempublikasikan karya asli secara online?
    • Saya tidak paham apa maksudnya “mendaftarkan hak cipta”. Semua penjelasan yang pernah saya dengar mengatakan bahwa Anda otomatis memiliki hak cipta atas karya cipta Anda, dan secara default itu berarti “all rights reserved” kecuali Anda melepaskannya lewat lisensi
      Apa itu sekarang sudah tidak berlaku lagi? Kenapa tiba-tiba berubah? Kapan berubahnya?
    • Tidak ada yang akan melakukan ini, atau setidaknya tidak cukup banyak orang yang akan melakukannya, jadi apa rencana B-nya?
  • Secara teknis apakah ini pelanggaran hak cipta atau tidak bukan masalah utama saya
    Masalah yang lebih besar adalah kemampuan untuk mengekstrak rente dari konten seluruh dunia terkonsentrasi di tangan segelintir perusahaan yang mampu membangun data center skala besar. Ini masalah besar. Jika halaman web saya, situs berita, majalah online, dan seni komersial saya disedot ke dalam model lalu saya dikeluarkan dari struktur insentifnya, kenapa saya harus terus membuatnya? Jika saat ini itu bukan pelanggaran hak cipta secara hukum, maka kita membutuhkan kerangka hukum baru karena ini adalah tragedi mutlak bagi kreativitas manusia dan usaha kecil

    • Persis proses yang sama terjadi pada era Google. Setelah menjadi satu-satunya jalur yang dipakai orang untuk menemukan situs web, orang-orang berargumen bahwa Google hanya memungut rente ekonomi yang tidak adil darinya