- AI mengambil input dan melatih diri darinya tanpa memedulikan apakah penulis asli menyetujuinya atau tidak, lalu menjual hasilnya tanpa memberi kompensasi kepada penulis asli
- Pelanggan perusahaan AI (dan alat AI) juga menjual lagi hasil yang diproses lewat prompt kepada pelanggan lain, dan memperoleh keuntungan dari hal-hal yang disalin dari seluruh internet
- Tutorial e-commerce miliknya ditulis berdasarkan riset yang dilakukan sendiri, tetapi beberapa situs web menyuruh ChatGPT menyalin beberapa tutorial yang sedang populer lalu memublikasikannya seolah-olah sebagai tulisan mereka sendiri
- Tulisan hasil salinan mendapat peringkat lebih tinggi daripada versi asli di hasil pencarian Google
- Di tulisan salinan itu masih ada tautan menuju situs web asli dengan teks tautan yang persis sama, dan fakta penyalinan bisa dipastikan karena tautan tersebut tidak dihapus
- Google menampilkan situs web yang menyalin karya asli lebih tinggi daripada sumber aslinya, sehingga menciptakan struktur di mana konten salinan tanpa izin justru mendapat imbalan di pencarian
1 komentar
Opini Hacker News
Ada kekeliruan yang sering dipakai untuk membenarkan hal seperti ini. Polanya adalah, “kalau pada skala kecil itu boleh atau bisa diabaikan, maka pada skala besar juga boleh.”
Logikanya: kalau belajar dari satu halaman web lalu menghasilkan uang itu boleh, lalu kenapa jadi masalah ketika komputer belajar segala hal dari semua orang lalu menghasilkan uang? Memetik satu bunga di Golden Gate Park berbeda dengan membuat mesin yang secara otomatis menebas semua bunga di taman untuk dijual. Perubahan kuantitatif dapat menciptakan perubahan kualitatif pada suatu aktivitas, dan meski dampaknya tidak selalu buruk, hal itu layak diperiksa dan tidak boleh diabaikan
Intinya bukan semata-mata skala, melainkan lebih dekat pada fakta bahwa perilaku yang diinginkan dari manusia tidak diizinkan secara sosial ketika dilakukan oleh mesin
Rasa “pencurian” di sini sepenuhnya merupakan interpretasi di kepala; fakta bahwa seseorang menyalin sesuatu tidak berarti pemilik aslinya kehilangan benda itu
https://en.wikipedia.org/wiki/Fallacy_of_composition
Setelah internet namun sebelum LLM, secara teori kesenjangan informasi jauh berkurang, tetapi kebanyakan orang tetap tidak bisa memahami dan memanfaatkannya karena hambatan persepsi. Setelah LLM, hambatan itu mulai runtuh, jadi kita perlu memikirkan bagaimana menggunakan informasi dan pengetahuan secara berbeda untuk menciptakan uang dan kekuasaan
Masalah yang lebih besar tetap ada: sumber asli tidak mendapat kredit dengan cara yang memberi kompensasi
Pemilik situs membayar biaya hosting konten, membiarkan spider datang meng-crawl lalu mengindeksnya untuk AI, tetapi paling banter hanya mendapat sitasi, dan hampir tidak menerima imbalan apa pun sebagai penyedia konten. Ini makin parah, dan orang mulai berpikir, “kalau semuanya sudah ada di AI, kenapa harus buka situs web?” Pada akhirnya, mungkin crawler harus diblokir dan semuanya diletakkan di balik login
Setidaknya scraping oleh Google/Bing/Yahoo dipakai untuk memberi tautan kembali ke sumber asli
Kami mengonfirmasi data kami muncul di output model, tetapi rasanya tidak ada yang bisa dilakukan
Perusahaan AI seperti ini nyaris menjadi contoh menjijikkan dari slogan “biaya disosialisasikan, keuntungan diprivatisasi”
Bukan lagi gerbang, melainkan ingin menjadi tujuan akhir
Saya tahu ini berdampak pada keterlihatan, tetapi jika itu bukan masalah, saya penasaran bagaimana cara menghindari crawling
Isu ini tidak sesederhana klaim bahwa “fair use” bisa mencakup 99% scraping data
Jika bukan mereproduksi karya asli, melainkan dipakai saat pretraining untuk memperkirakan distribusi probabilitas token, maka situasinya jadi lebih abu-abu. Dengan LLM, Anda mungkin tidak bisa mendapatkan kembali isi buku kata demi kata secara utuh
Misalnya, Bing Chat menyalin artikel 2023 “The Secrets Hamas knew about Israel’s Military” dengan hanya menghilangkan dua kata dari 396 kata pertama, dan materi pembuktian menunjukkan 100 kasus ketika GPT milik OpenAI mempelajari serta menghafal artikel Times lalu menyalinnya kata demi kata
https://www.hollywoodreporter.com/business/business-news/cou...
Butuh waktu bagi saya untuk benar-benar memahaminya, tetapi yang wajib dikutip bukanlah salinan literal kalimat, melainkan sumber informasinya
Model memang bisa dibuat untuk mereproduksi konten, tetapi ini permainan kucing dan tikus. Jika model tidak disejajarkan agar menghindari reproduksi langsung, kejadian ini pasti akan jauh lebih sering. RECAP secara konsisten mengungguli semua metode lain; misalnya pada Claude-3.7, metode ini mengekstrak sekitar 3.000 potongan dari buku pertama “Harry Potter”, sedangkan baseline terbaik hanya mencapai 75 potongan
Hampir tanpa komentar saja, ia akan memplagiat library itu langsung dari memorinya
Jika ada satu hal baik yang keluar dari AI, mungkin itu adalah menghancurkan hukum hak cipta untuk selamanya
Tidak seorang pun seharusnya bisa “memiliki” ide. Saya tetap mendukung royalti untuk penggunaan komersial, tetapi pembajakan nonkomersial dan fanart tanpa izin seperti yang kita kenal seharusnya 100% legal
Tidak seperti sistem sekarang, logika memberi kepemilikan terbatas atas hasil kerja selama jangka waktu tertentu dalam cara yang terbatas terasa cukup masuk akal
Jika Anda membuat seni, Anda seharusnya diakui. Seni adalah cara penting bagi manusia untuk mengekspresikan diri
Anda mungkin tidak bisa “mengunduh” buku yang sudah out-of-print dari anna's archive, tetapi perusahaan akan dengan senang hati menagih biaya langganan untuk melatih model pada semua data itu dan mengeluarkan ringkasannya
Saya tidak paham kenapa ini mengejutkan. Semua orang tahu perusahaan AI mencuri data dalam jumlah besar untuk melatih model, jadi kenapa ada yang mengira mereka akan berhenti? Apakah mereka pernah benar-benar membayar harga yang pantas atas pencurian massal data berhak cipta?
Kita tidak boleh mencuri data itu atau mengambil untung darinya, tetapi entah bagaimana mereka boleh. Mungkin karena mereka dianggap sedang menyejahterakan dunia dan memajukan umat manusia
Orang-orang yang membuat dan menegakkan hukum ingin GDP naik. Bagi mereka, moral dan hak hanyalah topeng tipis yang gampang dibuang saat mulai merepotkan
Komentar seperti itu tidak memberi wawasan, bantuan, atau bahan pikir. Itu hanya membantu memastikan situasi buruk tetap buruk
“Hak kekayaan intelektual,” ya? Itu fatamorgana yang memikat
https://www.gnu.org/philosophy/not-ipr.html
Kalau yang dilatih adalah model open weight dari seluruh repositori internal Oracle tanpa atribusi, barulah adil
Saya tidak terlalu mengerti apa masalahnya dengan bagian, “tulisan mereka punya tautan ke situs saya yang sebenarnya, dan teks tautannya juga persis sama”
Selama teks tautannya tidak terlalu panjang, kenapa orang harus memakai kata lain saat menaut ke tulisan Anda?
.../post/{id}/{extra-text}danextra-textsama sekali tidak dipakai untuk mencocokkan postinganTautan Amazon dulu juga seperti ini; nama produk ditaruh di ujung URL, tetapi meski dihapus atau diubah, tautannya tetap menuju produk yang sama. Mungkin yang mengejutkan adalah LLM ikut mengeluarkan bagian tautan yang sebenarnya tidak relevan itu secara utuh
Katakan resep apple fritter itu menaut ke daftar peringkat apel. Lalu seseorang menyalin resep Anda tanpa atribusi, tetapi tetap menaut ke daftar peringkat apel dengan frasa yang sama. Mereka mencuri tulisan Anda, tetapi tetap mendapat lebih banyak paparan di hasil pencarian Google dan lebih banyak pendapatan iklan. Itulah masalahnya
Sepertinya ada dua hal yang tercampur
Pertama, teknologi LLM/transformer memang luar biasa dan revolusioner. Kedua, pada akhirnya sistem ini bertindak seperti basis data raksasa dan efektif yang berisi sebagian besar pengetahuan manusia. Poin pertama membuat poin kedua jadi kabur. Kalau seseorang memasukkan semua hasil digital yang ada ke basis data SQL lalu memberikannya gratis saat diminta, tidak akan ada ambiguitas soal legalitasnya. Tetapi proses seperti distillation menutupi hubungan itu dan membuatnya tampak berbeda dari sekadar lookup. Dan memang benar itu lebih dari sekadar lookup
Saya pengacara kekayaan intelektual dan benar-benar menangani persoalan ini
Ini bukan nasihat hukum, tetapi jika Anda membuat konten online, pilihan paling cerdas adalah melakukan registrasi hak cipta AS atas apa pun, mulai dari kode repositori publik, blog, podcast, YouTube, hingga publikasi, bahkan blog hobi sekalipun. Anthropic membayar penyelesaian kelompok senilai 1,5 miliar dolar kepada para penulis karena pelanggaran hak cipta atas karya berhak cipta. Jika karya komunitas HN dilindungi, mungkin ada peluang untuk meminta ganti rugi statutory yang sangat besar atas seluruh scraping LLM. Saya bekerja dengan ratusan penulis dan penerbit, dan sedang membangun koalisi untuk melindungi serta melisensikan apa yang mereka ciptakan
Itu bukan hal yang sama
Jika memang itu yang perlu dilakukan agar saya benar-benar punya hak cipta seperti yang saya bayangkan, saya bahkan bisa membuat skrip untuk melakukannya
Apa itu sekarang sudah tidak berlaku lagi? Kenapa tiba-tiba berubah? Kapan berubahnya?
Secara teknis apakah ini pelanggaran hak cipta atau tidak bukan masalah utama saya
Masalah yang lebih besar adalah kemampuan untuk mengekstrak rente dari konten seluruh dunia terkonsentrasi di tangan segelintir perusahaan yang mampu membangun data center skala besar. Ini masalah besar. Jika halaman web saya, situs berita, majalah online, dan seni komersial saya disedot ke dalam model lalu saya dikeluarkan dari struktur insentifnya, kenapa saya harus terus membuatnya? Jika saat ini itu bukan pelanggaran hak cipta secara hukum, maka kita membutuhkan kerangka hukum baru karena ini adalah tragedi mutlak bagi kreativitas manusia dan usaha kecil