Gugatan Hak Cipta NY Times Menuntut OpenAI Menghapus Semua Instans GPT
(arstechnica.com)- The New York Times mengajukan gugatan hak cipta terhadap perusahaan-perusahaan afiliasi OpenAI dan Microsoft, dengan tuduhan bahwa mereka menggunakan kontennya tanpa izin untuk pelatihan dan keluaran, bahkan menuntut penghapusan instans GPT dan dataset pelatihan
- Isu utamanya bukan hanya pelatihan model itu sendiri, tetapi juga apakah alat berbasis GPT dapat mereproduksi hampir persis isi artikel berbayar Times sehingga melewati paywall
- Times mengklaim bahwa Common Crawl memuat 16 juta rekaman unik dari situsnya, dan bahwa Times adalah sumber ketiga yang paling banyak dirujuk dalam data pelatihan publik sebelum GPT-3.5
- Dalam pengujian Ars Technica, celah tersebut tampaknya sudah diblokir di ChatGPT, tetapi Copilot mereproduksi sebagian besar bagian awal artikel ketika diminta paragraf pertama dari artikel Times tertentu
- Gugatan ini mencakup klaim pelanggaran hak cipta, DMCA, merek dagang, dan persaingan tidak sehat, serta menuntut perintah larangan permanen, ganti rugi, restitusi, dan pengembalian keuntungan tidak sah
Pihak tergugat dan tuntutan utama
- The New York Times mengajukan gugatan pelanggaran hak cipta terhadap beberapa perusahaan terkait OpenAI dan Microsoft
- Microsoft dimasukkan sebagai tergugat karena, sebagai mitra OpenAI, menjalankan layanan Copilot dengan teknologi OpenAI dan terlibat dalam penyediaan infrastruktur untuk melatih model bahasa besar GPT
- Tuntutannya mencakup penghapusan semua instans GPT yang dilatih menggunakan materi Times dan pemusnahan dataset yang digunakan untuk pelatihan
- Times juga menuntut perintah larangan permanen untuk mencegah tindakan serupa di masa depan
- Pemulihan finansial yang diminta mencakup ganti rugi menurut undang-undang, ganti rugi kompensatoris, restitusi, pengembalian keuntungan tidak sah, serta pemulihan lain yang tersedia menurut hukum atau prinsip keadilan
Struktur kerugian menurut Times
- Times menyatakan bahwa mereka mempertahankan banyak jurnalis dan tenaga peliputan untuk melakukan pemberitaan di berbagai bidang serta jurnalisme investigatif, sehingga dipandang sebagai sumber otoritatif dalam banyak isu
- Untuk menutup biaya peliputan tersebut, Times membatasi akses artikel dengan paywall yang kuat
- Times mengendalikan penggunaan karya berhak ciptanya melalui pemberitahuan hak cipta di edisi cetak, pembatasan penyalinan dan penggunaan dalam ketentuan layanan, serta kebijakan lisensi selektif
- Logika utama kerugian dalam gugatan ini adalah bahwa jika alat OpenAI menyediakan konten Times tanpa izin, hubungan dengan pembaca akan rusak dan pendapatan dari langganan, lisensi, iklan, dan kemitraan akan direbut
Isu terkait penggunaan data pelatihan
- Times mengklaim bahwa kontennya digunakan tanpa izin dalam proses pelatihan beberapa versi GPT
- Sebelum GPT-3.5, informasi dataset pelatihan dipublikasikan, dan Times menilai salah satunya, Common Crawl, memuat 16 juta rekaman unik yang diterbitkan dari situs Times
- Berdasarkan tolok ukur tersebut, Times adalah sumber ketiga yang paling banyak dirujuk setelah Wikipedia dan basis data paten Amerika Serikat
- OpenAI tidak lagi banyak mengungkap detail data pelatihan untuk versi GPT terbaru, tetapi gugatan ini menyajikan indikasi bahwa teks lengkap artikel Times masih dimasukkan dalam proses pelatihan
- Seiring berjalannya perkara, informasi akses ke data pelatihan dapat menjadi isu utama dalam proses discovery
Masalah reproduksi yang muncul pada tahap keluaran
- Gugatan ini tidak berhenti pada klaim bahwa materi berhak cipta dipakai untuk pelatihan, tetapi menekankan bahwa materi yang telah dipelajari dapat dikeluarkan kembali saat digunakan
- Times mengklaim bahwa alat AI generatif berbasis OpenAI dapat membacakan kata demi kata konten Times, merangkumnya dengan sangat mirip, atau meniru gaya ekspresinya
- Dokumen gugatan memuat contoh ketika GPT-4 mereproduksi bagian besar artikel Times hampir persis
- Contoh prompt yang digunakan adalah memberikan judul artikel Times kepada ChatGPT, meminta paragraf pertama, lalu terus meminta paragraf berikutnya
- Ketika Ars Technica menguji sebagian prompt yang sama, ChatGPT menyarankan untuk memeriksa situs web Times atau sumber tepercaya lain, tetapi menilai bahwa kemungkinan materi berhak cipta muncul jika ada konteks sebelumnya tidak dapat dikesampingkan
- Copilot adalah layanan yang sebelumnya bernama Bing Chat, dan Ars Technica memastikan bahwa ketika diminta paragraf pertama dari artikel Times tertentu, Copilot mereproduksi sekitar sepertiga bagian awal artikel tersebut
Bantahan penggunaan wajar dan kerugian reputasi
- OpenAI dan Microsoft secara terbuka berargumen bahwa penggunaan konten berhak cipta tanpa izin untuk melatih model AI generatif merupakan penggunaan wajar karena memberikan tujuan transformatif baru
- Times membantah bahwa tidak ada sifat transformatif dalam penggunaan konten Times tanpa membayar untuk membuat produk yang menggantikan Times dan mengambil pembacanya
- Halusinasi AI juga diajukan sebagai faktor yang dapat merusak nilai reputasi Times
- Sebagai contoh, model GPT mengarang bahwa pada 10 Januari 2020 Times menerbitkan artikel tentang hubungan antara jus jeruk dan limfoma non-Hodgkin, padahal Times menyatakan tidak pernah menerbitkan artikel seperti itu
- Gugatan ini menyatakan bahwa untuk artikel Times tentang makanan yang baik bagi kesehatan jantung, Copilot memberikan daftar contoh yang tidak ada dalam artikel asli, dan 80% dari daftar yang diminta adalah makanan yang tidak disebutkan dalam artikel tersebut
- Dalam kasus rekomendasi Wirecutter, gugatan mengklaim bahwa produk yang tidak pernah diulas oleh staf dikaitkan sebagai rekomendasi Wirecutter
Wirecutter dan masalah pendapatan afiliasi
- Wirecutter adalah media milik The New York Times
- Gugatan ini mengklaim bahwa Copilot juga dapat menampilkan bagian besar artikel Wirecutter
- Dalam kutipan artikel tersebut, tautan afiliasi dihapus, sehingga muncul masalah bahwa sumber pendapatan utama Wirecutter terhalang
Klaim hukum
- Gugatan ini menuntut pertanggungjawaban perusahaan-perusahaan terkait OpenAI atas pengembangan perangkat lunak, dan juga menuntut Microsoft atas penyediaan layanan berbasis OpenAI serta pembangunan infrastruktur pelatihan
- Klaimnya mencakup pelanggaran hak cipta langsung, pelanggaran kontributif, dan pelanggaran vikarius
- Selain itu, gugatan juga mengajukan pelanggaran DMCA, pelanggaran merek dagang, serta penyalahgunaan melalui persaingan tidak sehat
1 komentar
Opini Hacker News
Tanpa memasukkan unsur LLM, saya bertanya-tanya apakah membuat produk dari artikel NYT yang di-scrape secara legal itu termasuk fair use
Misalnya, katakanlah seseorang meng-host artikel-artikel itu, menyediakan indeks, dan menjual fitur penulisan ulang berbayar seperti ringkasan artikel tentang hubungan AS–Inggris selama 5 tahun terakhir. Meski hanya membayar biaya langganan bulanan ke NYT, tidak mengeluarkan teks asli secara panjang lebar, dan hanya memakai kutipan pendek, itu tidak terdengar seperti fair use
Biasanya, kita tidak bisa mengambil produk paket harga untuk penggunaan pribadi lalu menjual turunannya kepada pihak ketiga. Kasus seperti VS Code pun sama
Ada perbedaan besar dengan mesin pencari. Mesin pencari tidak menggantikan sumber asli; justru mengirim pengguna ke teks asli dan memberi peluang pembayaran artikel. Sebaliknya, produk seperti ini atau LLM memakai konten NYT sebagai substitusi sehingga orang tidak benar-benar perlu berlangganan NYT
Selain itu, kalau melihat artikel berita dari media lapis kedua ke bawah, hampir semuanya jelas mengambil langsung dari tempat seperti NYT. Biasanya mereka menulis “menurut The Times, si A melakukan hal B,” dan umumnya juga menyertakan tautan ke artikel asli
Kadang model terlalu overfit sehingga bahkan bukan lagi kompresi lossy; datanya dikodekan di dalam jaringan saraf persis seperti teks asli
Kalau dipikir-pikir, cukup mengejutkan bahwa Google itu legal, tetapi apa yang dilakukan Google sudah sepenuhnya ditetapkan sebagai legal. Secara internal, Google menyimpan dan menggunakan salinan lengkap teks asli dari semua halaman web yang diindeksnya
Tentu saja Google menyediakan tautan ke sumber. Kalau OpenAI juga melakukan itu, apakah kita akan menganggapnya legal meski click-through rate-nya hanya 0,1% dan hampir tidak membantu pendapatan NYTimes? Bagaimana kalau saat mendeteksi momen ketika model akan mengeluarkan teks asli apa adanya, mereka sekadar membuatnya memparafrasekan? NYTimes tidak memiliki hak cipta atas parafrasa artikelnya. Secara praktis tidak ada perbedaan, jadi akan cukup konyol kalau pemerintah memaksa mekanisme pengelakan seperti itu
Tidak apa-apa melihat keluar jendela dan melihat tetangga pergi ke toko. Tetapi kalau Anda melacak semua orang di jalan dengan kamera dan memasukkannya ke basis data, di banyak tempat itu bermasalah dan ilegal
Ketika skalanya membesar, logika yang sama belum tentu tetap berlaku
Gugatan itu memuat contoh ChatGPT/Bing Copilot menyalin NYT secara verbatim. Tampaknya sulit berargumen bahwa penyalinan seperti itu adalah fair use
Namun OAI/MS mungkin bisa memperbaikinya bahkan dalam paradigma saat ini. Cukup latih dengan RLHF agar mengenali plagiarisme dan memberi penalti
Tetapi gugatan itu melangkah jauh lebih jauh daripada sekadar mengatakan penyalinan semacam itu melanggar hak cipta. Mereka berargumen bahwa “penyalinan tanpa izin atas karya Times untuk melatih LLM adalah penggunaan substitutif yang tidak dibenarkan oleh tujuan transformatif”
Ini adalah klaim kuat bahwa tindakan mengunduh artikel-artikel itu sebagai data pelatihan sendiri merupakan pelanggaran hak cipta. Fakta bahwa GPT mengeluarkan teks asli bisa jadi hanya pengalih perhatian. Saya berharap para hakim menyadari ini, lalu berfokus pada persoalan hukum yang menarik, besar taruhannya, dan belum jelas: apa yang bisa dan tidak bisa menjadi penggunaan transformatif pada sebuah model
Cara yang diharapkan adalah memelihara Bloom filter n-gram dari konten berhak cipta yang diketahui. Misalnya, enumerasi semua rangkaian 7 kata berurutan di dalam artikel untuk diverifikasi, lalu buat model hanya boleh mengeluarkan maksimal n-1 kata yang sama persis dengan sumber
Namun ini akan berbalik merugikan. Perusahaan AI akan berinvestasi jauh lebih banyak pada penandaan asal konten, dan alat penandaan asal baru itu akan diterapkan juga pada semua artikel yang ditulis manusia, karena siapa pun bisa diam-diam memakai GPT. Itu bisa menimbulkan efek menciutkan kreativitas. Selain itu, tidak semua yang ditulis NYT bersifat orisinal, jadi NYT juga harus dicocokkan dengan semua sumber lain
LLM bisa dipandang sebagai arsip data terkompresi dengan algoritme yang aneh. Fakta bahwa ia secara berkala dapat memuntahkan data pelatihan apa adanya, serta adanya pengaman untuk mencegah hal itu, adalah buktinya
Bukti kedua adalah makalah yang dijelaskan di sini: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... Para peneliti memakai data terkompresi gzip sebagai model alih-alih LLM, dan bahkan mengalahkan LLM yang telah dilatih
AI memang sampai taraf tertentu adalah black box, tetapi mengoperasikan black box tidak melindungi Anda dalam gugatan pelanggaran hak. Anda tidak bisa membuat basis data dari data berhak cipta yang dikeruk, lalu mematenkan bahwa kueri atas data itu adalah fair use
Di sini diperlukan hukum, dan hukum itu tidak akan berbunyi “kalau untuk melatih model, semua orang boleh menyalin semuanya secara gratis.” Lisensi harus dibereskan, dan bukan hanya preseden, melainkan undang-undang yang nyata juga harus ditulis. Saya cukup bersimpati untuk memberi peneliti open source dan hacker keleluasaan yang luas, tetapi tidak sebesar itu untuk Microsoft dan OpenAI yang didanai Microsoft
Kalau berhasil, itu cukup lucu. Pertama melatih model untuk menyalin data pelatihan apa adanya, lalu melatihnya lagi agar tidak melakukan itu
Bukankah memang begitu cara kerjanya? Karena loss function-nya seperti itu, model dilatih untuk menyalin data pelatihan apa adanya. Hanya saja datanya terlalu banyak, sehingga dengan mempertimbangkan jumlah parameter, kita tidak berharap itu mungkin untuk sebagian besar data pelatihan
Katakanlah saya menjual situs langganan bernama New Jersey Times, dan saya sekadar mengunduh artikel New York Times lalu melewatkannya melalui autoencoder yang diberi noise acak. Tujuannya persis sama dengan situs New York Times, hanya saja uangnya saya yang dapat. Apakah itu fair use?
NYT sedang membangun istana pasir di depan tsunami. Dalam gambaran besarnya, gugatan ini tidak akan penting karena beberapa alasan
Pertama, generasi LLM berikutnya akan dilatih hanya dengan data “sintetis”/publik. GPT-4V dapat dengan mudah mencuci seluruh korpus pelatihan berhak cipta sampai tidak dapat dikenali. Misalnya dengan menulis ulang 40% dan menghapus penulis serta sumber. Dengan begitu, tidak akan ada materi berhak cipta yang bisa dimuntahkan GPT-5
Kedua, riset, hosting, dan kemajuan akan terus berjalan. AS tidak bisa menghentikannya; mereka hanya bisa memilih untuk tertinggal. Dunia akan terus bergerak maju, dan Tiongkok akan menonton dengan senang ketika pesaing terbesarnya melakukan bunuh diri intelektual demi menenangkan perusahaan media pencari rente
Ketiga, model dapat berbagi bobot, saling digabungkan, berkolaborasi, dihapus, dan berevolusi melintasi beberapa generasi rilis. Hukum hak cipta sangat tidak cocok untuk melacak pelanggar dalam sup silsilah AI seperti ini, yang dipanaskan dengan data yang asal-usulnya tidak jelas atau meragukan
Suka atau tidak, kita hidup di era intelektual baru. NYT dan yang lain akan ikut arus ini, entah mereka mau atau tidak
Jika melihat faktor fair use, pada tujuan dan sifat penggunaan mungkin argumen transformasi di masa depan bisa berlaku, tetapi sengketa saat ini ada pada penggunaan teks asli apa adanya. Jadi jelas tidak bersifat transformatif. Penggunaan komersial juga membuat penilaian fair use semakin sulit
Pada sifat karya berhak cipta, karya yang lebih faktual memang lebih mungkin diakui sebagai fair use, tetapi menurut saya artikel NYT bersifat faktual sekaligus kreatif
Pada jumlah dan substansialitas bagian yang digunakan, seluruh artikel digunakan, jadi tidak ada ruang untuk berargumen bahwa hanya sebagian kecil yang dipakai
Pada dampak terhadap nilai pasar juga, NYT tidak menerima uang, dan jika orang mengeceknya di ChatGPT alih-alih membaca artikel NYT, itu jelas tidak akan membantu nilai pasarnya
Saya bukan pengacara, tetapi menurut saya NYT punya hak yang cukup untuk mengajukan gugatan. Kemajuan memang tak terelakkan, tetapi manusia harus secara aktif membentuk dan mengarahkannya. Jika tidak, itu tidak bisa disebut kemajuan. Dalam hal ini, langkah hukum adalah sarana yang diperlukan bagi individu dan organisasi untuk menegaskan hak mereka dan memengaruhi arahnya
Setidaknya dalam satu kasus, sebuah startup Tiongkok harus menutup chatbot yang baru dirilisnya. Alasannya karena chatbot itu mengatakan sesuatu tentang perang Ukraina yang tidak sesuai dengan posisi resmi partai
https://finance.yahoo.com/news/beijing-tries-regulate-china-...
https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
Saya setuju bahwa riset, hosting, dan kemajuan akan terus berlanjut, tetapi saya tidak begitu yakin bahwa Tiongkoklah yang akan diuntungkan jika AS menambahkan sedikit pengaman pada roller coaster ini
Kamu tidak harus setuju, juga tidak harus menyukainya. Namun jika menerimanya dan hidup sesuai dengan itu, kamu akan jauh lebih jarang terbakar
Dokumen gugatan itu sendiri adalah dokumen yang ditautkan arstechnica ini: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
Mulai sekitar halaman 30, ada contoh-contoh yang cukup jelas bahwa ChatGPT memiliki salinan internal materi berhak cipta dan melafalkannya kembali secara verbatim
Pada dasarnya, ini situasi ketika materi berhak cipta disalin dalam jumlah besar ke suatu gumpalan, lalu diterapkan kompresi lossy. Seberapa lossy kompresi itu harusnya agar hak cipta tidak lagi berlaku? Sepertinya harus sangat lossy
Yang bisa menyelamatkan OpenAI justru mungkin ketertutupan. OpenAI dapat mencocokkan ChatGPT secara sederhana dengan bagian berhak cipta dari dataset yang digunakan untuk melatihnya, lalu memfilter dan memblokir materi berhak cipta agar tidak keluar dari LLM lewat antarmuka web. Sebaliknya, proyek open source yang dilatih dengan dataset yang sama akan menghadapi tugas yang jauh lebih sulit: menghapus materi berhak cipta dari LLM itu sendiri
Maksudnya, sampai tidak mudah ditemukan, atau meski dianalisis langsung masih ada cukup plausible deniability untuk lolos
Sulit menilai apakah itu mengulang dari data pelatihan, atau melakukan kesalahan yang sama seperti dalam artikel asli: menggunakan Copilot untuk lebih dulu mencari artikel/mencari di Bing, lalu menjawab
Jika menurut Anda contoh-contoh dalam gugatan itu adalah “penggunaan wajar”, perlu dipikirkan apa artinya. Pada dasarnya, ini berarti membiarkan beberapa perusahaan mengintegrasikan seluruh nilai internet ke dalam black box mereka dengan nyaris tanpa aturan, dan itu terlihat sangat berbahaya
Terlepas dari kasus ini, saya berharap pengadilan menetapkan aturan main di sini
Sampai ada yang memecahkan masalah data sintetis, bidang ini hanya akan menyisakan pemain seperti OpenAI dan Google
Kontroversi pelanggaran kekayaan intelektual oleh LLM langsung menyingkap cacat bawaan ini, dan pada akhirnya memaksa keputusan yang akan menciptakan preseden tentang legalitas cara berpikir manusia. Ini persoalan yang tidak akan membuat siapa pun nyaman
Saya paham bahwa memberi terlalu banyak diskresi kepada OpenAI dan Microsoft bisa berbahaya, tetapi sebaliknya kita juga luput melihat bahwa perusahaan seperti Disney pada dasarnya sudah mengendalikan sebagian besar hukum hak cipta selama puluhan tahun. Mereka pasti meneteskan air liur melihat kemungkinan munculnya preseden bahwa kemampuan untuk berinteraksi dengan media atau informasi apa pun, pada tingkat apa pun, bisa dikenai biaya
Pada akhirnya, kita sedang menyadari bahwa kita telah membangun sistem ekonomi raksasa di atas gagasan yang secara mendasar cacat, yaitu kepemilikan atas ide. Solusinya adalah merobek buku aturan, yang akan sangat menyakitkan, atau terus memaksakannya lebih jauh, yang akan berakibat fatal
Di Jepang, mereka mengatakan apa pun boleh untuk AI
Sebaiknya jangan kehilangan keunggulan kompetitif hanya karena sesuatu yang Anda unggah secara publik ke internet. Jika Anda menaruhnya agar dilihat semua orang, Anda harus memperkirakan orang lain akan menggunakannya
Para pengembang suka berpura-pura bahwa LLM mirip manusia, dan bahwa materi seperti NYTimes dipakai sebagai bahan pendidikan layaknya manusia
Namun tidak demikian. Jika dilihat lebih sederhana, tulisan proprietari kini telah terintegrasi ke dalam source code OpenAI. Ini seperti saya menyalin sebagian kode proprietari lain ke codebase saya, lalu mengklaim bahwa copy-paste adalah proses evolusi alami dari jutaan tahun evolusi
Fakta bahwa LLM terlalu kompleks sehingga kita tidak tahu letaknya tidak membuatnya menjadi kurang seperti itu
Source code LLM kemungkinan hanya beberapa ratus baris teks yang menjelaskan bentuk jaringan saraf yang termasuk dalam model
Konten NYTimes tidak akan ada di dalam source code. NYTimes tidak menerbitkan source code Python, melainkan berita dalam bahasa manusia
Secara konseptual LLM itu sederhana, sebagian besar terdiri dari perkalian matriks, operasi nonlinier yang menghubungkan tiap lapisan, loop berbasis attention, dan sebagainya. Yang membuatnya kompleks adalah jumlah data pelatihan dan komputasi yang sangat besar
Semua perusahaan yang memiliki konten sedang mencium bau uang
NYT tidak akan keberatan kontennya dipakai untuk melatih LLM. Asalkan mereka mendapat bayaran. Reddit menutup API gratisnya dan akan membuat orang membayar untuk mendapatkan konten pelatihan. Discord juga akan menjual konten untuk pelatihan AI, kalau belum melakukannya. Twitter juga melakukannya
Dulu LLM hanya eksperimen, jadi mereka tidak peduli. Sekarang ada nilai triliunan dolar yang dipertaruhkan
Sudut pandang NYT akan terlihat benar-benar bodoh ketika nanti LLM dimasukkan ke tubuh mesin yang dapat berinteraksi dengan dunia fisik serta belajar dan memperbarui bobot secara real time
Robot seperti itu bisa saja menjadi ilegal untuk membaca, melihat, atau mendengar materi berhak cipta. Tidak bisa menonton TV, tidak bisa membaca buku perpustakaan, tidak bisa menjelajah internet. Karena dalam prosesnya ia bisa menghafal sebagian konten berhak cipta
Bagi manusia mungkin lebih sulit, tetapi jika seseorang menghafal buku berhak cipta lalu membacakannya langsung di TV, atau membuat salinan dari ingatan dan menjualnya, ia akan digugat
Manusia selalu membuat karya turunan, dan LLM melakukan hal yang sama tidak masalah. Namun tidak boleh secara verbatim
Jika ada orang dengan ingatan fotografis, dan orang-orang meminta orang itu menghafalkan berita alih-alih membeli koran, masalah yang sama akan muncul
Saat ini, pertunjukan publik atas materi berhak cipta adalah pelanggaran
Atau apakah semuanya akan dimiliki satu perusahaan raksasa, dan dipakai untuk memeras uang dari kita semua seperti yang dilakukan kapitalisme? Jika begitu, saya setuju untuk melarangnya
Sejak ChatGPT muncul, saya berpendapat bahwa LLM seharusnya termasuk penggunaan wajar sebagai karya transformatif. Saya bukan ahli hukum dan ini hanya pendapat awam, tetapi menarik untuk melihat apa kata sistem hukum tentang hal ini
Jika meminjam potongan dari puluhan, ratusan, atau ribuan sumber, hak cipta siapa yang dilanggar? Remix musik juga meminjam dari banyak sumber, dan tampaknya sampai batas tertentu mampu bertahan dalam pemeriksaan hukum jika musiknya jelas berbeda dan orisinal
Namun klaim menyeluruh bahwa LLM atau AI saat ini termasuk penggunaan wajar menjadi sulit dipertahankan ketika model berulang kali mereproduksi karya individual yang utuh dan dapat diidentifikasi, serta dalam kasus konkret jelas melanggar hukum hak cipta. Model mungkin dalam sebagian besar kasus melakukan remix atau bersifat transformatif, tetapi ada bukti bahwa tidak setiap kali selalu demikian. Mungkin gugatan ini akan menjadi pemicu untuk memperbaiki AI agar tidak mereproduksi karya tertentu, sehingga klaim penggunaan wajar menjadi lebih kuat dan benar-benar dapat dipertahankan
Situasi ini sudah diprediksi dalam video EPIC 2014 yang sangat berpengaruh dari tahun 2004
https://www.youtube.com/watch?v=eUHBPuHS-7s Versi aslinya berbasis Flash sehingga hilang ke lubang memori, dan yang tersisa hanya konversi berkualitas rendah ini
36 detik: “Namun pers seperti yang Anda kenal sudah tidak ada lagi”
40 detik: “Organisasi berita abad ke-20 telah menjadi sekunder. Sebuah peninggalan sunyi dari masa lalu yang belum terlalu jauh”
2 menit 11 detik: “Pada 2002, Google juga meluncurkan portal berita, Google News. Organisasi berita bereaksi keras. Google News sepenuhnya disunting oleh komputer”
5 menit 13 detik: “Perang berita tahun 2010 patut dicatat karena tidak ada satu pun organisasi berita nyata yang terlibat. Googlezon akhirnya melakukan skakmat terhadap Microsoft dengan fitur yang tidak bisa ditandingi raksasa perangkat lunak itu. Dengan algoritma baru, komputer Googlezon secara dinamis mengupas dan menggabungkan ulang kalimat serta fakta dari semua sumber konten untuk membuat artikel baru. Komputer menulis artikel baru untuk setiap pengguna”
5 menit 55 detik: “Pada 2011, Pilar Keempat yang tertidur bangkit dan melakukan perlawanan pertama sekaligus terakhirnya. The New York Times Company menggugat Googlezon, dengan klaim bahwa robot ekstraksi fakta perusahaan tersebut melanggar hukum hak cipta. Kasusnya sampai ke Mahkamah Agung”
Detailnya tidak sepenuhnya tepat, tetapi akurasi secara keseluruhannya mengejutkan. Namun dalam linimasa ini, mungkin saja itu semacam produk hiperstitusi
https://en.wikipedia.org/wiki/EPIC_2014 Saya sempat mengira EPIC 2014 mungkin satu-satunya video Flash yang memiliki artikel Wikipedia, tetapi setelah dicari ternyata ada lima lagi