1 poin oleh GN⁺ 2023-12-29 | 1 komentar | Bagikan ke WhatsApp
  • The New York Times mengajukan gugatan hak cipta terhadap perusahaan-perusahaan afiliasi OpenAI dan Microsoft, dengan tuduhan bahwa mereka menggunakan kontennya tanpa izin untuk pelatihan dan keluaran, bahkan menuntut penghapusan instans GPT dan dataset pelatihan
  • Isu utamanya bukan hanya pelatihan model itu sendiri, tetapi juga apakah alat berbasis GPT dapat mereproduksi hampir persis isi artikel berbayar Times sehingga melewati paywall
  • Times mengklaim bahwa Common Crawl memuat 16 juta rekaman unik dari situsnya, dan bahwa Times adalah sumber ketiga yang paling banyak dirujuk dalam data pelatihan publik sebelum GPT-3.5
  • Dalam pengujian Ars Technica, celah tersebut tampaknya sudah diblokir di ChatGPT, tetapi Copilot mereproduksi sebagian besar bagian awal artikel ketika diminta paragraf pertama dari artikel Times tertentu
  • Gugatan ini mencakup klaim pelanggaran hak cipta, DMCA, merek dagang, dan persaingan tidak sehat, serta menuntut perintah larangan permanen, ganti rugi, restitusi, dan pengembalian keuntungan tidak sah

Pihak tergugat dan tuntutan utama

  • The New York Times mengajukan gugatan pelanggaran hak cipta terhadap beberapa perusahaan terkait OpenAI dan Microsoft
  • Microsoft dimasukkan sebagai tergugat karena, sebagai mitra OpenAI, menjalankan layanan Copilot dengan teknologi OpenAI dan terlibat dalam penyediaan infrastruktur untuk melatih model bahasa besar GPT
  • Tuntutannya mencakup penghapusan semua instans GPT yang dilatih menggunakan materi Times dan pemusnahan dataset yang digunakan untuk pelatihan
  • Times juga menuntut perintah larangan permanen untuk mencegah tindakan serupa di masa depan
  • Pemulihan finansial yang diminta mencakup ganti rugi menurut undang-undang, ganti rugi kompensatoris, restitusi, pengembalian keuntungan tidak sah, serta pemulihan lain yang tersedia menurut hukum atau prinsip keadilan

Struktur kerugian menurut Times

  • Times menyatakan bahwa mereka mempertahankan banyak jurnalis dan tenaga peliputan untuk melakukan pemberitaan di berbagai bidang serta jurnalisme investigatif, sehingga dipandang sebagai sumber otoritatif dalam banyak isu
  • Untuk menutup biaya peliputan tersebut, Times membatasi akses artikel dengan paywall yang kuat
  • Times mengendalikan penggunaan karya berhak ciptanya melalui pemberitahuan hak cipta di edisi cetak, pembatasan penyalinan dan penggunaan dalam ketentuan layanan, serta kebijakan lisensi selektif
  • Logika utama kerugian dalam gugatan ini adalah bahwa jika alat OpenAI menyediakan konten Times tanpa izin, hubungan dengan pembaca akan rusak dan pendapatan dari langganan, lisensi, iklan, dan kemitraan akan direbut

Isu terkait penggunaan data pelatihan

  • Times mengklaim bahwa kontennya digunakan tanpa izin dalam proses pelatihan beberapa versi GPT
  • Sebelum GPT-3.5, informasi dataset pelatihan dipublikasikan, dan Times menilai salah satunya, Common Crawl, memuat 16 juta rekaman unik yang diterbitkan dari situs Times
  • Berdasarkan tolok ukur tersebut, Times adalah sumber ketiga yang paling banyak dirujuk setelah Wikipedia dan basis data paten Amerika Serikat
  • OpenAI tidak lagi banyak mengungkap detail data pelatihan untuk versi GPT terbaru, tetapi gugatan ini menyajikan indikasi bahwa teks lengkap artikel Times masih dimasukkan dalam proses pelatihan
  • Seiring berjalannya perkara, informasi akses ke data pelatihan dapat menjadi isu utama dalam proses discovery

Masalah reproduksi yang muncul pada tahap keluaran

  • Gugatan ini tidak berhenti pada klaim bahwa materi berhak cipta dipakai untuk pelatihan, tetapi menekankan bahwa materi yang telah dipelajari dapat dikeluarkan kembali saat digunakan
  • Times mengklaim bahwa alat AI generatif berbasis OpenAI dapat membacakan kata demi kata konten Times, merangkumnya dengan sangat mirip, atau meniru gaya ekspresinya
  • Dokumen gugatan memuat contoh ketika GPT-4 mereproduksi bagian besar artikel Times hampir persis
  • Contoh prompt yang digunakan adalah memberikan judul artikel Times kepada ChatGPT, meminta paragraf pertama, lalu terus meminta paragraf berikutnya
  • Ketika Ars Technica menguji sebagian prompt yang sama, ChatGPT menyarankan untuk memeriksa situs web Times atau sumber tepercaya lain, tetapi menilai bahwa kemungkinan materi berhak cipta muncul jika ada konteks sebelumnya tidak dapat dikesampingkan
  • Copilot adalah layanan yang sebelumnya bernama Bing Chat, dan Ars Technica memastikan bahwa ketika diminta paragraf pertama dari artikel Times tertentu, Copilot mereproduksi sekitar sepertiga bagian awal artikel tersebut

Bantahan penggunaan wajar dan kerugian reputasi

  • OpenAI dan Microsoft secara terbuka berargumen bahwa penggunaan konten berhak cipta tanpa izin untuk melatih model AI generatif merupakan penggunaan wajar karena memberikan tujuan transformatif baru
  • Times membantah bahwa tidak ada sifat transformatif dalam penggunaan konten Times tanpa membayar untuk membuat produk yang menggantikan Times dan mengambil pembacanya
  • Halusinasi AI juga diajukan sebagai faktor yang dapat merusak nilai reputasi Times
  • Sebagai contoh, model GPT mengarang bahwa pada 10 Januari 2020 Times menerbitkan artikel tentang hubungan antara jus jeruk dan limfoma non-Hodgkin, padahal Times menyatakan tidak pernah menerbitkan artikel seperti itu
  • Gugatan ini menyatakan bahwa untuk artikel Times tentang makanan yang baik bagi kesehatan jantung, Copilot memberikan daftar contoh yang tidak ada dalam artikel asli, dan 80% dari daftar yang diminta adalah makanan yang tidak disebutkan dalam artikel tersebut
  • Dalam kasus rekomendasi Wirecutter, gugatan mengklaim bahwa produk yang tidak pernah diulas oleh staf dikaitkan sebagai rekomendasi Wirecutter

Wirecutter dan masalah pendapatan afiliasi

  • Wirecutter adalah media milik The New York Times
  • Gugatan ini mengklaim bahwa Copilot juga dapat menampilkan bagian besar artikel Wirecutter
  • Dalam kutipan artikel tersebut, tautan afiliasi dihapus, sehingga muncul masalah bahwa sumber pendapatan utama Wirecutter terhalang

Klaim hukum

  • Gugatan ini menuntut pertanggungjawaban perusahaan-perusahaan terkait OpenAI atas pengembangan perangkat lunak, dan juga menuntut Microsoft atas penyediaan layanan berbasis OpenAI serta pembangunan infrastruktur pelatihan
  • Klaimnya mencakup pelanggaran hak cipta langsung, pelanggaran kontributif, dan pelanggaran vikarius
  • Selain itu, gugatan juga mengajukan pelanggaran DMCA, pelanggaran merek dagang, serta penyalahgunaan melalui persaingan tidak sehat

1 komentar

 
GN⁺ 2023-12-29
Opini Hacker News
  • Tanpa memasukkan unsur LLM, saya bertanya-tanya apakah membuat produk dari artikel NYT yang di-scrape secara legal itu termasuk fair use
    Misalnya, katakanlah seseorang meng-host artikel-artikel itu, menyediakan indeks, dan menjual fitur penulisan ulang berbayar seperti ringkasan artikel tentang hubungan AS–Inggris selama 5 tahun terakhir. Meski hanya membayar biaya langganan bulanan ke NYT, tidak mengeluarkan teks asli secara panjang lebar, dan hanya memakai kutipan pendek, itu tidak terdengar seperti fair use
    Biasanya, kita tidak bisa mengambil produk paket harga untuk penggunaan pribadi lalu menjual turunannya kepada pihak ketiga. Kasus seperti VS Code pun sama
    Ada perbedaan besar dengan mesin pencari. Mesin pencari tidak menggantikan sumber asli; justru mengirim pengguna ke teks asli dan memberi peluang pembayaran artikel. Sebaliknya, produk seperti ini atau LLM memakai konten NYT sebagai substitusi sehingga orang tidak benar-benar perlu berlangganan NYT

    • Yang dijelaskan itu sebenarnya sepenuhnya termasuk fair use
      Selain itu, kalau melihat artikel berita dari media lapis kedua ke bawah, hampir semuanya jelas mengambil langsung dari tempat seperti NYT. Biasanya mereka menulis “menurut The Times, si A melakukan hal B,” dan umumnya juga menyertakan tautan ke artikel asli
    • Faktor lain yang perlu dipertimbangkan adalah bahwa jaringan saraf bisa bertindak seperti kompresi lossy, dan ini menjadi sangat jelas pada model yang overfit
      Kadang model terlalu overfit sehingga bahkan bukan lagi kompresi lossy; datanya dikodekan di dalam jaringan saraf persis seperti teks asli
    • “Tidak memuntahkan potongan artikel NYT asli begitu saja, dan hanya memakai kutipan yang sangat pendek” pada dasarnya menggambarkan Google
      Kalau dipikir-pikir, cukup mengejutkan bahwa Google itu legal, tetapi apa yang dilakukan Google sudah sepenuhnya ditetapkan sebagai legal. Secara internal, Google menyimpan dan menggunakan salinan lengkap teks asli dari semua halaman web yang diindeksnya
      Tentu saja Google menyediakan tautan ke sumber. Kalau OpenAI juga melakukan itu, apakah kita akan menganggapnya legal meski click-through rate-nya hanya 0,1% dan hampir tidak membantu pendapatan NYTimes? Bagaimana kalau saat mendeteksi momen ketika model akan mengeluarkan teks asli apa adanya, mereka sekadar membuatnya memparafrasekan? NYTimes tidak memiliki hak cipta atas parafrasa artikelnya. Secara praktis tidak ada perbedaan, jadi akan cukup konyol kalau pemerintah memaksa mekanisme pengelakan seperti itu
    • Bukankah menulis artikel atau posting blog yang pada dasarnya merangkum berita dan kadang mengutipnya adalah hal yang sangat umum?
    • Pertanyaan “apakah membuat produk dari artikel NYT yang di-scrape secara legal itu fair use?” bukan pertanyaan yang bagus
      Tidak apa-apa melihat keluar jendela dan melihat tetangga pergi ke toko. Tetapi kalau Anda melacak semua orang di jalan dengan kamera dan memasukkannya ke basis data, di banyak tempat itu bermasalah dan ilegal
      Ketika skalanya membesar, logika yang sama belum tentu tetap berlaku
  • Gugatan itu memuat contoh ChatGPT/Bing Copilot menyalin NYT secara verbatim. Tampaknya sulit berargumen bahwa penyalinan seperti itu adalah fair use
    Namun OAI/MS mungkin bisa memperbaikinya bahkan dalam paradigma saat ini. Cukup latih dengan RLHF agar mengenali plagiarisme dan memberi penalti
    Tetapi gugatan itu melangkah jauh lebih jauh daripada sekadar mengatakan penyalinan semacam itu melanggar hak cipta. Mereka berargumen bahwa “penyalinan tanpa izin atas karya Times untuk melatih LLM adalah penggunaan substitutif yang tidak dibenarkan oleh tujuan transformatif”
    Ini adalah klaim kuat bahwa tindakan mengunduh artikel-artikel itu sebagai data pelatihan sendiri merupakan pelanggaran hak cipta. Fakta bahwa GPT mengeluarkan teks asli bisa jadi hanya pengalih perhatian. Saya berharap para hakim menyadari ini, lalu berfokus pada persoalan hukum yang menarik, besar taruhannya, dan belum jelas: apa yang bisa dan tidak bisa menjadi penggunaan transformatif pada sebuah model

    • “Suruh RLHF mengenali plagiarisme dan memberi penalti” itu bukan masalah RLHF
      Cara yang diharapkan adalah memelihara Bloom filter n-gram dari konten berhak cipta yang diketahui. Misalnya, enumerasi semua rangkaian 7 kata berurutan di dalam artikel untuk diverifikasi, lalu buat model hanya boleh mengeluarkan maksimal n-1 kata yang sama persis dengan sumber
      Namun ini akan berbalik merugikan. Perusahaan AI akan berinvestasi jauh lebih banyak pada penandaan asal konten, dan alat penandaan asal baru itu akan diterapkan juga pada semua artikel yang ditulis manusia, karena siapa pun bisa diam-diam memakai GPT. Itu bisa menimbulkan efek menciutkan kreativitas. Selain itu, tidak semua yang ditulis NYT bersifat orisinal, jadi NYT juga harus dicocokkan dengan semua sumber lain
    • Sepertinya NYT akan menang
      LLM bisa dipandang sebagai arsip data terkompresi dengan algoritme yang aneh. Fakta bahwa ia secara berkala dapat memuntahkan data pelatihan apa adanya, serta adanya pengaman untuk mencegah hal itu, adalah buktinya
      Bukti kedua adalah makalah yang dijelaskan di sini: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... Para peneliti memakai data terkompresi gzip sebagai model alih-alih LLM, dan bahkan mengalahkan LLM yang telah dilatih
      AI memang sampai taraf tertentu adalah black box, tetapi mengoperasikan black box tidak melindungi Anda dalam gugatan pelanggaran hak. Anda tidak bisa membuat basis data dari data berhak cipta yang dikeruk, lalu mematenkan bahwa kueri atas data itu adalah fair use
      Di sini diperlukan hukum, dan hukum itu tidak akan berbunyi “kalau untuk melatih model, semua orang boleh menyalin semuanya secara gratis.” Lisensi harus dibereskan, dan bukan hanya preseden, melainkan undang-undang yang nyata juga harus ditulis. Saya cukup bersimpati untuk memberi peneliti open source dan hacker keleluasaan yang luas, tetapi tidak sebesar itu untuk Microsoft dan OpenAI yang didanai Microsoft
    • Banyak kasus fair use mencakup penyalinan verbatim. Pertanyaan pentingnya bukan penyalinan itu sendiri, melainkan situasi ketika penyalinan itu terjadi. NYT sedang memasuki wilayah yang belum terpetakan
    • Saya tidak tahu bagaimana usulan “suruh RLHF mengenali plagiarisme dan memberi penalti” akan bekerja dalam praktik. Untuk mengenali plagiarisme saat inferensi, model justru harus menghafal lebih kuat
      Kalau berhasil, itu cukup lucu. Pertama melatih model untuk menyalin data pelatihan apa adanya, lalu melatihnya lagi agar tidak melakukan itu
      Bukankah memang begitu cara kerjanya? Karena loss function-nya seperti itu, model dilatih untuk menyalin data pelatihan apa adanya. Hanya saja datanya terlalu banyak, sehingga dengan mempertimbangkan jumlah parameter, kita tidak berharap itu mungkin untuk sebagian besar data pelatihan
    • Menyalin karya berhak cipta lalu menggunakannya untuk tujuan ekspresi asli yang sama bukankah bukan fair use? Harus dipakai untuk tujuan transformatif
      Katakanlah saya menjual situs langganan bernama New Jersey Times, dan saya sekadar mengunduh artikel New York Times lalu melewatkannya melalui autoencoder yang diberi noise acak. Tujuannya persis sama dengan situs New York Times, hanya saja uangnya saya yang dapat. Apakah itu fair use?
  • NYT sedang membangun istana pasir di depan tsunami. Dalam gambaran besarnya, gugatan ini tidak akan penting karena beberapa alasan
    Pertama, generasi LLM berikutnya akan dilatih hanya dengan data “sintetis”/publik. GPT-4V dapat dengan mudah mencuci seluruh korpus pelatihan berhak cipta sampai tidak dapat dikenali. Misalnya dengan menulis ulang 40% dan menghapus penulis serta sumber. Dengan begitu, tidak akan ada materi berhak cipta yang bisa dimuntahkan GPT-5
    Kedua, riset, hosting, dan kemajuan akan terus berjalan. AS tidak bisa menghentikannya; mereka hanya bisa memilih untuk tertinggal. Dunia akan terus bergerak maju, dan Tiongkok akan menonton dengan senang ketika pesaing terbesarnya melakukan bunuh diri intelektual demi menenangkan perusahaan media pencari rente
    Ketiga, model dapat berbagi bobot, saling digabungkan, berkolaborasi, dihapus, dan berevolusi melintasi beberapa generasi rilis. Hukum hak cipta sangat tidak cocok untuk melacak pelanggar dalam sup silsilah AI seperti ini, yang dipanaskan dengan data yang asal-usulnya tidak jelas atau meragukan
    Suka atau tidak, kita hidup di era intelektual baru. NYT dan yang lain akan ikut arus ini, entah mereka mau atau tidak

    • Ini penafsiran yang sangat buruk. Ini logika yang memohon pada konsekuensi. Menurut saya, New York Times sepenuhnya sah mengambil langkah hukum. Mereka menginvestasikan waktu dan upaya untuk membuat konten, lalu konten itu digunakan demi keuntungan finansial tanpa izin. Itu jelas pelanggaran
      Jika melihat faktor fair use, pada tujuan dan sifat penggunaan mungkin argumen transformasi di masa depan bisa berlaku, tetapi sengketa saat ini ada pada penggunaan teks asli apa adanya. Jadi jelas tidak bersifat transformatif. Penggunaan komersial juga membuat penilaian fair use semakin sulit
      Pada sifat karya berhak cipta, karya yang lebih faktual memang lebih mungkin diakui sebagai fair use, tetapi menurut saya artikel NYT bersifat faktual sekaligus kreatif
      Pada jumlah dan substansialitas bagian yang digunakan, seluruh artikel digunakan, jadi tidak ada ruang untuk berargumen bahwa hanya sebagian kecil yang dipakai
      Pada dampak terhadap nilai pasar juga, NYT tidak menerima uang, dan jika orang mengeceknya di ChatGPT alih-alih membaca artikel NYT, itu jelas tidak akan membantu nilai pasarnya
      Saya bukan pengacara, tetapi menurut saya NYT punya hak yang cukup untuk mengajukan gugatan. Kemajuan memang tak terelakkan, tetapi manusia harus secara aktif membentuk dan mengarahkannya. Jika tidak, itu tidak bisa disebut kemajuan. Dalam hal ini, langkah hukum adalah sarana yang diperlukan bagi individu dan organisasi untuk menegaskan hak mereka dan memengaruhi arahnya
    • “Perusahaan media pencari rente”? Perusahaan media yang benar-benar membuat konten disebut pencari rente? Dibandingkan dengan sampah halusinasi yang dihasilkan AI?
    • Yang dimaksud “Tiongkok menonton dengan senang ketika AS melakukan bunuh diri intelektual” itu Tiongkok yang sama yang sudah memperkenalkan regulasi luas terhadap AI?
      Setidaknya dalam satu kasus, sebuah startup Tiongkok harus menutup chatbot yang baru dirilisnya. Alasannya karena chatbot itu mengatakan sesuatu tentang perang Ukraina yang tidak sesuai dengan posisi resmi partai
      https://finance.yahoo.com/news/beijing-tries-regulate-china-...
      https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
      Saya setuju bahwa riset, hosting, dan kemajuan akan terus berlanjut, tetapi saya tidak begitu yakin bahwa Tiongkoklah yang akan diuntungkan jika AS menambahkan sedikit pengaman pada roller coaster ini
    • Apakah media benar-benar pencari rente? Mereka membuat konten dan analisis baru, lalu ingin dibayar untuk itu. Ini tampak cukup berbeda dari menimbun sumber daya alam atau tanah
    • Hukum pertama internet adalah “kalau kamu mengunggahnya ke internet, itu bukan milikmu lagi”
      Kamu tidak harus setuju, juga tidak harus menyukainya. Namun jika menerimanya dan hidup sesuai dengan itu, kamu akan jauh lebih jarang terbakar
  • Dokumen gugatan itu sendiri adalah dokumen yang ditautkan arstechnica ini: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
    Mulai sekitar halaman 30, ada contoh-contoh yang cukup jelas bahwa ChatGPT memiliki salinan internal materi berhak cipta dan melafalkannya kembali secara verbatim
    Pada dasarnya, ini situasi ketika materi berhak cipta disalin dalam jumlah besar ke suatu gumpalan, lalu diterapkan kompresi lossy. Seberapa lossy kompresi itu harusnya agar hak cipta tidak lagi berlaku? Sepertinya harus sangat lossy
    Yang bisa menyelamatkan OpenAI justru mungkin ketertutupan. OpenAI dapat mencocokkan ChatGPT secara sederhana dengan bagian berhak cipta dari dataset yang digunakan untuk melatihnya, lalu memfilter dan memblokir materi berhak cipta agar tidak keluar dari LLM lewat antarmuka web. Sebaliknya, proyek open source yang dilatih dengan dataset yang sama akan menghadapi tugas yang jauh lebih sulit: menghapus materi berhak cipta dari LLM itu sendiri

    • Sasaran dari bagian “menyalin banyak materi berhak cipta, memasukkannya ke gumpalan, lalu menerapkan kompresi lossy” mungkin kira-kira adalah “sampai tidak ada yang menyadari bahwa itu dicuri”
      Maksudnya, sampai tidak mudah ditemukan, atau meski dianalisis langsung masih ada cukup plausible deniability untuk lolos
    • Saya penasaran bagaimana hasil ini diperoleh. Karena mereka tidak menampilkan UI biasa, yaitu layar ChatGPT atau Copilot
      Sulit menilai apakah itu mengulang dari data pelatihan, atau melakukan kesalahan yang sama seperti dalam artikel asli: menggunakan Copilot untuk lebih dulu mencari artikel/mencari di Bing, lalu menjawab
    • Jawaban untuk “ketertutupan” adalah audit yang dikendalikan dari luar
  • Jika menurut Anda contoh-contoh dalam gugatan itu adalah “penggunaan wajar”, perlu dipikirkan apa artinya. Pada dasarnya, ini berarti membiarkan beberapa perusahaan mengintegrasikan seluruh nilai internet ke dalam black box mereka dengan nyaris tanpa aturan, dan itu terlihat sangat berbahaya
    Terlepas dari kasus ini, saya berharap pengadilan menetapkan aturan main di sini

    • Saya melihatnya justru sebaliknya. Jika biaya data berkualitas tinggi menjadi miliaran dolar, tidak ada model open source yang akan mampu menanggung biaya pelatihannya
      Sampai ada yang memecahkan masalah data sintetis, bidang ini hanya akan menyisakan pemain seperti OpenAI dan Google
    • Scraping itu legal, dan ini tampak seperti karya transformatif
    • Sisi sebaliknya juga mengkhawatirkan. Hukum kekayaan intelektual selalu rumit, berantakan, kontradiktif, dan ambigu secara moral
      Kontroversi pelanggaran kekayaan intelektual oleh LLM langsung menyingkap cacat bawaan ini, dan pada akhirnya memaksa keputusan yang akan menciptakan preseden tentang legalitas cara berpikir manusia. Ini persoalan yang tidak akan membuat siapa pun nyaman
      Saya paham bahwa memberi terlalu banyak diskresi kepada OpenAI dan Microsoft bisa berbahaya, tetapi sebaliknya kita juga luput melihat bahwa perusahaan seperti Disney pada dasarnya sudah mengendalikan sebagian besar hukum hak cipta selama puluhan tahun. Mereka pasti meneteskan air liur melihat kemungkinan munculnya preseden bahwa kemampuan untuk berinteraksi dengan media atau informasi apa pun, pada tingkat apa pun, bisa dikenai biaya
      Pada akhirnya, kita sedang menyadari bahwa kita telah membangun sistem ekonomi raksasa di atas gagasan yang secara mendasar cacat, yaitu kepemilikan atas ide. Solusinya adalah merobek buku aturan, yang akan sangat menyakitkan, atau terus memaksakannya lebih jauh, yang akan berakibat fatal
    • Pengadilan sudah memutuskan hal ini
      Di Jepang, mereka mengatakan apa pun boleh untuk AI
      Sebaiknya jangan kehilangan keunggulan kompetitif hanya karena sesuatu yang Anda unggah secara publik ke internet. Jika Anda menaruhnya agar dilihat semua orang, Anda harus memperkirakan orang lain akan menggunakannya
  • Para pengembang suka berpura-pura bahwa LLM mirip manusia, dan bahwa materi seperti NYTimes dipakai sebagai bahan pendidikan layaknya manusia
    Namun tidak demikian. Jika dilihat lebih sederhana, tulisan proprietari kini telah terintegrasi ke dalam source code OpenAI. Ini seperti saya menyalin sebagian kode proprietari lain ke codebase saya, lalu mengklaim bahwa copy-paste adalah proses evolusi alami dari jutaan tahun evolusi
    Fakta bahwa LLM terlalu kompleks sehingga kita tidak tahu letaknya tidak membuatnya menjadi kurang seperti itu

    • Itu bukan copy-paste, melainkan dikompresi secara lossy. Bahkan GPT-4 sama sekali tidak memiliki memori yang cukup untuk menyimpan seluruh data pelatihan dalam format kompresi lossless. Ini mirip dengan cara manusia mengompresi informasi yang mereka baca
    • Pengembang yang menganggap LLM mirip manusia bukanlah kelompok yang terlalu cerdas, dan biasanya menjadi bahan olok-olok
    • Pernyataan “tulisan proprietari telah terintegrasi ke dalam source code OpenAI” tidak tepat
      Source code LLM kemungkinan hanya beberapa ratus baris teks yang menjelaskan bentuk jaringan saraf yang termasuk dalam model
      Konten NYTimes tidak akan ada di dalam source code. NYTimes tidak menerbitkan source code Python, melainkan berita dalam bahasa manusia
      Secara konseptual LLM itu sederhana, sebagian besar terdiri dari perkalian matriks, operasi nonlinier yang menghubungkan tiap lapisan, loop berbasis attention, dan sebagainya. Yang membuatnya kompleks adalah jumlah data pelatihan dan komputasi yang sangat besar
  • Semua perusahaan yang memiliki konten sedang mencium bau uang
    NYT tidak akan keberatan kontennya dipakai untuk melatih LLM. Asalkan mereka mendapat bayaran. Reddit menutup API gratisnya dan akan membuat orang membayar untuk mendapatkan konten pelatihan. Discord juga akan menjual konten untuk pelatihan AI, kalau belum melakukannya. Twitter juga melakukannya
    Dulu LLM hanya eksperimen, jadi mereka tidak peduli. Sekarang ada nilai triliunan dolar yang dipertaruhkan

    • NYT bukan “memiliki” konten, melainkan membuat konten. Itulah alasan keberadaannya
    • “Mereka” juga mencakup orang-orang yang bekerja di sana. Jika seseorang menulis artikel penuh waktu, mengapa hasil kerja itu harus diberikan gratis agar orang lain bisa melatih model dan menghasilkan uang dari hasilnya?
    • Jika mereka tidak peduli saat LLM masih eksperimen, lalu bergerak setelah melihat nilai triliunan dolar sekarang, bisakah dikatakan bahwa NYT sendiri yang salah karena tidak melihat masa depan dan tertidur, sehingga “setelah dipikir-pikir ternyata keliru” membiarkan OpenAI dan lainnya mendapat akses gratis, publik, dan tak terbatas ke konten mereka?
  • Sudut pandang NYT akan terlihat benar-benar bodoh ketika nanti LLM dimasukkan ke tubuh mesin yang dapat berinteraksi dengan dunia fisik serta belajar dan memperbarui bobot secara real time
    Robot seperti itu bisa saja menjadi ilegal untuk membaca, melihat, atau mendengar materi berhak cipta. Tidak bisa menonton TV, tidak bisa membaca buku perpustakaan, tidak bisa menjelajah internet. Karena dalam prosesnya ia bisa menghafal sebagian konten berhak cipta

    • Saya tidak setuju. Masalahnya ada pada bagian verbatim. Anda membandingkannya dengan cara kerja manusia, tetapi manusia pun tidak diizinkan melakukan itu
      Bagi manusia mungkin lebih sulit, tetapi jika seseorang menghafal buku berhak cipta lalu membacakannya langsung di TV, atau membuat salinan dari ingatan dan menjualnya, ia akan digugat
      Manusia selalu membuat karya turunan, dan LLM melakukan hal yang sama tidak masalah. Namun tidak boleh secara verbatim
    • Menghafal bukan masalahnya. Masalahnya adalah mengembalikannya secara verbatim atau memutus akses ke sumbernya
      Jika ada orang dengan ingatan fotografis, dan orang-orang meminta orang itu menghafalkan berita alih-alih membeli koran, masalah yang sama akan muncul
      Saat ini, pertunjukan publik atas materi berhak cipta adalah pelanggaran
    • Apakah LLM semacam itu adalah warga independen yang akan diberi hak? Jika ya, tidak masalah
      Atau apakah semuanya akan dimiliki satu perusahaan raksasa, dan dipakai untuk memeras uang dari kita semua seperti yang dilakukan kapitalisme? Jika begitu, saya setuju untuk melarangnya
    • Jika LLM yang berada dalam tubuh diizinkan membaca nytimes lewat tablet, saya rasa NYT juga tidak akan peduli
  • Sejak ChatGPT muncul, saya berpendapat bahwa LLM seharusnya termasuk penggunaan wajar sebagai karya transformatif. Saya bukan ahli hukum dan ini hanya pendapat awam, tetapi menarik untuk melihat apa kata sistem hukum tentang hal ini

    • Gugatan tersebut menyatakan bahwa GPT mereproduksi paragraf NYT hampir persis seperti teks aslinya
    • Jika mempertimbangkan ukuran data pelatihan, dan membayangkan bahwa suatu keluaran adalah hasil interpolasi dari banyak sekali contoh pelatihan dari orang-orang berbeda, pandangan ini tampak masuk akal
      Jika meminjam potongan dari puluhan, ratusan, atau ribuan sumber, hak cipta siapa yang dilanggar? Remix musik juga meminjam dari banyak sumber, dan tampaknya sampai batas tertentu mampu bertahan dalam pemeriksaan hukum jika musiknya jelas berbeda dan orisinal
      Namun klaim menyeluruh bahwa LLM atau AI saat ini termasuk penggunaan wajar menjadi sulit dipertahankan ketika model berulang kali mereproduksi karya individual yang utuh dan dapat diidentifikasi, serta dalam kasus konkret jelas melanggar hukum hak cipta. Model mungkin dalam sebagian besar kasus melakukan remix atau bersifat transformatif, tetapi ada bukti bahwa tidak setiap kali selalu demikian. Mungkin gugatan ini akan menjadi pemicu untuk memperbaiki AI agar tidak mereproduksi karya tertentu, sehingga klaim penggunaan wajar menjadi lebih kuat dan benar-benar dapat dipertahankan
    • Pertanyaan ini pada akhirnya pasti harus sampai ke Mahkamah Agung. Menurut saya makin cepat makin baik. Ini jelas penggunaan wajar. Agen generatif secara hukum akan dipandang tidak berbeda dari seniman manusia yang memanfaatkan gabungan seluruh pengaruhnya untuk menciptakan karya baru
    • Apa yang terjadi jika kita meminta ChatGPT untuk mengeluarkan artikel dari dataset-nya persis seperti sumber aslinya?
    • Termasuk konten di balik paywall?
  • Situasi ini sudah diprediksi dalam video EPIC 2014 yang sangat berpengaruh dari tahun 2004
    https://www.youtube.com/watch?v=eUHBPuHS-7s Versi aslinya berbasis Flash sehingga hilang ke lubang memori, dan yang tersisa hanya konversi berkualitas rendah ini
    36 detik: “Namun pers seperti yang Anda kenal sudah tidak ada lagi”
    40 detik: “Organisasi berita abad ke-20 telah menjadi sekunder. Sebuah peninggalan sunyi dari masa lalu yang belum terlalu jauh”
    2 menit 11 detik: “Pada 2002, Google juga meluncurkan portal berita, Google News. Organisasi berita bereaksi keras. Google News sepenuhnya disunting oleh komputer”
    5 menit 13 detik: “Perang berita tahun 2010 patut dicatat karena tidak ada satu pun organisasi berita nyata yang terlibat. Googlezon akhirnya melakukan skakmat terhadap Microsoft dengan fitur yang tidak bisa ditandingi raksasa perangkat lunak itu. Dengan algoritma baru, komputer Googlezon secara dinamis mengupas dan menggabungkan ulang kalimat serta fakta dari semua sumber konten untuk membuat artikel baru. Komputer menulis artikel baru untuk setiap pengguna”
    5 menit 55 detik: “Pada 2011, Pilar Keempat yang tertidur bangkit dan melakukan perlawanan pertama sekaligus terakhirnya. The New York Times Company menggugat Googlezon, dengan klaim bahwa robot ekstraksi fakta perusahaan tersebut melanggar hukum hak cipta. Kasusnya sampai ke Mahkamah Agung”
    Detailnya tidak sepenuhnya tepat, tetapi akurasi secara keseluruhannya mengejutkan. Namun dalam linimasa ini, mungkin saja itu semacam produk hiperstitusi
    https://en.wikipedia.org/wiki/EPIC_2014 Saya sempat mengira EPIC 2014 mungkin satu-satunya video Flash yang memiliki artikel Wikipedia, tetapi setelah dicari ternyata ada lima lagi