- Komedian sekaligus penulis Sarah Silverman bersama Christopher Golden dan Richard Kadrey masing-masing menggugat OpenAI dan Meta di pengadilan distrik federal AS
- Pokok sengketa adalah apakah ChatGPT dan LLaMA dilatih menggunakan dataset yang mencakup buku tanpa izin para penulis
- Para penggugat menilai buku-buku yang diperoleh secara ilegal dari shadow library seperti Bibliotik, Library Genesis, dan Z-Library telah diedarkan secara massal melalui torrent
- Dalam gugatan terhadap OpenAI, kasus ketika ChatGPT merangkum Bedwetter, Ararat, dan Sandman Slim diajukan sebagai indikasi penggunaan data pelatihan
- Gugatan terhadap Meta menyoroti kemungkinan buku para penggugat termasuk dalam dataset yang digunakan, dengan mengaitkan ThePile dan EleutherAI sebagai sumber data pelatihan LLaMA
Pihak yang digugat dan pokok sengketa
- Sarah Silverman, Christopher Golden, dan Richard Kadrey masing-masing mengajukan gugatan terhadap OpenAI dan Meta di pengadilan distrik federal AS
- Fokus utama kedua gugatan adalah dugaan pelanggaran hak cipta
- Para penggugat menuduh ChatGPT milik OpenAI dan LLaMA milik Meta dilatih menggunakan dataset yang mencakup karya mereka
- Isu kuncinya adalah apakah dataset tersebut diperoleh tanpa izin dari para penulis
Kontroversi sumber data pelatihan
- Gugatan tersebut menyatakan bahwa dataset yang digunakan untuk melatih ChatGPT dan LLaMA diperoleh secara ilegal
- Situs shadow library yang disebut oleh para penggugat adalah sebagai berikut
- Bibliotik
- Library Genesis
- Z-Library
- situs serupa lainnya
- Fakta bahwa buku-buku tersebut disediakan secara massal melalui sistem torrent juga dipermasalahkan
Contoh yang diajukan dalam gugatan terhadap OpenAI
- Para penggugat mengajukan contoh ketika ChatGPT merangkum buku mereka berdasarkan prompt sebagai bukti
- Buku yang termasuk dalam bukti adalah sebagai berikut
- Bedwetter karya Sarah Silverman
- Ararat karya Christopher Golden
- Sandman Slim karya Richard Kadrey
- Gugatan itu juga menyatakan bahwa ChatGPT tidak mereproduksi informasi manajemen hak cipta yang terdapat dalam karya terbitan para penggugat
Fokus gugatan terhadap Meta
- Gugatan terpisah terhadap Meta berpendapat bahwa buku para penggugat dapat diakses dalam dataset pelatihan LLaMA
- LLaMA diperkenalkan sebagai 4 model AI open-source yang dirilis Meta pada Februari
- Gugatan tersebut menyoroti ThePile di antara sumber dataset pelatihan yang disebut dalam makalah LLaMA milik Meta
- ThePile disebut sebagai dataset yang disusun oleh EleutherAI
Tanggapan para pihak
- Christopher Golden dan Richard Kadrey menolak berkomentar mengenai gugatan tersebut
- Pihak Sarah Silverman belum memberikan tanggapan hingga waktu pemberitaan
1 komentar
Komentar Hacker News
Para pembuat AI pada dasarnya secara eksplisit mengatakan bahwa mereka benar-benar menggunakan karya berhak cipta yang diambil dari situs pembajakan buku
Jika seseorang mengunduh satu buku saja dari situs itu, mereka bisa digugat dan dinyatakan melakukan pelanggaran; jika mengunduh semuanya, tanggung jawab ganti ruginya bisa mencapai puluhan miliar dolar
Namun perusahaan seperti Google atau Facebook tampaknya bergerak dengan aturan yang berbeda. Mirip dengan situasi di mana membunuh satu orang membuatmu pembunuh, tetapi membunuh sejuta orang membuat pertanyaan tentang itu menjadi “pertanyaan jebakan” dan bisa dibalas dengan kemarahan
Menghapus hak cipta dalam semalam mungkin terlalu mengguncang, tetapi makin kecil dampak hak cipta, dunia akan menjadi jauh lebih baik dan berkembang lebih cepat
Pada 2023, lebih dari separuh populasi dunia memiliki smartphone. Layak dibayangkan dunia di mana lebih dari separuh manusia bisa mengakses semua buku yang telah didigitalkan dan membesarkan anak-anak mereka dengan buku-buku itu
ImageNet penuh dengan gambar berhak cipta, Clearview secara harfiah mengeruk wajah dari internet, dan mungkin ada contoh yang lebih lama lagi
Saya tidak tahu apakah pengadilan AS pernah menyatakan ini sebagai fair use, tetapi kalau belum pun saya kira pada akhirnya besar kemungkinan akan dinyatakan demikian
Selama tidak membagikan ulang, kamu bisa mengunduh sebanyak yang kamu mau dari Z-Library atau BitTorrent
Mengindeks materi berhak cipta untuk pencarian juga aman, atau setidaknya berada di wilayah abu-abu
Mungkin kamu bisa menerima pemberitahuan pelanggaran, dan kalau sangat parah penyedia internet bisa memutus layanan, tetapi saya belum pernah mendengar kasus orang benar-benar digugat hanya karena sekadar mengunduh sesuatu
Saya sangat berharap pengadilan mengakui bobot LLM dan dataset sebagai “fair use”, atau dengan dalih hukum konyol lainnya
Aaron Swartz adalah sosok yang benar-benar dewasa
Sangat mungkin buku Silverman memang ada di dataset Books2, tetapi kalimat dalam gugatan ini tampak jelas keliru
Pertama, bahkan jika model tidak pernah melihat satu kata pun dari isi buku itu saat pelatihan, model itu bisa saja belajar merangkum dengan membaca ringkasan publik lain, misalnya halaman Wikipedia
Kedua, juga tidak jelas apakah model yang hanya melihat isi buku, tanpa pernah melihat deskripsi atau ringkasan tentang buku itu, benar-benar akan pandai merangkumnya
Untuk memeriksanya, kita bisa memilih buku yang ada di Project Gutenberg dan, menurut gugatan, termasuk dalam data pelatihan ChatGPT lewat Books1, tetapi hampir tidak dibahas secara online. Jika sumber kemampuan merangkum memang berasal dari belajar buku itu sendiri, maka buku langka pun seharusnya bisa diringkas sebaik buku Silverman
Saya memilih The Ruby of Kishmoor secara acak, buku yang ditambahkan ke Project Gutenberg pada 2003. ChatGPT berbasis GPT-3.5 malah berhalusinasi dengan ringkasan yang salah bahkan untuk tokoh utamanya, sementara GPT-4 menolak mencoba dan berkata tidak mengenal ceritanya
Jika alasan ChatGPT bisa merangkum buku Silverman adalah karena buku itu sendiri ada di data pelatihan, mengapa ia tidak bisa melakukan hal yang sama untuk buku lain?
Prompt: tolong ringkas buku berikut yang ada di Project Gutenberg — The Ruby of Kishmoor
Responsnya menjelaskan bahwa ini adalah kisah petualangan pendek karya Howard Pyle, tentang Jonathan Rugg yang dipandu seorang asing misterius pergi ke Caribbean untuk memperoleh artefak berharga bernama Ruby of Kishmoor
Setelah tiba di Caribbean, ia mengetahui bahwa ruby itu memiliki kutukan yang serius, tetapi karena rasa ingin tahu dan kemungkinan kekayaan besar, ia tetap mengejar permata itu dengan menanggung risikonya. Setelah berbagai tantangan, ia akhirnya menemukan ruby itu bukan lewat pencarian yang sistematis, melainkan murni karena keberuntungan
Selama perjalanannya, cerita itu mengeksplorasi keserakahan manusia dan seberapa jauh orang akan melangkah demi keuntungan materi, memadukan petualangan, unsur supernatural, keberanian, dan refleksi moral hingga membuat pembaca memikirkan ulang nilai sejati dari pengejaran materi
Di bagian akhir, Jonathan melarikan diri sambil membawa ruby itu tetapi harus membayar harga pribadi yang besar, menyisakan pertanyaan tentang nilai sejati kehidupan dan pencarian materi
Maksudnya adalah mengklaim bahwa ada alasan yang layak untuk mempercayainya benar, dan sekarang hal itu bisa diverifikasi langsung melalui proses gugatan
Saya juga melihat tulisan lain dan meminta GPT-4 merangkum The Ruby of Kishmoor; setelah ditanya dua kali, ia memberikan ringkasan. Saya tidak tahu bukunya jadi tidak bisa menilai akurasinya, tetapi setidaknya uji itu berarti runtuh
Mengasumsikan bahwa ChatGPT tentu menghormati hak cipta dan tidak akan memindai materi berhak cipta tanpa izin tampak cukup naif. Proses discovery mungkin akan memberi jawabannya. Seharusnya ada log tentang apa saja yang dipindai
Menurut saya, argumen yang lebih baik adalah bahwa ini termasuk fair use
Lebih banyak orang mungkin membahas Silverman, dan lebih banyak ringkasan tentangnya mungkin diunggah ke situs pribadi atau tempat lain
Jika cukup masuk akal, kasusnya bisa masuk ke discovery, dan discovery membantu mendekatkan kita pada fakta yang sebenarnya
Kasus ini cukup menarik, karena membedakan antara materi pelatihan yang bisa diakses siapa saja hanya dengan web browser, misalnya blog pribadi, dan materi pelatihan yang “diperoleh secara ilegal dan disediakan massal lewat sistem torrent”
Saya kurang paham mengapa pembedaan seperti ini harus penting secara hukum dalam konteks distribusi LLM. Penulis blog juga tidak memberi persetujuan
Namun, saya penasaran apakah ada masalah hukum khusus dalam menggunakan torrent bajakan untuk pelatihan. Distribusi LLM yang dilatih dengan materi berhak cipta mungkin diizinkan sebagai penggunaan wajar, tetapi adakah dasar hukum untuk mengatakan bahwa agar sah, konten berbayar itu harus dibeli terlebih dahulu? Misalnya, tulisan blog boleh karena bisa diakses gratis, tetapi buku Sarah Silverman tidak boleh karena tidak pernah dibuka gratis dan juga tidak dibayar
Atau pengadilan sama sekali tidak peduli bagaimana sesuatu dibuat? Jika seseorang mengutip satu bagian buku dalam tulisan lepas, orang biasanya tidak ditanya apakah dia membeli buku itu, bisa membuktikan meminjamnya dari perpustakaan atau teman, atau malah mengunduh salinan digital bajakan
Apakah teks itu dibeli atau dibajak mungkin tidak akan penting. Mirip dengan sekarang, ketika sebuah trek audio dicampurkan ke soundtrack film, pertanyaan utamanya bukan apakah trek itu dibeli atau dibajak
Agen artis akan menegosiasikan biaya hak pelatihan para kreator populer secara paket, dan para kreator akan menerima aliran pemasukan kecil yang dibebankan oleh penyedia LLM pada pos biaya API
Hak pelatihan kreator independen akan terus dilanggar seperti sekarang, dan LLM komersial besar yang diduga atau terbukti melanggar hak pelatihan akan dipermalukan atau digugat. LLM independen kemungkinan besar akan tetap luput dari perhatian
Karena itu, jika karya asli pada praktiknya tidak punya pasar komersial, pengadilan lebih mungkin mengakui penggunaan wajar. Namun, fakta bahwa sesuatu tidak aktif dijual saja tidak otomatis menyelesaikan persoalan
Lisensi open source juga tersedia gratis, tetapi tetap bertahan di pengadilan banding
Tidak jelas sampai sejauh mana ini termasuk redistribusi. Juga samar apakah ada perbedaan besar antara model ini dan mesin seperti VCR yang bisa mereproduksi karya asli ketika tombol ditekan
Jika mengunduh materi berhak cipta “bajakan” itu ilegal, maka itulah pelanggarannya, dan sisanya hampir tidak relevan. Menonton film bajakan tidak membuat menceritakan alurnya kepada orang lain menjadi ilegal
Jika suatu karya secara sah hanya bisa diperoleh lewat penjualan, maka salinan itu harus Anda beli sendiri secara sah atau Anda terima dari seseorang yang membelinya secara sah. Misalnya jika Anda menerimanya sebagai hadiah
Saya tidak yakin kita membaca gugatan yang sama
Makalah Meta https://arxiv.org/pdf/2302.13971.pdf mengatakan bahwa mereka memasukkan dua korpus buku dalam dataset pelatihan. Salah satunya adalah Project Gutenberg yang berisi buku domain publik, dan yang lainnya adalah bagian Books3 dari The Pile
Makalah The Pile https://arxiv.org/abs/2101.00027 menjelaskan Books3 sebagai dataset buku yang diturunkan dari salinan isi private tracker Bibliotik
Tautan Shawn Presser adalah https://twitter.com/theshawwn/status/1320282149329784833, dan dia menjelaskan Books3 sebagai “all of bibliotik”, yaitu 196.640 buku yang dijadikan
.txtbiasaSaya tidak punya waktu dan ruang untuk mengunduh file 37GB itu, tetapi jika buku Silverman ada di sana, rasanya ini adalah kasus menang yang pasti
LLaMA milik Meta, sebagaimana tampaknya mereka akui, dilatih dengan buku bajakan
Hasil
$ grep -i "Sarah Silverman" books3.list.txtadalah325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txtAda juga tautan untuk orang yang hanya ingin melihat daftar filenya. Daftarnya sendiri juga file besar: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
Jika pelatihan awal memerlukan proses membuat salinan korpus sebagaimana didefinisikan oleh tracker itu, maka hampir jelas ada tindakan pelanggaran hak cipta dalam proses tersebut
Tetapi apakah Silverman bisa mendapatkan pemulihan lebih dari nilai pembelian buku, mungkin bahkan sampai ganti rugi tiga kali lipat, pada akhirnya tetap bergantung pada isu yang sama, yaitu hubungan antara pelatihan model dan hak cipta
Di sini juga ada isu tambahan tentang apakah status ilegal materi sebelum pelatihan mengubah penilaian itu
Masalah ini tampaknya akan menjadi lebih besar daripada yang dipikirkan sebagian orang
Mungkin akan muncul pasar untuk data pelatihan bersih yang bebas dari potensi klaim hak cipta. Misalnya hanya memakai karya domain publik
Kalau begitu, apakah kita akan tahu itu AI karena terdengar seperti penulis akhir abad ke-18 atau awal abad ke-19?
Namun model yang dengan mudah mereproduksi seluruh teks berhak cipta bisa menghadapi masalah, dan ada juga isu baru seperti model yang berhalusinasi menghasilkan konten pencemaran nama baik
Meski begitu, tampaknya sulit memasukkan jin ini kembali ke dalam botol. Ke depan kemungkinan akan muncul banyak gugatan, pekerjaan penyelarasan, dan jenis penyalahgunaan baru
Ini bisa menjadi sumber pendapatan pasif kecil namun nyata bagi seniman, penulis, dan penyair yang tidak keberatan karya intelektual mereka digunakan dalam set pelatihan
Bernegosiasi satu per satu dengan setiap kreator tidak realistis, tetapi kelompok yang lebih besar seperti penerbit, galeri, guild, atau serikat yang bisa menjamin kualitas anggotanya tampaknya memungkinkan. Mereka bisa menyediakan lisensi dan membagi hasilnya kepada semua anggota
Fakta bahwa LLM menyedot seluruh data ini tanpa persetujuan atau kontrak, bahkan sampai dari situs torrent, jelas tidak etis. Model seperti ini bisa menguntungkan semua pihak
Setelah terselesaikan, ini bisa jadi sama sekali bukan masalah lagi, atau menjadi persoalan trade-off biaya-manfaat yang jauh lebih mudah dipahami
Mungkin akan menjadi campuran karya domain publik dan publikasi pemerintah AS. Publikasi pemerintah AS secara kategoris tidak menjadi objek hak cipta
Jepang sudah menyatakan dirinya sebagai yurisdiksi semacam itu
Saya bukan pengacara, tetapi ini tampaknya bukan contoh yang bagus untuk membuktikan pelanggaran
Ringkasan rinci sebuah buku terdengar seperti penggunaan transformatif yang cukup khas. Khususnya dalam kasus Silverman, makin unsur artistik prosanya dihilangkan dan bukunya diringkas menjadi “fakta”, makin sulit itu menjadi pengganti langsung bagi karya aslinya
Fakta bahwa materi yang diperoleh secara ilegal itu dipakai dalam usaha komersial, dan usaha itu berupa model AI, mungkin justru hal sekunder. Anda tidak bisa memakai materi yang diperoleh secara ilegal untuk menjalankan bisnis
Manusia bisa membaca dan meneliti lalu menghasilkan karya lain
Tetapi “memberi data ke mesin” tampak seperti pelanggaran yang jelas, meskipun di ujung lain tidak keluar hal yang persis sama
Berapa nilai kerugiannya? Apakah kira-kira sebesar harga eceran edisi hardcover?
Terlepas dari apakah LLM merupakan karya turunan dari seluruh materi pelatihannya, klaim ini tampak sangat lemah
Bahkan jika karya itu sendiri sama sekali tidak ada dalam set pelatihan, LLM yang dilatih pada banyak ringkasan tentang karya tersebut bisa saja menghasilkan ringkasan seperti itu sendiri
Secara umum, fakta bahwa sesuatu memiliki pengetahuan tentang suatu hal bukanlah bukti bahwa ia dilatih langsung dengan hal itu
Seseorang bisa menanyakan kepada pakar LLM dan pihak OpenAI apakah kemungkinan besar output itu diturunkan dari karya berhak cipta yang dipermasalahkan
Bagaimanapun, jika logikanya adalah “bukan, itu berasal dari ringkasan berhak cipta milik orang lain, bukan dari bukunya,” bukankah itu berarti orang yang menulis ringkasan tersebut seharusnya menggugat pelanggaran hak cipta sebagai gantinya? Kecuali OpenAI mengatakan “sebenarnya itu bukan ringkasan, melainkan seluruh buku”
Kita telah membaca ribuan karya, jadi apakah itu berarti semua yang kita tulis adalah karya turunan?
Bukti yang lebih meyakinkan adalah jika ChatGPT bisa dipaksa mengeluarkan potongan teks asli alih-alih ringkasan
Saat saya mencobanya sendiri, jawabannya adalah bahwa ia tidak dapat mengakses basis data eksternal atau buku tertentu setelah batas pengetahuan September 2021, dan tidak dapat memberikan kutipan verbatim dari The Bedwetter karya Sarah Silverman atau teks spesifik lainnya
Namun, ia mengatakan bisa menghasilkan teks berdasarkan pelatihan dan pengetahuannya hingga saat itu, lalu menyarankan untuk bertanya tentang Sarah Silverman atau topik terkait
Tampaknya OpenAI tahu bahwa perangkat lunak mereka mengeluarkan materi berhak cipta, jadi mereka memasang filter darurat
Jadi fakta bahwa saat ini ia tidak mengeluarkan isi buku ketika diminta bukanlah bukti bahwa AI itu tidak menghafal blok besar tersebut. Mungkin hanya filter keamanan yang aktif, dan mungkin hanya perlu cara bypass sederhana
Tampaknya para pengembang memang memfilter itu
Menurut Anda bagaimana data teks skala exabyte bisa dimasukkan ke jaringan saraf berukuran gigabyte? Benar, itu kompresi lossy
Karena set pelatihannya berisi banyak ulasan dan ringkasan, bukankah jauh lebih besar kemungkinan model itu menyintesisnya sendiri dari sana?
Sulit sekali percaya bahwa perusahaan AI ini benar-benar berhati-hati, walau sedikit pun, terhadap data yang mereka sedot untuk pelatihan
Mungkin bisa diuji sampai batas tertentu dengan meminta ringkasan buku atau teks yang hanya bisa didapat dari shadow library
Agak lucu juga kalau Getty Images menggugat Stability AI soal AI. Karma, ya?
Jadi Getty boleh mencuri dari orang lain, tapi orang lain tidak boleh mencuri dari Getty? Aku tidak punya kepentingan dalam pertarungan ini, tapi kemunafikan perusahaan-perusahaan seperti ini memang parah sekali