Anthropic setuju membayar US$1,5 miliar untuk mencapai penyelesaian gugatan dengan para penulis buku
(nytimes.com)- Anthropic setuju mencapai penyelesaian gugatan dengan para penulis senilai US$1,5 miliar
- US$1,5 miliar merupakan ganti rugi terbesar dalam sejarah gugatan hak cipta di Amerika Serikat
- Anthropic berencana membayar US$3.000 per karya kepada 500.000 penulis
1 komentar
Komentar Hacker News
Lihat artikel via archive.ph
Saya ingin memperjelas bahwa yang jadi sengketa di sini bukan pelatihan model itu sendiri
Pelatihan itu sendiri termasuk fair use, yang bermasalah adalah tindakan menyalin buku secara bajakan, dan hal seperti ini terjadi pada Anthropic secara tidak sengaja dalam proses pengumpulan data
Membeli buku bekas lalu memindainya untuk pelatihan seharusnya tidak masalah
Rainbows End adalah novel yang dalam banyak hal melampaui zamannya
Menanggapi pendapat bahwa membeli buku bekas lalu memindainya untuk training itu tidak masalah, saya rasa tidak ada perusahaan yang benar-benar akan melakukannya
Ada puluhan miliar dolar dana VC yang dipertaruhkan, jadi siapa yang mau santai membeli dan memindai buku satu per satu
Semua orang akan memilih menanggung denda, dan tingkat dendanya masih sangat jauh dari cukup untuk memberi efek jera
Ini mirip seperti Uber yang pada awalnya menjalankan bisnis tanpa izin taksi, lalu kemudian lolos dari krisis lewat dana investasi untuk membayar denda dan lobi
Anthropic juga pasti jauh lebih cepat dan efisien memasukkan PDF dan ePUB tanpa DRM sebanyak mungkin daripada meneken lisensi satu per satu dengan tiap penerbit
Ini adalah penyelesaian damai, jadi bukan preseden dan bukan pengakuan pelanggaran
Belum ada yang dipastikan kali ini, baik soal training sebagai fair use maupun soal apakah pemindaian itu diperbolehkan
Isu ini harus diperdebatkan lagi oleh pihak lain di masa depan
Saya setuju bahwa novel Rainbows End memang memprediksi masanya
Itu buku yang sangat bagus bagi orang yang suka membaca, dan penulisnya, Vernor Vinge, juga memopulerkan istilah
singularityInfo Rainbows End di Goodreads
Menurut saya, gagasan bahwa orang harus membeli buku bekas untuk membacanya itu sendiri sudah aneh
Saya pikir semua orang seharusnya punya hak untuk bebas membaca semua buku yang ada di perpustakaan
Pengetahuan ada di dunia ini untuk dibagikan, dan orang-orang harus bisa mengaksesnya secara aktif
Saya penasaran apa yang akan dipikirkan Aaron Swartz jika ia melihat zaman ketika libgen sudah dianggap hal yang lumrah
Ringkasan syarat penyelesaian
Jika jumlah karya melebihi 500.000, maka totalnya naik 3.000 dolar untuk tiap karya tambahan
Pelanggaran yang terjadi setelah itu maupun pelanggaran oleh output AI generatif tidak diselesaikan oleh kesepakatan ini
Satu poin penting adalah bahwa tidak ada “preseden hukum” sama sekali yang tersisa
Kalau ada gugatan serupa, semuanya harus diperdebatkan lagi dari awal
Sering kali penyelesaian seperti ini dipilih hanya ketika mereka menilai akan kalah
Ini mirip dengan kasus Google yang buru-buru mengambil penyelesaian yang merugikan sebelum ada putusan pengadilan dalam gugatan dengan Epic
Penyelesaian ini bukan sekadar soal kompensasi, tetapi juga mencakup pemusnahan dataset
Menurut artikel, Anthropic mengklaim bahwa mereka “sebenarnya tidak menggunakan materi ilegal tersebut”
Kalau ada perusahaan AI generatif yang benar-benar melatih model dengan data bajakan seperti ini lalu mengomersialkannya, seluruh industri bisa terguncang
Saya penasaran berapa banyak kasus seperti ini yang akan muncul lagi ke depan
Kalau dihitung begini, bukankah malah jauh lebih murah untuk membeli semua bukunya saja
Cukup mengejutkan bahwa jumlah karyanya hanya 500.000
Soalnya kesannya mereka mengunduh jutaan buku
Saya penasaran apakah penulis bisa ikut berpartisipasi langsung
“3.000 dolar per karya” terdengar seperti syarat yang sangat bagus untuk melisensikan buku lewat kontrak hak cipta
Rasanya seperti semua dana besar yang mereka kumpulkan pada akhirnya memang untuk diberikan ke para penerbit
Ini membuat saya membayangkan pitch ke investor seperti, “kami akan bersiap menghadapi pengeluaran besar seperti biaya litigasi”
Dari artikelnya, Anthropic baru-baru ini menggalang tambahan 13 miliar dolar, dan total investasinya sejak berdiri sudah melebihi 27 miliar dolar
Bahkan kompensasi sebesar ini pun tetap kecil dibanding dana investasi yang sudah mereka amankan
Meski terdengar seperti lelucon, saya rasa ini justru pitch investasi yang bagus
Menghapus potensi risiko akibat isu hukum akan menaikkan valuasi perusahaan
Terutama karena hilangnya ketidakpastian hukum membuat daya tarik investasi di sektor sejenis ikut meningkat
Sebenarnya saya memang melihat sistem bekerja seperti ini
Setiap peluang atau keuntungan individual pada akhirnya bergantung pada apakah itu menguntungkan modal yang sudah ada
Selama ada alasan yang terdengar masuk akal tentang bagaimana uang itu bergerak, dari sudut pandang modal detail-detailnya tidak terlalu penting
Setelah uang bergerak, yang tersisa hanya membuat cerita yang bisa diterima semua orang
Penyelesaian kali ini juga membentuk narasi yang bisa memuaskan kedua pihak, yaitu “training itu tidak masalah, yang jadi masalah adalah pembajakan”
Tampaknya motivasi utamanya adalah menghindari lahirnya preseden bahwa training AI itu sendiri ilegal
Anthropic memang menginginkan strategi untuk menghindari regulasi dan bergerak cepat
Tak ada yang memaksa mereka melakukannya
Jika Anda seorang penulis, berikut panduan materi dan prosedur untuk memeriksa apakah karya Anda termasuk di dalamnya
Cara mencari nama penulis di dataset LibGen
Daftarkan kontak di situs resmi penyelesaian
Dari sudut pandang AI open source, ini cukup disayangkan
Penggunaan materi bajakan untuk training seharusnya juga dianggap fair use
Kalau tidak, hanya perusahaan besar yang punya banyak dana seperti Anthropic yang bisa membayar penerbit dalam jumlah besar untuk mengembangkan AI, dan tidak akan ada cara yang realistis untuk membeli puluhan miliar buku lalu memakainya untuk pelatihan
Ini hanya penyelesaian damai, bukan preseden dan bukan pengakuan pelanggaran
Memang benar pada akhirnya hanya perusahaan besar yang mampu membayar engineer mahal dan berinvestasi langsung pada puluhan ribu GPU
Dalam praktiknya, saya rasa komunitas LLM akar rumput tidak akan terlalu sensitif soal legalitas dataset training
Fair use bukan soal bagaimana materi diperoleh, melainkan soal apa yang Anda lakukan setelah mendapat akses yang sah
Kalau aksesnya tidak sah, pembahasan fair use itu sendiri menjadi tidak mungkin
Diskusi ini terasa seolah berangkat dari asumsi bahwa melatih model itu sendiri adalah semacam hak
Saya penasaran berapa biaya nyatanya jika membeli semua buku yang diinginkan lalu melatih model dengannya
Satu hal yang terlintas adalah apakah ada cara untuk membuat konten yang dipublikasikan di web gratis hanya untuk manusia, tetapi jika diakses crawler AI dianggap pembajakan dan dihukum seperti kasus ini
Untuk pertanyaan pertama, hal itu mungkin bisa dilakukan dengan memasang login wall dan prosedur persetujuan kontrak, tetapi rincian klausul kontrak seperti besaran ganti rugi tetap perlu ditinjau pengacara
Sebenarnya saya tidak ingin merekomendasikan cara ini
Masalahnya, tool otomatis apa pun, seperti user script, bisa saja ikut dianggap melanggar
Tampaknya juga bisa dilakukan dengan menambahkan sistem captcha yang dapat dianggap sebagai langkah pengamanan DMCA
Cara lain yang mungkin adalah menyediakan konten yang sama lewat API berbayar
Saya rasa ini tidak mungkin, baik secara hukum maupun teknis
Mungkin bisa dicoba, tetapi hukum hak cipta punya banyak klausul pengecualian sehingga sangat rumit
Misalnya, meskipun Anda menulis syarat seperti “semua penggunaan boleh, kecuali untuk kalangan akademik”, universitas belum tentu punya kewajiban untuk mematuhinya
Kalau pengadilan sudah memutuskan bahwa training LLM adalah
transformative use, menambahkan klausul “dilarang untuk training LLM” juga tidak memberi cara penegakan yang secara khusus lebih kuatIni sama seperti musisi yang menyatakan, “musik saya hanya boleh didengar utuh dan tidak boleh disampling”, tetapi pernyataan itu belum tentu efektif
Tujuan hak cipta adalah “mendorong kemajuan ilmu pengetahuan dan seni yang bermanfaat”, sehingga jaminan akses bagi kalangan akademik dipandang lebih penting daripada kontrol pribadi penulis
Buku teks juga dilindungi hak cipta, dan jika benar ada pengecualian fair use akademik, secara teori penyalinannya bisa saja bebas, tetapi fakta bahwa praktiknya tidak demikian memang membingungkan
Dari perspektif internasional, saya penasaran efek hukum atau penyelesaian seperti ini berlaku sejauh mana di tiap negara, dan apakah gugatan baru masih bisa muncul di negara lain beserta sanksi tambahan
Bagi industri AI Tiongkok, ini terasa seperti keuntungan besar
Perusahaan Barat akan makin dibatasi dalam pengumpulan data dan pelatihan, sementara AI dari Tiongkok atau negara lain berada pada posisi untuk memanfaatkan jauh lebih banyak data dan data yang lebih baik