4 poin oleh laeyoung 2025-09-06 | 1 komentar | Bagikan ke WhatsApp
  • Anthropic setuju mencapai penyelesaian gugatan dengan para penulis senilai US$1,5 miliar
  • US$1,5 miliar merupakan ganti rugi terbesar dalam sejarah gugatan hak cipta di Amerika Serikat
  • Anthropic berencana membayar US$3.000 per karya kepada 500.000 penulis

1 komentar

 
GN⁺ 2025-09-07
Komentar Hacker News
  • Lihat artikel via archive.ph

  • Saya ingin memperjelas bahwa yang jadi sengketa di sini bukan pelatihan model itu sendiri
    Pelatihan itu sendiri termasuk fair use, yang bermasalah adalah tindakan menyalin buku secara bajakan, dan hal seperti ini terjadi pada Anthropic secara tidak sengaja dalam proses pengumpulan data
    Membeli buku bekas lalu memindainya untuk pelatihan seharusnya tidak masalah
    Rainbows End adalah novel yang dalam banyak hal melampaui zamannya

    • Menanggapi pendapat bahwa membeli buku bekas lalu memindainya untuk training itu tidak masalah, saya rasa tidak ada perusahaan yang benar-benar akan melakukannya
      Ada puluhan miliar dolar dana VC yang dipertaruhkan, jadi siapa yang mau santai membeli dan memindai buku satu per satu
      Semua orang akan memilih menanggung denda, dan tingkat dendanya masih sangat jauh dari cukup untuk memberi efek jera
      Ini mirip seperti Uber yang pada awalnya menjalankan bisnis tanpa izin taksi, lalu kemudian lolos dari krisis lewat dana investasi untuk membayar denda dan lobi
      Anthropic juga pasti jauh lebih cepat dan efisien memasukkan PDF dan ePUB tanpa DRM sebanyak mungkin daripada meneken lisensi satu per satu dengan tiap penerbit

    • Ini adalah penyelesaian damai, jadi bukan preseden dan bukan pengakuan pelanggaran
      Belum ada yang dipastikan kali ini, baik soal training sebagai fair use maupun soal apakah pemindaian itu diperbolehkan
      Isu ini harus diperdebatkan lagi oleh pihak lain di masa depan

    • Saya setuju bahwa novel Rainbows End memang memprediksi masanya
      Itu buku yang sangat bagus bagi orang yang suka membaca, dan penulisnya, Vernor Vinge, juga memopulerkan istilah singularity
      Info Rainbows End di Goodreads

    • Menurut saya, gagasan bahwa orang harus membeli buku bekas untuk membacanya itu sendiri sudah aneh
      Saya pikir semua orang seharusnya punya hak untuk bebas membaca semua buku yang ada di perpustakaan
      Pengetahuan ada di dunia ini untuk dibagikan, dan orang-orang harus bisa mengaksesnya secara aktif

    • Saya penasaran apa yang akan dipikirkan Aaron Swartz jika ia melihat zaman ketika libgen sudah dianggap hal yang lumrah

  • Ringkasan syarat penyelesaian

  1. Membentuk dana ganti rugi minimal 1,5 miliar dolar, dibayar 3.000 dolar per karya dengan dasar 500.000 karya yang masuk kategori tersebut
    Jika jumlah karya melebihi 500.000, maka totalnya naik 3.000 dolar untuk tiap karya tambahan
  2. Anthropic akan memusnahkan seluruh dataset yang diperoleh dari LibGen dan PiLiMi, terlepas dari kewajiban legal hold
  3. Pembebasan tanggung jawab atas pelanggaran masa lalu hanya berlaku untuk karya yang masuk dalam “Works List” resmi hingga 25 Agustus 2025
    Pelanggaran yang terjadi setelah itu maupun pelanggaran oleh output AI generatif tidak diselesaikan oleh kesepakatan ini
  • Satu poin penting adalah bahwa tidak ada “preseden hukum” sama sekali yang tersisa
    Kalau ada gugatan serupa, semuanya harus diperdebatkan lagi dari awal
    Sering kali penyelesaian seperti ini dipilih hanya ketika mereka menilai akan kalah
    Ini mirip dengan kasus Google yang buru-buru mengambil penyelesaian yang merugikan sebelum ada putusan pengadilan dalam gugatan dengan Epic

  • Penyelesaian ini bukan sekadar soal kompensasi, tetapi juga mencakup pemusnahan dataset
    Menurut artikel, Anthropic mengklaim bahwa mereka “sebenarnya tidak menggunakan materi ilegal tersebut”
    Kalau ada perusahaan AI generatif yang benar-benar melatih model dengan data bajakan seperti ini lalu mengomersialkannya, seluruh industri bisa terguncang
    Saya penasaran berapa banyak kasus seperti ini yang akan muncul lagi ke depan

  • Kalau dihitung begini, bukankah malah jauh lebih murah untuk membeli semua bukunya saja

  • Cukup mengejutkan bahwa jumlah karyanya hanya 500.000
    Soalnya kesannya mereka mengunduh jutaan buku

  • Saya penasaran apakah penulis bisa ikut berpartisipasi langsung

  • “3.000 dolar per karya” terdengar seperti syarat yang sangat bagus untuk melisensikan buku lewat kontrak hak cipta

  • Rasanya seperti semua dana besar yang mereka kumpulkan pada akhirnya memang untuk diberikan ke para penerbit
    Ini membuat saya membayangkan pitch ke investor seperti, “kami akan bersiap menghadapi pengeluaran besar seperti biaya litigasi”

    • Dari artikelnya, Anthropic baru-baru ini menggalang tambahan 13 miliar dolar, dan total investasinya sejak berdiri sudah melebihi 27 miliar dolar
      Bahkan kompensasi sebesar ini pun tetap kecil dibanding dana investasi yang sudah mereka amankan

    • Meski terdengar seperti lelucon, saya rasa ini justru pitch investasi yang bagus
      Menghapus potensi risiko akibat isu hukum akan menaikkan valuasi perusahaan
      Terutama karena hilangnya ketidakpastian hukum membuat daya tarik investasi di sektor sejenis ikut meningkat

    • Sebenarnya saya memang melihat sistem bekerja seperti ini
      Setiap peluang atau keuntungan individual pada akhirnya bergantung pada apakah itu menguntungkan modal yang sudah ada
      Selama ada alasan yang terdengar masuk akal tentang bagaimana uang itu bergerak, dari sudut pandang modal detail-detailnya tidak terlalu penting
      Setelah uang bergerak, yang tersisa hanya membuat cerita yang bisa diterima semua orang
      Penyelesaian kali ini juga membentuk narasi yang bisa memuaskan kedua pihak, yaitu “training itu tidak masalah, yang jadi masalah adalah pembajakan”
      Tampaknya motivasi utamanya adalah menghindari lahirnya preseden bahwa training AI itu sendiri ilegal

    • Anthropic memang menginginkan strategi untuk menghindari regulasi dan bergerak cepat
      Tak ada yang memaksa mereka melakukannya

  • Jika Anda seorang penulis, berikut panduan materi dan prosedur untuk memeriksa apakah karya Anda termasuk di dalamnya
    Cara mencari nama penulis di dataset LibGen
    Daftarkan kontak di situs resmi penyelesaian

  • Dari sudut pandang AI open source, ini cukup disayangkan
    Penggunaan materi bajakan untuk training seharusnya juga dianggap fair use
    Kalau tidak, hanya perusahaan besar yang punya banyak dana seperti Anthropic yang bisa membayar penerbit dalam jumlah besar untuk mengembangkan AI, dan tidak akan ada cara yang realistis untuk membeli puluhan miliar buku lalu memakainya untuk pelatihan

    • Ini hanya penyelesaian damai, bukan preseden dan bukan pengakuan pelanggaran
      Memang benar pada akhirnya hanya perusahaan besar yang mampu membayar engineer mahal dan berinvestasi langsung pada puluhan ribu GPU
      Dalam praktiknya, saya rasa komunitas LLM akar rumput tidak akan terlalu sensitif soal legalitas dataset training

    • Fair use bukan soal bagaimana materi diperoleh, melainkan soal apa yang Anda lakukan setelah mendapat akses yang sah
      Kalau aksesnya tidak sah, pembahasan fair use itu sendiri menjadi tidak mungkin

    • Diskusi ini terasa seolah berangkat dari asumsi bahwa melatih model itu sendiri adalah semacam hak

    • Saya penasaran berapa biaya nyatanya jika membeli semua buku yang diinginkan lalu melatih model dengannya

  • Satu hal yang terlintas adalah apakah ada cara untuk membuat konten yang dipublikasikan di web gratis hanya untuk manusia, tetapi jika diakses crawler AI dianggap pembajakan dan dihukum seperti kasus ini

    • Untuk pertanyaan pertama, hal itu mungkin bisa dilakukan dengan memasang login wall dan prosedur persetujuan kontrak, tetapi rincian klausul kontrak seperti besaran ganti rugi tetap perlu ditinjau pengacara

    • Sebenarnya saya tidak ingin merekomendasikan cara ini
      Masalahnya, tool otomatis apa pun, seperti user script, bisa saja ikut dianggap melanggar

    • Tampaknya juga bisa dilakukan dengan menambahkan sistem captcha yang dapat dianggap sebagai langkah pengamanan DMCA
      Cara lain yang mungkin adalah menyediakan konten yang sama lewat API berbayar

    • Saya rasa ini tidak mungkin, baik secara hukum maupun teknis

    • Mungkin bisa dicoba, tetapi hukum hak cipta punya banyak klausul pengecualian sehingga sangat rumit
      Misalnya, meskipun Anda menulis syarat seperti “semua penggunaan boleh, kecuali untuk kalangan akademik”, universitas belum tentu punya kewajiban untuk mematuhinya
      Kalau pengadilan sudah memutuskan bahwa training LLM adalah transformative use, menambahkan klausul “dilarang untuk training LLM” juga tidak memberi cara penegakan yang secara khusus lebih kuat
      Ini sama seperti musisi yang menyatakan, “musik saya hanya boleh didengar utuh dan tidak boleh disampling”, tetapi pernyataan itu belum tentu efektif
      Tujuan hak cipta adalah “mendorong kemajuan ilmu pengetahuan dan seni yang bermanfaat”, sehingga jaminan akses bagi kalangan akademik dipandang lebih penting daripada kontrol pribadi penulis
      Buku teks juga dilindungi hak cipta, dan jika benar ada pengecualian fair use akademik, secara teori penyalinannya bisa saja bebas, tetapi fakta bahwa praktiknya tidak demikian memang membingungkan

  • Dari perspektif internasional, saya penasaran efek hukum atau penyelesaian seperti ini berlaku sejauh mana di tiap negara, dan apakah gugatan baru masih bisa muncul di negara lain beserta sanksi tambahan

  • Bagi industri AI Tiongkok, ini terasa seperti keuntungan besar
    Perusahaan Barat akan makin dibatasi dalam pengumpulan data dan pelatihan, sementara AI dari Tiongkok atau negara lain berada pada posisi untuk memanfaatkan jauh lebih banyak data dan data yang lebih baik