Anthropic memotong dan memindai jutaan buku bekas untuk melatih Claude, serta mengunduh 7 juta salinan bajakan

(businessinsider.com)

6 poin oleh GN⁺ 2025-07-08 | 1 komentar | Bagikan ke WhatsApp

Anthropic disebut hakim telah memotong dan memindai ratusan ribu hingga jutaan buku bekas untuk melatih chatbot AI Claude
Putusan itu juga menyebut bahwa perusahaan secara terpisah mengunduh lebih dari 7 juta buku bajakan
Hakim menilai bahwa mendigitalkan buku yang dibeli dan menggunakannya sebagai data pelatihan termasuk penggunaan wajar
Sebaliknya, penggunaan data dari salinan bajakan tidak diakui sebagai penggunaan wajar dan ditekankan sebagai pelanggaran hak cipta
Putusan ini dinilai sebagai preseden penting terkait penerapan hak cipta dalam pelatihan model AI

Ikhtisar

Hakim William Alsup dari Pengadilan Distrik AS untuk Distrik Utara California menganalisis bahwa Anthropic menggunakan berbagai materi seperti buku, unggahan media sosial, dan video sebagai sumber data untuk melatih chatbot AI Claude
Anthropic menginvestasikan jutaan dolar untuk membeli buku bekas dalam jumlah besar, lalu melepas jilid dan memotong halaman untuk mengubahnya menjadi file digital
File hasil konversi itu disimpan di perpustakaan riset internal, sementara buku fisiknya dibuang
Selain itu, Anthropic yang didukung oleh Amazon dan Alphabet juga secara terpisah mengunduh lebih dari 7 juta buku bajakan dan menggunakannya untuk melatih model Claude

Proses pemanfaatan buku dan salinan bajakan

Salah satu pendiri Anthropic, Ben Mann, mengakui bahwa pada 2021 ia secara ilegal mengunduh sedikitnya 5 juta buku dari Library Genesis
Pada 2022, ia juga mengunduh sedikitnya 2 juta buku tambahan dari Pirate Library Mirror
Salah satu pendiri sekaligus CEO Dario Amodei disebut mengatakan bahwa ia "lebih memilih mencuri (steal) buku untuk menghindari kerepotan hukum, praktik, dan bisnis"
Pada 2023, tiga penulis mengajukan gugatan class action terhadap Anthropic dengan alasan perusahaan menggunakan salinan bajakan buku mereka tanpa izin

Penilaian hakim: membedakan penggunaan wajar buku dan penggunaan versi bajakan

Poin 1: penggunaan wajar diakui
- Hakim menilai digitalisasi buku dalam skala besar oleh Anthropic dan penggunaannya sebagai data pelatihan AI sebagai sesuatu yang "sangat transformatif (exceedingly transformative)"
- Dalam putusan disebutkan bahwa "LLM Anthropic tidak belajar untuk sekadar menyalin atau menggantikan dokumen yang ada, melainkan untuk menciptakan sesuatu yang sepenuhnya berbeda"
- Tindakan perusahaan mendigitalkan buku yang dibeli sendiri lalu menyimpannya di perpustakaan termasuk penggunaan wajar
Poin 2: penggunaan salinan bajakan bukan penggunaan wajar
- Hakim dengan tegas mengkritik tindakan Anthropic yang memanfaatkan buku bajakan sebagai data
- Disebutkan bahwa "Anthropic tidak memiliki hak untuk menggunakan buku bajakan di perpustakaan pusat, dan pembangunan perpustakaan permanen serbaguna dengan sendirinya tidak membenarkan penggunaan wajar"

Dampak dan tren industri

Putusan ini menjadi salah satu kasus pertama yang membahas apakah penggunaan buku berhak cipta sebagai data pelatihan model AI termasuk dalam penggunaan wajar
Belakangan ini, kreator, seniman, dan media juga terus mengajukan gugatan serupa terhadap OpenAI dan berbagai perusahaan AI generatif lainnya
Industri AI berpendapat bahwa pelatihan model AI termasuk dalam cakupan penggunaan wajar, sementara para kreator menilai hak mereka telah dilanggar
Baru-baru ini, Disney mengajukan gugatan terhadap perusahaan pembuat gambar AI Midjourney atas dugaan pelanggaran hak cipta karakter miliknya

Kesimpulan

Bagian putusan terkait digitalisasi buku dan penggunaan wajar oleh Anthropic dinilai sebagai preseden yang menjadi titik balik bagi riset AI dan penafsiran hak cipta
Sebaliknya, pemanfaatan salinan bajakan ditegaskan sebagai pelanggaran hak cipta yang jelas, sehingga menjadi acuan penting bagi standar pengadaan data pelatihan AI ke depan

1 komentar

GN⁺ 2025-07-08

Opini Hacker News

Tautan artikel asli
Ringkasan penting putusan hakim: penggunaan buku berhak cipta oleh Anthropic untuk pelatihan AI dinilai sebagai penggunaan wajar karena “sangat transformatif”. Anthropic berargumen bahwa mereka hanya menyimpan secara digital buku fisik yang mereka beli dalam sebuah perpustakaan pusat, tanpa membuat salinan baru atau mendistribusikannya kembali. “Membajak perpustakaan” jelas merupakan pelanggaran hak cipta. Menariknya, hakim juga mengakui bahwa memindai dan mendigitalkan perpustakaan untuk penggunaan internal itu dimungkinkan, dan pemanfaatannya untuk pelatihan AI juga dinilai sebagai penggunaan wajar.
- Di sisi lain, bagian ketika hakim menyinggung poin lain juga penting. Hakim dengan jelas menarik garis bahwa penggunaan buku bajakan oleh Anthropic seolah-olah sebagai perpustakaan pusat bukanlah penggunaan wajar. Artinya, membeli buku secara langsung lalu memindainya secara fisik untuk pelatihan AI adalah penggunaan wajar, sedangkan memakai versi bajakan bukan penggunaan wajar.
- Menurut saya putusan ini bukan hal baru. Sekitar 10 tahun lalu Google sudah membuat preseden bahwa mengubah buku ke bentuk digital itu diperbolehkan.
- Setahu saya, dalam sidang lanjutan terkait Meta, hakim Vince Chhabria pernah menolak argumen penggunaan wajar tautan terkait (saya bukan ahli hukum).
- Saya penasaran apakah prinsip ‘fruit of the poisonous tree’ juga berlaku di sini.
- Kalau mengingat dulu Aaron Swartz hampir dijatuhi hukuman seumur hidup untuk hal yang nyaris sama, terasa sekali betapa besarnya perubahan zaman.
Contoh kasus hukuman nyata terhadap individu yang terlibat dalam pelanggaran hak cipta skala besar artikel referensi
- Saya justru mengira orang akan menyebut kasus Aaron Swartz.
- Setelah saya klik artikelnya, ternyata ini pada dasarnya tentang sebuah bisnis yang ‘menjual’ software bajakan senilai jutaan dolar. Bukan sekadar memakai sendiri, tapi jelas mencuri lalu menjual lagi ke orang lain demi keuntungan. Ini kasus yang sama sekali berbeda dari penggunaan transformatif atau penggunaan pribadi.
- Anthropic tidak menjual materi tersebut. Kalau seseorang membaca buku lalu merangkum atau mengutip sebagian, rasanya juga tidak akan dipenjara. Tapi kalau melawan Autodesk bisa dihukum 7 tahun, itu malah lebih berat daripada perampokan, dan cukup menunjukkan realitas dunia hukum.
- Saya rasa kasus sekadar menggandakan dan menjual software bajakan sangat berbeda dari kasus seperti Anthropic yang memanfaatkan buku. Anthropic tidak pernah membuat lalu mengedarkan ‘salinan’ dari buku tertentu.
- Leluconnya: kalau mau melanggar hukum, dirikan dulu badan hukum supaya tanggung jawabnya bisa dialihkan. Sindiran terhadap kenyataan bahwa kalau modalnya cukup besar, pelanggaran hukum pun bisa ditutup-tutupi.
Ada indikasi bahwa perusahaan seperti Spotify juga membesarkan bisnisnya di awal dengan bertumpu pada materi ilegal. Dulu sempat beredar rumor bahwa file mp3 ‘bajakan’ dipakai dalam beta test. Ada juga kesaksian orang yang pernah mengunduh trek dengan tag ‘Scene’ artikel terkait
- Crunchyroll juga awalnya merupakan situs streaming anime bajakan, lalu menjadi legal setelah memperoleh lisensi resmi. Mulai pada 2006, mendapat investasi VC pada 2008, dan menandatangani lisensi pada 2009 artikel Forbes, artikel Venturebeat
- Sebenarnya bukan cuma Spotify, hampir semua raksasa teknologi menghasilkan uang dengan beroperasi di wilayah abu-abu hukum atau mengabaikan regulasi—yakni dengan ‘mendisrupsi’ pasar. Karena keuntungan dari tindakan itu jauh lebih besar daripada sanksi hukumnya. Sejak Amazon, menurut saya praktik mengabaikan ‘persaingan yang adil’ dan membuang harga dengan modal investasi juga makin sering. Raksasa teknologi AS pada dasarnya tumbuh sambil hampir melumpuhkan hukum.
- ‘Audio yang tidak diperoleh secara resmi’ dan ‘audio tanpa hak cipta’ adalah konsep yang berbeda. Bisa saja lisensi streaming sudah ada, tetapi file sumber aslinya tidak ada.
- Juga disebut bahwa UI awal Spotify nyaris merupakan salinan 1:1 dari Limewire.
- Google Music juga dulu punya model di mana pengguna mengunggah sendiri mp3 dan sebagainya, dan saat itu ada argumen bahwa status ilegal file tersebut bukan tanggung jawab Google. Amazon juga pernah punya layanan serupa tulisan referensi
Orang-orang yang katanya sedang membangun masa depan AI justru mengorbankan etika dengan cara seperti ini, dan itu patut dipertanyakan. Tiongkok selama puluhan tahun dikenai pembatasan karena masalah barang palsu, jadi kalau Anthropic juga terlibat dalam aktivitas ilegal, menurut saya pembatasan ekspor terhadap mereka juga bisa dibenarkan.
- Saya bertanya-tanya apa sebenarnya yang pernah kita lakukan terhadap masalah barang palsu dari Tiongkok. Kebanyakan ‘hukuman’ hanya berupa pencegahan impor barang palsu yang ketahuan di tempat, tanpa sanksi yang benar-benar berarti. Justru perusahaan AS selama ini juga mengalihdayakan produksi ke sana dan ikut menciptakan lingkungan pencurian IP.
- Yang benar-benar tidak etis justru perusahaan yang bahkan tidak membeli bukunya sama sekali. Pada kenyataannya, kalau punya kekuatan ekonomi dan hukum, akan jauh lebih mudah lolos.
- Ini kritik terhadap standar ganda dan impunitas bagi mereka yang berkuasa. Dengan menyinggung contoh seperti mengemudi mabuk, kekerasan, dan penggelapan pajak, komentarnya menekankan bahwa seluruh masyarakat goyah mengikuti kekuasaan, kekayaan, dan pengaruh. Kalau penerbit menyalin bukuku, aku bisa menggugat. Tapi kalau perusahaan AI yang mencurinya, bahkan menggugat pun sulit karena mereka punya firma hukum besar. Kesetaraan di dunia nyata hanyalah ilusi, dan pihak yang sedang di atas selalu berada di posisi lebih menguntungkan.
- Seperti slogan Facebook, ini zaman ‘bergerak cepat sambil merusak’.
- Saya tidak paham kenapa memanfaatkan informasi dalam buku dianggap tidak etis. Anthropic tidak menjual ulang buku-buku itu. Informasi dalam buku itu sendiri tidak dilindungi hak cipta. Mengutip selalu diperbolehkan.
Ada tuduhan bahwa Ben Mann, salah satu pendiri Anthropic, pada 2021 mengunduh jutaan buku bajakan dari Library Genesis. Mencuri tetap mencuri. Sudah saatnya berhenti dengan standar ganda.
- Kebanyakan pembajakan bertujuan sekadar ‘konsumsi pribadi’, tetapi mengejar ‘keuntungan’ lewat barang bajakan adalah level yang berbeda.
- Ini bukan sekadar pencurian biasa. Mencuri secara terarah demi mendominasi pasar dan menyingkirkan perusahaan yang berperilaku etis justru menimbulkan kerugian jauh lebih besar bagi banyak penulis. Saya rasa ini lebih mendekati ‘kejahatan terorganisir’.
- Ungkapan “mencuri tetap mencuri” terlalu menyederhanakan. Bahkan kalau seseorang keluar sambil membawa barang dagangan, hukumannya bisa sangat bervariasi tergantung situasi. Detail itu penting.
- Kita harus mendefinisikan dulu secara tepat apa yang dimaksud dengan ‘pencurian’.
- “Menyalin itu berbeda dari mencuri.” Jika seseorang menggandakan sesuatu, pemilik aslinya tetap memiliki salinannya. Kalau penyalinan disebut ‘pencurian’, maka argumen ekstrem lain pun bisa ikut dianggap sah.
Dalam kenyataan pelatihan data AI skala besar, menggunakan barang bajakan dan membayar denda jauh lebih murah daripada membeli dan memproses jutaan buku satu per satu. Tentu ini tidak bisa dibenarkan, tetapi kalau berada di posisi mereka sendiri, ada keterputusan yang membuat orang bisa saja memilih hal yang sama demi efisiensi.
- Masalah logika ini adalah bahwa banyak guru dan penulis yang telah menghabiskan waktu bertahun-tahun menulis buku kemungkinan besar bahkan sulit menggugat perusahaan besar atas pelanggaran hak cipta. Akibatnya para penulis akan berhenti menulis, dan menurut sebagian orang gejala itu sudah mulai terlihat.
- Pelanggaran yang disengaja bisa didenda hingga $150.000 per hak cipta. Kalau semua materi yang dilanggar benar-benar diputus satu per satu, nilainya bisa melebihi kapitalisasi pasar Anthropic. Dalam praktiknya, putusan yang terasa di atas hukum seperti itu tidak akan diterapkan, dan standar hukum yang digunakan jelas berbeda dibanding remaja pengelola Napster pada awal 2000-an.
- Ada juga yang bertanya, “Bukankah pakai barang bajakan bisa masuk penjara?” Kalau merujuk pada peringatan FBI di DVD, secara prinsip itu memang kejahatan berat.
- Sebenarnya menurut artikel, ada banyak juga kasus di mana Anthropic membeli buku dalam jumlah besar secara resmi lalu memakainya untuk pelatihan. Semua buku dalam gugatan terkait mencakup salinan yang dibeli secara sah. Buku bekas lebih murah jika dibeli dalam jumlah besar.
- Kalau benar-benar ingin risiko hukum ‘nol’, prinsipnya mereka harus menghubungi penerbit langsung dan menegosiasikan lisensi untuk pelatihan AI. Itulah cara yang dilakukan semua perusahaan media seperti Netflix dan Spotify. Jadi saya heran mengapa terhadap perusahaan AI prinsip ini dipandang berbeda.
Kalau saya memiliki sebuah buku, saya rasa memindainya ke komputer saya sendiri seharusnya legal. Saya juga agak bersimpati pada posisi perusahaan AI. Rasanya aturan hak cipta makin lama makin diperketat dengan sasaran AI. Kalau saya mendapat ide dari isi sebuah buku lalu menciptakan sesuatu, saya juga merasa tidak punya kewajiban membayar balik ke hak cipta buku itu.
- Harus membaca isi artikelnya dengan benar. Di teksnya juga jelas disebut bahwa buku milik sendiri boleh dipindai dan dipakai untuk pelatihan AI. Justru putusan ini adalah kabar besar yang menguntungkan perusahaan AI. Saya tidak paham kenapa ada yang menafsirkannya sebaliknya.
- Hal yang sering terlewat dalam perdebatan penggunaan wajar adalah apakah penggunaan tersebut secara nyata memberi dampak buruk pada pasar milik pemegang hak cipta. Sulit membuktikan bahwa seseorang membaca buku, belajar darinya, lalu bersaing dengan penulis sehingga benar-benar memengaruhi pasar. Tetapi penurunan pendapatan penulis akibat model AI yang dirilis setelah dilatih dalam skala besar relatif lebih mudah dibuktikan. Jika AI bisa menggantikan penulis dengan bertumpu pada karya mereka, itu tidak sejalan dengan tujuan penggunaan wajar.
- Hukum hak cipta terasa tidak memiliki struktur yang benar-benar konsisten secara logis. Tujuan awalnya—kebebasan informasi dan dorongan inovasi—juga samar. Penafsiran hukum bergantung pada subjektivitas hakim. Pada akhirnya logika nyata hukum adalah ‘uang’, dan kekuatan hak cipta tetap dipertahankan oleh modal besar. Kalau sekarang justru menjadi penghalang bagi modal, mungkin kita akan melihat bagaimana logika DRM dan hak cipta yang selama ini berlaku berubah lagi.
- Begitu skalanya membesar, semuanya bekerja secara berbeda. Hak dan norma untuk individu tidak bisa diterapkan begitu saja pada sistem raksasa, dan secara sosial pemisahan seperti ini memang diperlukan. Pihak yang punya uang membuat masalah ini bisa diabaikan, dan akar kekacauan ini adalah minimnya regulasi terhadap ‘skala’.
- Ringkasnya: hakim mengatakan penggunaan buku untuk melatih Claude adalah penggunaan wajar, tetapi penggunaan ‘versi bajakan’ adalah ilegal.
Saya juga merasa pengetatan pemblokiran unduhan oleh YouTube belakangan ini mungkin bertujuan mencegah perusahaan AI pesaing mengumpulkan dataset.
Mudah sekali menyalahkan orang lain, tetapi komentar teratas di thread ini pada akhirnya juga hanya menautkan konten yang ‘dicuri’ dari Business Insider. Kenyataannya, tak seorang pun benar-benar adil.
- Saya penasaran bagaimana itu bisa dianggap konten yang ‘dicuri’ dari Business Insider. Artikel yang sama juga bisa dilihat di situs resminya, dan cache browser atau arsip pada dasarnya tidak berbeda secara esensial.
- Ini komentar terbaik di thread hari ini. Menarik melihat akrobat logika yang terjadi di sini.

Anthropic memotong dan memindai jutaan buku bekas untuk melatih Claude, serta mengunduh 7 juta salinan bajakan

Ikhtisar

Proses pemanfaatan buku dan salinan bajakan

Penilaian hakim: membedakan penggunaan wajar buku dan penggunaan versi bajakan

Dampak dan tren industri

Kesimpulan

Bacaan terkait

1 komentar

Opini Hacker News