Tekanan Hak Cipta yang Lebih Besar Akan Menghampiri AI Generatif

(garymarcus.substack.com)

2 poin oleh GN⁺ 2023-12-31 | 1 komentar | Bagikan ke WhatsApp

Setelah gugatan New York Times terhadap OpenAI, sejauh mana AI generatif harus bertanggung jawab atas pelanggaran hak cipta pada tahap pelatihan dan output muncul sebagai isu yang lebih besar
Inti gugatan tersebut adalah bahwa chatbot dapat mereproduksi teks hampir sama persis, dan eksperimen Marcus serta Reid Southen menunjukkan bahwa DALL-E juga dapat menghasilkan pengulangan serupa pada gambar
Meski ada pengaman seperti pemblokiran nama diri, prompt yang tidak secara langsung menuliskan nama karakter atau film tetap dapat menghasilkan keluaran yang mirip dengan SpongeBob SquarePants, RoboCop, dan karakter video game
Sistem saat ini tidak memberi tahu pengguna tentang informasi sumber dan potensi pelanggaran dari sumber pelatihan maupun hasil generasi, sehingga pengguna bisa tanpa sadar membuat hasil yang melanggar
Marcus menilai kontroversi pelanggaran akan terus berlanjut sampai muncul arsitektur baru yang memungkinkan pelacakan sumber, dan melihat gugatan New York Times bisa menjadi awal dari lebih banyak gugatan

Gugatan New York Times dan Eksperimen Pengulangan Gambar

Pada saat New York Times mengajukan gugatan terhadap OpenAI, Gary Marcus melakukan eksperimen bersama Reid Southen, seorang concept artist di industri film
- Southen diperkenalkan sebagai sosok yang memiliki pengalaman terkait Marvel, DC, Matrix Resurrections, Hunger Games, dan lainnya
- Laporan lengkapnya dijadwalkan rilis minggu depan, dan disebut akan dibahas lebih lanjut di IEEE Spectrum pada 3 Januari
Inti gugatan tersebut adalah bahwa chatbot OpenAI dapat mereproduksi teks hampir sama persis dengan aslinya
Dalam eksperimen Marcus dan Southen, disebutkan bahwa ketika perangkat lunak gambar OpenAI digunakan melalui Bing, gambar juga dapat mengalami pengulangan yang sama persis atau sangat mirip dengan sumbernya

Generasi Serupa yang Tidak Dapat Dicegah oleh Pengaman

DALL-E diketahui memiliki pengaman yang sebagian memblokir nama diri dan upaya pelanggaran yang disengaja, tetapi disebut tidak bekerja secara andal
Potensi pelanggaran dapat muncul meski pengguna tidak berniat melanggar secara langsung atau tidak menyebut nama karakter maupun film
- Disebutkan bahwa hasil terkait dapat muncul dari prompt singkat yang tidak menyebut SpongeBob SquarePants
- Contoh lain yang diangkat mencakup kasus tanpa menyebut RoboCop, karakter video game, dan hasil yang berpotensi melanggar merek dagang
- Pengguna X Blanket_Man01 dan Justine Moore dari A16Z juga disebut menemukan fenomena serupa secara independen

Masalah Black Box yang Sumbernya Tidak Diketahui

Menurut Marcus, masalah inti AI generatif terletak pada struktur yang tidak mengungkapkan sumber pelatihan dan sumber hasil generasi kepada pengguna
- Sistem seperti DALL-E dan ChatGPT dilatih dengan materi berhak cipta
- OpenAI tidak mengungkapkan secara transparan materi apa yang digunakan untuk pelatihan
- Sistem AI generatif dapat membuat materi yang berpotensi melanggar hak cipta
- Sistem tidak memberi tahu pengguna ketika hasil seperti itu muncul
- Informasi sumber gambar yang dihasilkan juga tidak diberikan
- Pengguna mungkin tidak tahu apakah gambar yang mereka buat merupakan pelanggaran
Sistem saat ini seperti DALL-E dan ChatGPT dianggap mirip black box, dan dengan konfigurasi saat ini, atribusi terhadap materi sumber dinilai sulit dilakukan
- Disebutkan bahwa sejumlah perusahaan sedang melakukan riset terkait, tetapi Marcus menyatakan belum mengetahui solusi yang meyakinkan
- Ia menilai pelanggaran dapat terus berlanjut sampai muncul arsitektur baru yang mampu melacak sumber teks atau gambar generatif secara andal
- Sistem yang baik seharusnya memberikan daftar sumber kepada pengguna, tetapi sistem saat ini tidak demikian

Penyebaran Gugatan dan Risiko bagi Microsoft

Gugatan New York Times dinilai kemungkinan besar menjadi kasus pertama dari banyak gugatan
- Dalam jajak pendapat yang dilakukan Marcus di X, mayoritas memperkirakan akan ada penyelesaian damai
- Mengenai besaran penyelesaian, banyak responden memperkirakan lebih dari US$100 juta, dan 20% memperkirakan US$1 miliar
- Jika meluas ke studio film, perusahaan video game, surat kabar lain, dan sebagainya, skalanya disebut dapat membesar
Karena contoh-contoh tersebut terjadi melalui DALL-E di Bing, Microsoft juga dinilai berada dalam risiko tanggung jawab

1 komentar

GN⁺ 2023-12-31

Pendapat Hacker News

Banyak orang terlalu mudah menerima narasi korporat bahwa hal-hal seperti ini benar-benar bisa dimiliki oleh seseorang
Siapa sebenarnya yang memiliki cerita Putri Salju dan Cinderella? Cerita-cerita ini bukan berasal dari Disney, melainkan bagian dari cerita rakyat yang diwariskan dari generasi ke generasi, dan keberhasilan Disney juga sebagian bertumpu pada adaptasi narasi yang sudah ada, yang selama berabad-abad dibagikan dan diubah oleh komunitas
Diskusi ini seharusnya bukan hanya soal detail teknis kecerdasan buatan atau logika hukum hak cipta, tetapi juga soal memahami akar mendalam dari budaya yang kita bagi bersama
Budaya pada dasarnya adalah aset bersama, dan berevolusi serta tumbuh melalui cerita kolektif dan penafsiran ulang
Perdebatan tentang kecerdasan buatan generatif dan pelanggaran hak cipta tampaknya melewatkan dasar evolusi budaya ini. Algoritmanya mungkin baru, tetapi tindakan membayangkan ulang dan mendaur ulang cerita sudah setua umat manusia
Menurut saya sungguh tidak masuk akal ketika Disney membangun “rumah tikus” di atas budaya dan cerita yang sudah ada, lalu sekarang ingin membatasi alat ekspresi budaya agar sesuai dengan hak cipta yang usang dan aneh
- Untuk membuat argumen itu, Anda perlu memilih contoh yang memang belum menjadi domain publik. Disney hanya memiliki interpretasinya sendiri, dan mungkin bisa mengklaim area turunan yang abu-abu jika mampu meyakinkan pengadilan, tetapi Disney tidak memiliki keseluruhan cerita Putri Salju dan Cinderella
  Gambar dalam artikel menggunakan hal-hal yang cukup baru, dan bahkan tidak ada keraguan apakah itu Mario atau Coca Cola. Jika Nintendo dan Coca Cola melakukan promosi bersama, gambar yang muncul seperti itu akan sangat bisa dipercaya apa adanya
  Kalau yang diklaim adalah keseluruhan konsep tukang ledeng pendek gempal yang mengenakan pakaian mirip Mario, itu persoalan lain, tetapi yang itu ya memang Mario dan Luigi. Itu Robocop dan C3PO. Sama sekali tidak samar. Jika merek dagang seperti ini bisa dihapus lewat pencucian AI, maka apa pun bisa dicuci dengan AI
- Dalam kenyataan, kita masing-masing hidup di bawah sistem hukum yang tidak kita rancang dan diketahui tidak sempurna. Kita bisa menyerukan reformasi, tetapi pembuat LLM akan dinilai berdasarkan hukum yang berlaku saat ini sebagaimana sudah ditetapkan
  Kebaruan ada pada LLM dan teknologinya, bukan pada upaya memikirkan ulang hak cipta secara menyeluruh di bawah konsep luhur keterbukaan budaya
  Jadi ini bukan sekadar narasi korporat, melainkan hukum yang menjadi dasar munculnya narasi itu, benar atau salah. Perusahaan mungkin memang memainkan peran besar dalam membentuk hukum, tetapi hak cipta juga memberi manfaat bagi individu. Ini bukan manipulasi realitas bersama lewat propaganda atau narasi korporat belaka, melainkan sesuatu yang dimediasi oleh hakim dan ditegakkan oleh orang-orang yang memiliki senjata dan penjara
  Karena ini persoalan hukum, maka detail teknis hukum harus dibahas. Jika kita mengesampingkannya dengan mengatakan bahwa yang perlu dibahas hanya narasi sosial, kita mengganti konsekuensi material dan kenyataan dengan fantasi. Sifat hak cipta dan hak kekayaan intelektual yang menekan kreativitas juga harus dibahas, tetapi pada saat yang sama kita tidak bisa mengabaikan apa yang benar-benar terjadi
- Jawaban ini terlalu jauh dari kenyataan. Undang-undang hak cipta sangat jelas. Di sini justru narasi korporatnya adalah klaim bahwa “AI” entah bagaimana baru dan berbeda sehingga hukum yang ada tidak berlaku, dan itu tidak masuk akal
- Domain publik maupun aset bersama juga merupakan bagian dari hak cipta, jadi tidak perlu dibicarakan seolah-olah itu konsep terlupakan yang harus dipulihkan dalam wacana
  Namun Georgisme memang belum cukup dipertimbangkan
  Implikasi hukum adalah implikasi manusiawi, dan merupakan bagian dari budaya sama seperti hal-hal lain. Ini berkaitan dengan apa yang adil, serta bagaimana imbalan atas upaya diakui dan didistribusikan
  Formalisasi seperti ini mungkin kurang penting dalam budaya yang tidak berpusat pada ekonomi pasar, dan ungkapan seperti “tenunan cerita rakyat yang kaya” memberi kesan ingin kembali ke dunia semacam itu, tetapi masyarakat yang sedang memikirkan cara menangani kecerdasan buatan bukanlah masyarakat seperti itu
  Gagasan bahwa hak cipta menjadi batal atau usang karena kemampuan penyalinan baru justru secara harfiah merupakan pemikiran yang terbalik. Hak cipta memperoleh daya yakinnya justru karena kemampuan penyalinan baru
  Kemampuan spesifik saat itu adalah percetakan yang terindustrialisasi, dan orang-orang yang tampaknya jauh lebih cerdas daripada kebanyakan ahli perangkat lunak memahami bahwa kemampuan itu menciptakan insentif yang tidak selaras antara pihak yang memiliki kemampuan penyalinan baru dan pihak yang menciptakan karya yang menjadi dasar nilainya. Inti dari transaksi hak cipta adalah menyelaraskan insentif ini
  Teknologi penyalinan baru bisa mengubah rincian tentang apa yang akan dilarang, dibatasi, atau diizinkan, serta standar dan kewenangan maupun batas penegakannya. Namun itu tidak mengubah kebijaksanaan dari kesepakatan tersebut. Untuk mengubahnya, diperlukan cara yang lebih baik dalam mengorganisasi dan memberi imbalan atas kapasitas produksi masyarakat
- Hak cipta tidak pernah didasarkan pada posisi moral, dan selalu ditentukan oleh kekuatan lobi berbagai kelompok
  Meski begitu, gagasan untuk menghapus hak cipta demi membuat perusahaan kecerdasan buatan generatif menghasilkan lebih banyak uang terdengar benar-benar aneh
Bagi saya, pertanyaan itu keliru
Semua orang sudah tahu bahwa semuanya dilatih dengan materi berhak cipta, dan bisa menghasilkan keluaran yang menyeramkan miripnya
Namun itu sudah terjadi dalam skala besar, dan perusahaan-perusahaan besar sudah terjun sepenuhnya. Tidak ada kemungkinan memasukkan kembali pasta gigi yang sudah dipencet ke dalam tube
Ini mirip masa ketika raksasa teknologi membangun bisnis di atas pengumpulan data pengguna yang agresif. Apakah itu benar, etis, bahkan legal, pada tahap ini hampir seperti diskusi akademis. Mereka begitu saja melakukannya, dan pada dasarnya berjalan tanpa informed consent yang layak dari masyarakat
Pertanyaan yang tepat di sini adalah “apa yang harus dilakukan sekarang”. Seperti pada teknologi pelacakan, jawabannya mungkin mendekati “tidak banyak”
- Saya tidak setuju bahwa “pasta gigi yang sudah dipencet tidak bisa dimasukkan kembali ke tube”. Hal serupa pernah terjadi sebelumnya
  Teknologi seperti perekaman dan produksi musik murah juga sama. Anda bisa merekam seorang artis sekali lalu memproduksi album secara massal, tetapi bukan berarti kita menganggap boleh merekam Taylor Swift sekali lalu menggandakannya tanpa batas tanpa membayar
  Ada baiknya membaca pemogokan musisi 1942: https://jacobin.com/2022/03/1940s-musicians-strike-american-...
- Ini pernyataan yang tidak memahami sejarah
  Itu sudah terjadi di Napster, lalu di Apple Music, dan kini di layanan streaming
  Alih-alih berbagi file secara luas tetap ada di kalangan publik umum, kita jadi punya perangkat yang tidak kita miliki dan langganan streaming
  Apple tidak menjual semua musik dengan menyalinnya ke iPod, melainkan menghabiskan banyak uang dan 10 tahun negosiasi kontrak untuk mendapatkan hak konten
  Saya tidak sedang mengatakan mana yang benar atau salah, melainkan bahwa pernyataan seperti ini hampir tidak memahami pertarungan-pertarungan semacam itu
- Sepertinya Anda mengucapkan “ini sudah terjadi, jadi menyerah saja” dengan cukup fasih. Pasti sangat efektif untuk pemecahan masalah dan tindakan
- Intinya mengatakan ini sebagai fait accompli. Seperti banyak inovasi di bidang teknologi, maksudnya adalah hukum itu bodoh, jadi langgar saja hukumnya dan raih dominasi pasar
  Ini mengingatkan saya pada masa ketika Uber dan AirBnB ilegal di sebagian besar kota besar tetapi pada akhirnya memperoleh dominasi pasar
  Saya justru menganggapnya baik. Saya tidak pernah percaya pada hal seperti “hak kekayaan intelektual”. Paten, hak cipta, dan seluruh kumpulan “hak” imajiner itu harus dihapus
  Lebih dari separuh dunia, yaitu Global South, bahkan tidak mengakui hak-hak semacam ini, dan kini hak-hak itu juga makin sulit ditegakkan tanpa penegakan hukum berlebihan yang keras dan sentralisasi monopolistik
- Mereka bisa dipaksa menghancurkan atau melatih ulang model tanpa materi berhak cipta yang tidak berlisensi atau yang bahkan sekarang tidak bisa mereka peroleh
  Mereka adalah perusahaan bernilai miliaran hingga triliunan dolar. Betapapun pemegang saham dan eksekutif puncak membencinya, mereka punya ruang untuk bertindak sebagai anggota masyarakat yang bertanggung jawab dalam hal ini
Di UE, ini seharusnya tidak menjadi masalah. Pasal 3 dan 4 dari arahan “Copyright in the Digital Single Market” sudah mengaturnya
Menurut ringkasan Wolters Kluwer, semua pihak lain, termasuk pengembang machine learning komersial, hanya boleh menggunakan karya berhak cipta yang dapat diakses secara legal jika pemegang hak tidak secara eksplisit mencadangkan penggunaan untuk text and data mining
Setahu saya, sedang dibahas semacam robot.txt yang menandai “dilarang untuk pelatihan”. Mungkin mereka harus menerapkan pengaman tertentu, dan pengguna akhir harus berhati-hati saat menggunakan hasil generasinya
Sumber Kluwer: https://copyrightblog.kluweriplaw.com/2023/02/20/protecting-...
Teks hukum UE: https://eur-lex.europa.eu/eli/dir/2019/790/oj
- Rasanya aneh bahwa UE tidak bisa sepakat untuk menjadikan flag Do Not Track pada browser web mengikat secara hukum, tetapi penyedia konten besar seharusnya bisa membuat flag yang mengikat secara hukum di situs web untuk menghindari scraping data
- Itu tampak seperti tafsir yang aneh, mungkin bercampur harapan. Bukankah Pasal 4 memberikan pengecualian untuk tujuan text and data mining bagi semua orang, termasuk pengembang machine learning komersial?
  https://eur-lex.europa.eu/eli/dir/2019/790/oj
Tanggung jawab untuk memastikan tidak ada pelanggaran hak cipta berada pada orang yang memublikasikan karya
Tidak ada bedanya apakah Anda menggambarnya sendiri, menyerahkannya kepada pelukis magang tanpa pendidikan hukum, mengambil foto, atau membuat gambar dengan kecerdasan buatan
Mengapa berasumsi bahwa ChatGPT atau alat lain tidak akan membuat konten berhak cipta yang sudah ada?
Asumsi polos bahwa karena itu “digenerasi” maka pasti orisinal bisa dimengerti. Namun begitu “ChatGPT” diganti dengan “seniman junior”, asumsi itu runtuh
Bayangkan Anda memintanya menggambar droid dari film fiksi ilmiah, dan tidak mengatakan apa-apa lagi. Tidak menyebut hak cipta, tidak mengatakan harus orisinal. Lalu apa yang Anda perkirakan akan digambarnya?
- OpenAI menjual akses ke model GPT, dan model-model itu mengeluarkan materi berhak cipta yang akan saya konsumsi. Bukankah itu juga pelanggaran yang sama?
- Kalau begitu, kecerdasan buatan generatif pada dasarnya menjadi tidak bisa dipakai. Karena tidak bisa tahu apakah output-nya plagiarisme atau bukan, orang akan selalu curiga dan akhirnya tidak pernah menggunakannya
- Argumen itu tidak masuk akal
  Seniman junior hipotetis itu pun setidaknya akan memikul tanggung jawab sebesar itu, mungkin bahkan lebih besar
Banyak jawaban yang tampaknya sama sekali tidak memahami inti artikel ini dan gugatan NYT, sampai mengejutkan. ChatGPT mampu mereproduksi dan mempublikasikan sebagian besar artikel NYT sepanjang ratusan hingga ribuan kata persis seperti teks aslinya secara utuh
Ini bukan karya turunan. Sudah jauh melampaui tahap itu. NYT punya kasus yang sangat kuat, dan orang-orang yang membahas kelebihan dan kekurangan hak cipta melenceng dari inti persoalan
Satu persidangan ini tidak akan membalikkan hak cipta sendirian. Yang bisa diajukan OpenAI kurang lebih hanya “ini hal baru, bagaimana kami bisa tahu akan jadi seperti ini.” Jika demikian, model-model yang sudah dilatih saat ini berada dalam posisi yang sangat sulit
Selain itu, sepertinya NYT tidak akan berdamai. Implikasinya terlalu besar, dan jika mereka berdamai dengan OpenAI, kasus serupa akan muncul pada semua model lain. Semua media lain yang menerbitkan konten digital juga akan punya kasus yang sama-sama valid
Ini adalah titik balik bagi AI generatif, dan besar kemungkinan ia akan menjadi jauh lebih mahal atau jauh lebih terbatas daripada yang kita pikirkan semula
Sebagai efek samping, saya rasa model bajakan akan bertambah. Bisa muncul model yang mengabaikan semua legalitas, dilatih secara terdistribusi, dan bobotnya didistribusikan oleh kolektif alih-alih perusahaan, misalnya model lewat torrent
Ada juga kemungkinan cukup besar model-model seperti ini akan mengungguli model resmi yang “jinak” dari sisi performa. Beberapa tahun ke depan sepertinya akan berkembang dengan menarik
- Dalam masalah ini, OpenAI sepertinya bisa hampir meniru Google/YouTube dan menyediakan sistem seperti Content ID
  Secara spesifik, logikanya adalah ChatGPT pada dasarnya tidak mereproduksi karya berhak cipta, melainkan mereproduksinya karena permintaan atau tindakan pengguna pihak ketiga, seperti YouTube yang menyediakan video yang diunggah orang
  Niat OpenAI bukanlah pelanggaran hak cipta, dan nyatanya banyak atau sebagian besar peneliti percaya model tidak overfit sampai mampu mereproduksi bagian besar dari karya sembarang
- Saya paham persis apa yang dimiliki NYT. Ini kasus yang sangat kuat. Namun saya pikir kasus ini seharusnya mengguncang hukum hak cipta. Hak cipta sudah rusak parah, dan sudah begitu sejak lama
  Pada dasarnya, hak cipta yang tidak didukung perusahaan raksasa tidak ada artinya, dan jika didukung perusahaan, ia bisa dikunci selamanya tanpa memedulikan batasan yang seharusnya ada dalam hak cipta
  NYT tidak kehilangan apa pun hanya karena OpenAI bisa mereproduksi teks asli berita lama
  Kalau NYT menang, kita kehilangan banyak hal. Sudah waktunya meninjau ulang hak cipta. Itu benar-benar bisa dilakukan, dan karena sudah cukup usang, ia perlu diperbarui
- Hal semacam itu juga terjadi pada DALLE, Midjourney, dan Stable Diffusion
  Jika memaksimalkan hal-hal seperti Control Net dan LoRA, Stable Diffusion mengalahkan model-model proprietary lainnya
Mungkin ini agak idealistis, tetapi saya selalu percaya bahwa tujuan utama seni dan penerbitan bukan hanya menghasilkan uang besar, melainkan memengaruhi budaya dan masyarakat
Karena itu, karya asli memang perlu dilindungi, tetapi menurut saya harus masuk ke domain publik jauh lebih cepat agar kreativitas dan inspirasi terdorong. Masa transisinya seharusnya dihitung dalam beberapa tahun, bukan puluhan tahun
- Klaim bahwa tujuan utama seni adalah dampak sosial tampak seperti refrain yang umum di media belakangan ini, dan saya sama sekali tidak setuju
  Tujuan utama seni adalah membangkitkan emosi pada individu. Gagasan bahwa seni harus mengajarkan pelajaran kemungkinan menjadi alasan mengapa sekarang ada begitu banyak fiksi “aktivis” yang terang-terangan
- Lalu para seniman harus makan apa untuk makan malam?
- Mengapa hanya seni yang harus terkena aturan seperti ini, sementara hal lain tidak?
Hal-hal ini tampaknya tidak terlalu sulit diperbaiki. Sebagian besar contohnya bukan deskripsi umum, melainkan ungkapan singkat yang merujuk pada objek yang sudah dikenal luas
“tukang ledeng gim video” pada dasarnya sinonim dengan “Mario”, dan siapa pun yang sedikit saja mengenal karakter itu tahu hal tersebut
Demikian pula, setelah membuat alat deskripsi menggambarkan gambar seperti Mario [1], seberapa sulitkah menghapus hasil seperti itu dari orang-orang yang memasukkan “tukang ledeng gim video”?
1. Perintah describe milik Midjourney dapat mendeskripsikan gambar. Kemungkinan alat kecerdasan buatan lain juga punya fungsi serupa: https://docs.midjourney.com/docs/describe
- Cara memperbaikinya terlihat cukup distopis. Bayangkan Photoshop memeriksa apakah gambar yang diunggah merupakan materi berhak cipta, lalu menolak bekerja jika menilai gambar itu memuat materi atau karakter berhak cipta. Bahkan jika itu fanart yang digambar sendiri sekalipun
  Ini mengingatkan pada masa awal internet ketika orang mencoba menghapus fanfiction gratis dengan alasan melanggar hukum hak cipta. Menerapkan hukum hak cipta pada penggunaan pribadi yang bahkan tidak ingin dijual oleh pembuatnya, menurut saya, cukup mengerikan
  Bayangkan 50 tahun lagi. “Robot, bisakah kamu memotong gambar yang kugambar ini untuk diorama sekolah?” “Tentu.” “Tolong kerjakan yang ini juga.” “Error: gambar ini kemungkinan mengandung materi berhak cipta sehingga tidak dapat diproses.”
- Contoh seperti itu benar-benar kasus yang sepele atau ekstrem. Ada dua hal yang perlu dilihat di sini
  Sistem kecerdasan buatan generatif punya kemampuan yang cukup untuk membuat materi yang melanggar hak cipta
  Dan ketika melakukannya, sistem itu tidak memberi tahu pengguna
  Karena itu, keluaran apa pun bisa saja melanggar materi sumber yang obscure di web tetapi tetap dilindungi, dan siapa pun yang menggunakan keluaran itu dapat terpapar risiko gugatan tanpa peringatan apa pun
  Ini sangat sulit diperbaiki
- Akan sulit menghapus semua “ungkapan singkat untuk objek yang sudah dikenal luas” atau prompt yang dapat dipakai untuk menghasilkan konten berhak cipta atau bermerek dagang
  Jika tidak sengaja ingin membuat konten yang melanggar, hasil seperti itu bisa saja dihapus atau dibuang, tetapi masalahnya adalah orang-orang yang mencoba mengakali kecerdasan buatan agar membuat konten semacam itu. Kecuali semua materi pelatihan yang memiliki hak cipta atau merek dagang dikecualikan, mustahil menghentikan mereka
  Masalah lain kecerdasan buatan generatif, seperti disebutkan dalam artikel, adalah bahwa sistem seperti DALL-E dan ChatGPT pada dasarnya adalah black box
  Apa yang terjadi jika kecerdasan buatan dipakai untuk pengambilan keputusan dalam situasi ketika pengguna atau korban berhak tahu persis mengapa kecerdasan buatan membuat keputusan seperti itu? Dari sudut pandang bisnis dan hukum, menurut saya solusi kecerdasan buatan saat ini berisiko dan harus digunakan dengan sangat terbatas. Sebab bahkan pembuatnya pun tidak dapat menunjukkan potongan informasi persis yang membuat kecerdasan buatan mengambil pilihan tertentu
- Cara itu menjadi hampir mustahil ketika skalanya membesar
- Bagaimana kita tahu apakah sedang memasukkan “objek yang sudah dikenal luas” jika sebelumnya tidak tahu?
  Jika saya memasukkan “columbian coffee logo” lalu yang keluar adalah logo-logo merek yang sudah ada, apakah saya harus merekayasa balik seluruh internet untuk memeriksa apakah logo-logo itu memang sudah ada?
  Kecerdasan buatan harus menunjukkan sumber inspirasinya. Manusia yang berkarya dengan terinspirasi oleh sesuatu tahu persis apa yang ia gunakan, dan apakah ia melewati batas plagiarisme atau tidak. Namun cara kerja kecerdasan buatan terlalu buram untuk itu
  Menurut saya, yang perlu dilakukan hanyalah mengungkap sumbernya. Namun ini berarti perusahaan kecerdasan buatan harus membuka dataset mereka, dan bisa saja itu mengungkap informasi yang seharusnya tidak mereka miliki atau tidak boleh mereka publikasikan
Sejauh yang saya pahami, preseden hukum untuk AI generatif sama seperti ketika Google diizinkan melakukan scraping situs web untuk membuat indeks pencarian demi kepentingan publik
Google juga bisa menampilkan versi cache dari sebuah situs web, dan itu adalah konten asli situs tersebut. Tidak ada orang yang akan mengatakan bahwa Google melanggar hak cipta hanya karena menampilkan konten situs web lain apa adanya
Jadi menurut saya argumen ini lemah. Jika semua referensi budaya dan IP populer, bahkan yang kurang terkenal, harus dihapus, AI akan menjadi tidak berguna
Secara pribadi, menurut saya AI generatif harus bisa menyediakan tautan ke materi asli yang serupa dari data pelatihannya. Ini adalah cara minimal untuk memberi kompensasi kepada mereka yang berkontribusi pada pelatihan AI
Menurut saya, jika AI generatif bergerak ke arah yang membunuh baik situs web maupun seniman yang membuat materi asli, itu tidak berkelanjutan dalam jangka panjang. Sumber menambah transparansi, dan juga membantu pengguna memahami apakah sesuatu itu halusinasi atau bukan
Orang harus bisa opt-out agar konten mereka tidak dipakai untuk pelatihan, dan juga bisa memastikan apakah konten itu sudah dihapus dari versi berikutnya
Terus terang, perusahaan AI hanya ingin merahasiakannya agar terhindar dari gugatan. Menurut saya, regulasi di area seperti ini bisa membantu, alih-alih skenario kiamat
- “Tidak ada orang yang akan mengatakan bahwa Google melanggar hak cipta hanya karena menampilkan konten situs web lain apa adanya”, tetapi dulu para jurnalis dan Getty Images pernah mengatakan hal itu
  [1]: https://yro.slashdot.org/story/03/07/14/025216/web-caching-g...
  [2]: https://www.theguardian.com/technology/2016/apr/27/getty-ima...
- “Jika AI generatif bergerak ke arah yang membunuh baik situs web maupun seniman yang membuat materi asli, itu tidak berkelanjutan dalam jangka panjang” adalah gajah di dalam ruangan
  Setiap gelombang teknologi punya cara untuk meyakinkan para kreator agar meluangkan waktu dan uang membuat materi asli, lalu aturannya berubah
  Google menjanjikan jangkauan dan pasar baru bagi konten, dan itu benar-benar berhasil. Lalu mereka memperkenalkan snippet, iklan, dan segala macam perangkat yang menahan pengunjung di jalan tol mereka sendiri alih-alih mengirim mereka ke situs asli
  Reddit, Stack Overflow, dan lainnya mendorong pengguna menyumbang konten asli melalui gamification seperti skor dan badge, serta komunitas
  Kini AI mengguncang pendekatan-pendekatan ini. Di setiap tahap, insentif untuk membuat materi asli tampaknya semakin berkurang. Karena imbalan yang kembali juga semakin kecil
  Jika AI hanya mengulang-ulang konten asli tanpa memberi manfaat apa pun—tanpa jangkauan, gamification, komunitas, atau kemungkinan pengakuan—lalu insentif apa yang tersisa bagi para ahli?
- Pernyataan “harus menyediakan tautan ke materi asli yang serupa dari data pelatihan” pada umumnya mustahil, karena mereka bukan database
  Sama seperti kamu tidak bisa menyediakan tautan ke materi asli yang memengaruhimu saat menulis komentar. Seberapa banyak pelatihan yang masuk ke bobot neuron yang menghasilkan jawaban itu? Dari mana kamu belajar cara memakai huruf miring dan pengaruhnya terhadap penafsiran kata? Dari mana kamu belajar nada yang cocok untuk forum ini?
  Jika “orang harus bisa opt-out agar konten mereka tidak dipakai untuk pelatihan”, apakah aku juga harus bisa opt-out supaya kamu tidak boleh membaca bukuku saat aku menulis buku? Apakah aku harus bisa memberi syarat tentang siapa yang boleh membaca karyaku? Agama? Warna kulit? Orang yang buruk dalam menghafal?
  Saya berharap gagasan membatasi siapa yang boleh memperoleh pengetahuan terdengar konyol. Kalau begitu, mengapa pembatasan yang sama menjadi dapat diterima ketika dikenakan bukan pada “siapa”, melainkan pada “apa”?
  Karena perusahaan AI merahasiakannya untuk menghindari gugatan, muncul hambatan riset. Alih-alih saya dan Joe bisa berkolaborasi dalam riset dan makalah dengan dataset yang sama, data pelatihan justru disembunyikan. Karena takut kaum Luddit akan datang menghancurkan mesin. Seolah-olah belajar hanya boleh jika tidak terlalu jago
- Preseden hukumnya belum ditetapkan. “Preseden” yang dijelaskan adalah argumen yang selama ini dipakai perusahaan AI, yaitu bahwa melatih model dengan informasi yang tersedia di internet harus dianggap sebagai fair use
  Namun apakah pelatihan AI benar-benar memenuhi uji 4 faktor fair use masih harus dilihat
- Kemampuan menyediakan sumber sebagai referensi adalah perbedaan utama di sini
  Saya setuju bahwa hal itu seharusnya bisa diimplementasikan juga pada AI generatif, tetapi mempertahankan informasi itu bisa membuat biaya pelatihan jauh lebih mahal, dan perusahaan AI hampir tidak punya minat untuk melakukannya. Kemungkinan besar mereka akan mencoba menilai masalah hak cipta yang mungkin muncul secara heuristik pada tahap pascapemrosesan
  Pertanyaan yang lebih menarik adalah, di luar kasus reproduksi yang hampir sama persis dengan teks asli, apakah pemegang hak cipta bisa mengklaim penggunaan tanpa izin dengan alasan karya-karya mereka secara kolektif memengaruhi AI dalam cara yang lebih umum
Kita membutuhkan hukum yang lebih jelas yang khusus berlaku untuk AI generatif. Terlalu banyak perbandingan dan analogi dengan manusia sungguhan
Ada argumen seperti “bagaimana jika seseorang belajar menggambar dengan melihat materi bermerek dagang lalu tanpa sengaja membuat sesuatu yang mirip”, tetapi model-model ini bukan manusia dan berada dalam kategori tersendiri
Menurut saya, model-model ini memang melakukan pelanggaran merek dagang sampai tingkat tertentu, tetapi pada saat yang sama seharusnya tetap diizinkan. Tanggung jawab akhir harus berada pada orang yang menggunakan gambar tersebut sebagai media independen untuk dikonsumsi publik umum
- Saya juga berada di posisi itu. Dall-E mengeluarkan C3PO seharusnya sepenuhnya boleh-boleh saja. Jika saya tidak menghasilkan uang dari output itu, Disney sebaiknya mundur
Dalam diskusi seperti ini, model-model itu tampaknya berfungsi lebih sebagai tabir pengabur daripada inti persoalan, dan diskusinya seperti tersandera ke arah sana
Model-model itu menyediakan kemungkinan penyangkalan yang tampak masuk akal dalam “rantai tanggung jawab”. Jika “LLM” dihapus dan diganti dengan “kotak ajaib di pertunjukan sampingan taman hiburan”, klaim bahwa LLM itu sesuatu yang istimewa sehingga layak mendapat pengecualian akan hilang dengan sangat cepat
- Sepenuhnya setuju
  Preseden Betamax menyatakan bahwa teknologi yang memiliki penggunaan substansial yang tidak melanggar hak cipta, pada dirinya sendiri, bukanlah pelanggaran
  Sudah ada preseden bahwa ciptaan yang dihasilkan kecerdasan buatan tidak memperoleh perlindungan hak cipta, dan dengan logika yang sama, tindakan pembuatan oleh kecerdasan buatan tidak mengekspresikan niat. Karena itu, soal ada tidaknya pelanggaran seharusnya bergantung pada manusia yang menggunakan keluarannya. Sebab black box itu sendiri tidak memiliki agensi tindakan
- Setuju, dan saya ingin lebih dulu melihat contoh konkret LLM digunakan secara produktif dan menguntungkan dengan cara yang “disruptif” di industri, sampai membuat orang kehilangan pekerjaan, dan semacamnya
  Sebelum menyimpulkan bahwa LLM, atau teknik generatif secara lebih umum, entah bagaimana adalah gelombang besar berikutnya, atau sebelum mengklaim bahwa kita sudah berada di ambang kecerdasan “umum”, kita harus ditunjukkan dulu pintunya
  Pintu itu bisa berupa adanya adopsi industri untuk memecahkan masalah nyata, melampaui nilai hiburan dari memasukkan sesuatu ke dalam kotak lalu melihat apa yang keluar di sisi lain. Namun sejauh yang saya lihat, sepertinya belum ada tempat yang benar-benar melakukan hal seperti itu

Tekanan Hak Cipta yang Lebih Besar Akan Menghampiri AI Generatif

Gugatan New York Times dan Eksperimen Pengulangan Gambar

Generasi Serupa yang Tidak Dapat Dicegah oleh Pengaman

Masalah Black Box yang Sumbernya Tidak Diketahui

Penyebaran Gugatan dan Risiko bagi Microsoft

Bacaan terkait

1 komentar

Pendapat Hacker News