Tekanan Hak Cipta yang Lebih Besar Akan Menghampiri AI Generatif
(garymarcus.substack.com)- Setelah gugatan New York Times terhadap OpenAI, sejauh mana AI generatif harus bertanggung jawab atas pelanggaran hak cipta pada tahap pelatihan dan output muncul sebagai isu yang lebih besar
- Inti gugatan tersebut adalah bahwa chatbot dapat mereproduksi teks hampir sama persis, dan eksperimen Marcus serta Reid Southen menunjukkan bahwa DALL-E juga dapat menghasilkan pengulangan serupa pada gambar
- Meski ada pengaman seperti pemblokiran nama diri, prompt yang tidak secara langsung menuliskan nama karakter atau film tetap dapat menghasilkan keluaran yang mirip dengan SpongeBob SquarePants, RoboCop, dan karakter video game
- Sistem saat ini tidak memberi tahu pengguna tentang informasi sumber dan potensi pelanggaran dari sumber pelatihan maupun hasil generasi, sehingga pengguna bisa tanpa sadar membuat hasil yang melanggar
- Marcus menilai kontroversi pelanggaran akan terus berlanjut sampai muncul arsitektur baru yang memungkinkan pelacakan sumber, dan melihat gugatan New York Times bisa menjadi awal dari lebih banyak gugatan
Gugatan New York Times dan Eksperimen Pengulangan Gambar
- Pada saat New York Times mengajukan gugatan terhadap OpenAI, Gary Marcus melakukan eksperimen bersama Reid Southen, seorang concept artist di industri film
- Southen diperkenalkan sebagai sosok yang memiliki pengalaman terkait Marvel, DC, Matrix Resurrections, Hunger Games, dan lainnya
- Laporan lengkapnya dijadwalkan rilis minggu depan, dan disebut akan dibahas lebih lanjut di IEEE Spectrum pada 3 Januari
- Inti gugatan tersebut adalah bahwa chatbot OpenAI dapat mereproduksi teks hampir sama persis dengan aslinya
- Dalam eksperimen Marcus dan Southen, disebutkan bahwa ketika perangkat lunak gambar OpenAI digunakan melalui Bing, gambar juga dapat mengalami pengulangan yang sama persis atau sangat mirip dengan sumbernya
Generasi Serupa yang Tidak Dapat Dicegah oleh Pengaman
- DALL-E diketahui memiliki pengaman yang sebagian memblokir nama diri dan upaya pelanggaran yang disengaja, tetapi disebut tidak bekerja secara andal
- Potensi pelanggaran dapat muncul meski pengguna tidak berniat melanggar secara langsung atau tidak menyebut nama karakter maupun film
- Disebutkan bahwa hasil terkait dapat muncul dari prompt singkat yang tidak menyebut SpongeBob SquarePants
- Contoh lain yang diangkat mencakup kasus tanpa menyebut RoboCop, karakter video game, dan hasil yang berpotensi melanggar merek dagang
- Pengguna X Blanket_Man01 dan Justine Moore dari A16Z juga disebut menemukan fenomena serupa secara independen
Masalah Black Box yang Sumbernya Tidak Diketahui
- Menurut Marcus, masalah inti AI generatif terletak pada struktur yang tidak mengungkapkan sumber pelatihan dan sumber hasil generasi kepada pengguna
- Sistem seperti DALL-E dan ChatGPT dilatih dengan materi berhak cipta
- OpenAI tidak mengungkapkan secara transparan materi apa yang digunakan untuk pelatihan
- Sistem AI generatif dapat membuat materi yang berpotensi melanggar hak cipta
- Sistem tidak memberi tahu pengguna ketika hasil seperti itu muncul
- Informasi sumber gambar yang dihasilkan juga tidak diberikan
- Pengguna mungkin tidak tahu apakah gambar yang mereka buat merupakan pelanggaran
- Sistem saat ini seperti DALL-E dan ChatGPT dianggap mirip black box, dan dengan konfigurasi saat ini, atribusi terhadap materi sumber dinilai sulit dilakukan
- Disebutkan bahwa sejumlah perusahaan sedang melakukan riset terkait, tetapi Marcus menyatakan belum mengetahui solusi yang meyakinkan
- Ia menilai pelanggaran dapat terus berlanjut sampai muncul arsitektur baru yang mampu melacak sumber teks atau gambar generatif secara andal
- Sistem yang baik seharusnya memberikan daftar sumber kepada pengguna, tetapi sistem saat ini tidak demikian
Penyebaran Gugatan dan Risiko bagi Microsoft
- Gugatan New York Times dinilai kemungkinan besar menjadi kasus pertama dari banyak gugatan
- Dalam jajak pendapat yang dilakukan Marcus di X, mayoritas memperkirakan akan ada penyelesaian damai
- Mengenai besaran penyelesaian, banyak responden memperkirakan lebih dari US$100 juta, dan 20% memperkirakan US$1 miliar
- Jika meluas ke studio film, perusahaan video game, surat kabar lain, dan sebagainya, skalanya disebut dapat membesar
- Karena contoh-contoh tersebut terjadi melalui DALL-E di Bing, Microsoft juga dinilai berada dalam risiko tanggung jawab
1 komentar
Pendapat Hacker News
Banyak orang terlalu mudah menerima narasi korporat bahwa hal-hal seperti ini benar-benar bisa dimiliki oleh seseorang
Siapa sebenarnya yang memiliki cerita Putri Salju dan Cinderella? Cerita-cerita ini bukan berasal dari Disney, melainkan bagian dari cerita rakyat yang diwariskan dari generasi ke generasi, dan keberhasilan Disney juga sebagian bertumpu pada adaptasi narasi yang sudah ada, yang selama berabad-abad dibagikan dan diubah oleh komunitas
Diskusi ini seharusnya bukan hanya soal detail teknis kecerdasan buatan atau logika hukum hak cipta, tetapi juga soal memahami akar mendalam dari budaya yang kita bagi bersama
Budaya pada dasarnya adalah aset bersama, dan berevolusi serta tumbuh melalui cerita kolektif dan penafsiran ulang
Perdebatan tentang kecerdasan buatan generatif dan pelanggaran hak cipta tampaknya melewatkan dasar evolusi budaya ini. Algoritmanya mungkin baru, tetapi tindakan membayangkan ulang dan mendaur ulang cerita sudah setua umat manusia
Menurut saya sungguh tidak masuk akal ketika Disney membangun “rumah tikus” di atas budaya dan cerita yang sudah ada, lalu sekarang ingin membatasi alat ekspresi budaya agar sesuai dengan hak cipta yang usang dan aneh
Gambar dalam artikel menggunakan hal-hal yang cukup baru, dan bahkan tidak ada keraguan apakah itu Mario atau Coca Cola. Jika Nintendo dan Coca Cola melakukan promosi bersama, gambar yang muncul seperti itu akan sangat bisa dipercaya apa adanya
Kalau yang diklaim adalah keseluruhan konsep tukang ledeng pendek gempal yang mengenakan pakaian mirip Mario, itu persoalan lain, tetapi yang itu ya memang Mario dan Luigi. Itu Robocop dan C3PO. Sama sekali tidak samar. Jika merek dagang seperti ini bisa dihapus lewat pencucian AI, maka apa pun bisa dicuci dengan AI
Kebaruan ada pada LLM dan teknologinya, bukan pada upaya memikirkan ulang hak cipta secara menyeluruh di bawah konsep luhur keterbukaan budaya
Jadi ini bukan sekadar narasi korporat, melainkan hukum yang menjadi dasar munculnya narasi itu, benar atau salah. Perusahaan mungkin memang memainkan peran besar dalam membentuk hukum, tetapi hak cipta juga memberi manfaat bagi individu. Ini bukan manipulasi realitas bersama lewat propaganda atau narasi korporat belaka, melainkan sesuatu yang dimediasi oleh hakim dan ditegakkan oleh orang-orang yang memiliki senjata dan penjara
Karena ini persoalan hukum, maka detail teknis hukum harus dibahas. Jika kita mengesampingkannya dengan mengatakan bahwa yang perlu dibahas hanya narasi sosial, kita mengganti konsekuensi material dan kenyataan dengan fantasi. Sifat hak cipta dan hak kekayaan intelektual yang menekan kreativitas juga harus dibahas, tetapi pada saat yang sama kita tidak bisa mengabaikan apa yang benar-benar terjadi
Namun Georgisme memang belum cukup dipertimbangkan
Implikasi hukum adalah implikasi manusiawi, dan merupakan bagian dari budaya sama seperti hal-hal lain. Ini berkaitan dengan apa yang adil, serta bagaimana imbalan atas upaya diakui dan didistribusikan
Formalisasi seperti ini mungkin kurang penting dalam budaya yang tidak berpusat pada ekonomi pasar, dan ungkapan seperti “tenunan cerita rakyat yang kaya” memberi kesan ingin kembali ke dunia semacam itu, tetapi masyarakat yang sedang memikirkan cara menangani kecerdasan buatan bukanlah masyarakat seperti itu
Gagasan bahwa hak cipta menjadi batal atau usang karena kemampuan penyalinan baru justru secara harfiah merupakan pemikiran yang terbalik. Hak cipta memperoleh daya yakinnya justru karena kemampuan penyalinan baru
Kemampuan spesifik saat itu adalah percetakan yang terindustrialisasi, dan orang-orang yang tampaknya jauh lebih cerdas daripada kebanyakan ahli perangkat lunak memahami bahwa kemampuan itu menciptakan insentif yang tidak selaras antara pihak yang memiliki kemampuan penyalinan baru dan pihak yang menciptakan karya yang menjadi dasar nilainya. Inti dari transaksi hak cipta adalah menyelaraskan insentif ini
Teknologi penyalinan baru bisa mengubah rincian tentang apa yang akan dilarang, dibatasi, atau diizinkan, serta standar dan kewenangan maupun batas penegakannya. Namun itu tidak mengubah kebijaksanaan dari kesepakatan tersebut. Untuk mengubahnya, diperlukan cara yang lebih baik dalam mengorganisasi dan memberi imbalan atas kapasitas produksi masyarakat
Meski begitu, gagasan untuk menghapus hak cipta demi membuat perusahaan kecerdasan buatan generatif menghasilkan lebih banyak uang terdengar benar-benar aneh
Bagi saya, pertanyaan itu keliru
Semua orang sudah tahu bahwa semuanya dilatih dengan materi berhak cipta, dan bisa menghasilkan keluaran yang menyeramkan miripnya
Namun itu sudah terjadi dalam skala besar, dan perusahaan-perusahaan besar sudah terjun sepenuhnya. Tidak ada kemungkinan memasukkan kembali pasta gigi yang sudah dipencet ke dalam tube
Ini mirip masa ketika raksasa teknologi membangun bisnis di atas pengumpulan data pengguna yang agresif. Apakah itu benar, etis, bahkan legal, pada tahap ini hampir seperti diskusi akademis. Mereka begitu saja melakukannya, dan pada dasarnya berjalan tanpa informed consent yang layak dari masyarakat
Pertanyaan yang tepat di sini adalah “apa yang harus dilakukan sekarang”. Seperti pada teknologi pelacakan, jawabannya mungkin mendekati “tidak banyak”
Teknologi seperti perekaman dan produksi musik murah juga sama. Anda bisa merekam seorang artis sekali lalu memproduksi album secara massal, tetapi bukan berarti kita menganggap boleh merekam Taylor Swift sekali lalu menggandakannya tanpa batas tanpa membayar
Ada baiknya membaca pemogokan musisi 1942: https://jacobin.com/2022/03/1940s-musicians-strike-american-...
Itu sudah terjadi di Napster, lalu di Apple Music, dan kini di layanan streaming
Alih-alih berbagi file secara luas tetap ada di kalangan publik umum, kita jadi punya perangkat yang tidak kita miliki dan langganan streaming
Apple tidak menjual semua musik dengan menyalinnya ke iPod, melainkan menghabiskan banyak uang dan 10 tahun negosiasi kontrak untuk mendapatkan hak konten
Saya tidak sedang mengatakan mana yang benar atau salah, melainkan bahwa pernyataan seperti ini hampir tidak memahami pertarungan-pertarungan semacam itu
Ini mengingatkan saya pada masa ketika Uber dan AirBnB ilegal di sebagian besar kota besar tetapi pada akhirnya memperoleh dominasi pasar
Saya justru menganggapnya baik. Saya tidak pernah percaya pada hal seperti “hak kekayaan intelektual”. Paten, hak cipta, dan seluruh kumpulan “hak” imajiner itu harus dihapus
Lebih dari separuh dunia, yaitu Global South, bahkan tidak mengakui hak-hak semacam ini, dan kini hak-hak itu juga makin sulit ditegakkan tanpa penegakan hukum berlebihan yang keras dan sentralisasi monopolistik
Mereka adalah perusahaan bernilai miliaran hingga triliunan dolar. Betapapun pemegang saham dan eksekutif puncak membencinya, mereka punya ruang untuk bertindak sebagai anggota masyarakat yang bertanggung jawab dalam hal ini
Di UE, ini seharusnya tidak menjadi masalah. Pasal 3 dan 4 dari arahan “Copyright in the Digital Single Market” sudah mengaturnya
Menurut ringkasan Wolters Kluwer, semua pihak lain, termasuk pengembang machine learning komersial, hanya boleh menggunakan karya berhak cipta yang dapat diakses secara legal jika pemegang hak tidak secara eksplisit mencadangkan penggunaan untuk text and data mining
Setahu saya, sedang dibahas semacam robot.txt yang menandai “dilarang untuk pelatihan”. Mungkin mereka harus menerapkan pengaman tertentu, dan pengguna akhir harus berhati-hati saat menggunakan hasil generasinya
Sumber Kluwer: https://copyrightblog.kluweriplaw.com/2023/02/20/protecting-...
Teks hukum UE: https://eur-lex.europa.eu/eli/dir/2019/790/oj
https://eur-lex.europa.eu/eli/dir/2019/790/oj
Tanggung jawab untuk memastikan tidak ada pelanggaran hak cipta berada pada orang yang memublikasikan karya
Tidak ada bedanya apakah Anda menggambarnya sendiri, menyerahkannya kepada pelukis magang tanpa pendidikan hukum, mengambil foto, atau membuat gambar dengan kecerdasan buatan
Mengapa berasumsi bahwa ChatGPT atau alat lain tidak akan membuat konten berhak cipta yang sudah ada?
Asumsi polos bahwa karena itu “digenerasi” maka pasti orisinal bisa dimengerti. Namun begitu “ChatGPT” diganti dengan “seniman junior”, asumsi itu runtuh
Bayangkan Anda memintanya menggambar droid dari film fiksi ilmiah, dan tidak mengatakan apa-apa lagi. Tidak menyebut hak cipta, tidak mengatakan harus orisinal. Lalu apa yang Anda perkirakan akan digambarnya?
Seniman junior hipotetis itu pun setidaknya akan memikul tanggung jawab sebesar itu, mungkin bahkan lebih besar
Banyak jawaban yang tampaknya sama sekali tidak memahami inti artikel ini dan gugatan NYT, sampai mengejutkan. ChatGPT mampu mereproduksi dan mempublikasikan sebagian besar artikel NYT sepanjang ratusan hingga ribuan kata persis seperti teks aslinya secara utuh
Ini bukan karya turunan. Sudah jauh melampaui tahap itu. NYT punya kasus yang sangat kuat, dan orang-orang yang membahas kelebihan dan kekurangan hak cipta melenceng dari inti persoalan
Satu persidangan ini tidak akan membalikkan hak cipta sendirian. Yang bisa diajukan OpenAI kurang lebih hanya “ini hal baru, bagaimana kami bisa tahu akan jadi seperti ini.” Jika demikian, model-model yang sudah dilatih saat ini berada dalam posisi yang sangat sulit
Selain itu, sepertinya NYT tidak akan berdamai. Implikasinya terlalu besar, dan jika mereka berdamai dengan OpenAI, kasus serupa akan muncul pada semua model lain. Semua media lain yang menerbitkan konten digital juga akan punya kasus yang sama-sama valid
Ini adalah titik balik bagi AI generatif, dan besar kemungkinan ia akan menjadi jauh lebih mahal atau jauh lebih terbatas daripada yang kita pikirkan semula
Sebagai efek samping, saya rasa model bajakan akan bertambah. Bisa muncul model yang mengabaikan semua legalitas, dilatih secara terdistribusi, dan bobotnya didistribusikan oleh kolektif alih-alih perusahaan, misalnya model lewat torrent
Ada juga kemungkinan cukup besar model-model seperti ini akan mengungguli model resmi yang “jinak” dari sisi performa. Beberapa tahun ke depan sepertinya akan berkembang dengan menarik
Secara spesifik, logikanya adalah ChatGPT pada dasarnya tidak mereproduksi karya berhak cipta, melainkan mereproduksinya karena permintaan atau tindakan pengguna pihak ketiga, seperti YouTube yang menyediakan video yang diunggah orang
Niat OpenAI bukanlah pelanggaran hak cipta, dan nyatanya banyak atau sebagian besar peneliti percaya model tidak overfit sampai mampu mereproduksi bagian besar dari karya sembarang
Pada dasarnya, hak cipta yang tidak didukung perusahaan raksasa tidak ada artinya, dan jika didukung perusahaan, ia bisa dikunci selamanya tanpa memedulikan batasan yang seharusnya ada dalam hak cipta
NYT tidak kehilangan apa pun hanya karena OpenAI bisa mereproduksi teks asli berita lama
Kalau NYT menang, kita kehilangan banyak hal. Sudah waktunya meninjau ulang hak cipta. Itu benar-benar bisa dilakukan, dan karena sudah cukup usang, ia perlu diperbarui
Jika memaksimalkan hal-hal seperti Control Net dan LoRA, Stable Diffusion mengalahkan model-model proprietary lainnya
Mungkin ini agak idealistis, tetapi saya selalu percaya bahwa tujuan utama seni dan penerbitan bukan hanya menghasilkan uang besar, melainkan memengaruhi budaya dan masyarakat
Karena itu, karya asli memang perlu dilindungi, tetapi menurut saya harus masuk ke domain publik jauh lebih cepat agar kreativitas dan inspirasi terdorong. Masa transisinya seharusnya dihitung dalam beberapa tahun, bukan puluhan tahun
Tujuan utama seni adalah membangkitkan emosi pada individu. Gagasan bahwa seni harus mengajarkan pelajaran kemungkinan menjadi alasan mengapa sekarang ada begitu banyak fiksi “aktivis” yang terang-terangan
Hal-hal ini tampaknya tidak terlalu sulit diperbaiki. Sebagian besar contohnya bukan deskripsi umum, melainkan ungkapan singkat yang merujuk pada objek yang sudah dikenal luas
“tukang ledeng gim video” pada dasarnya sinonim dengan “Mario”, dan siapa pun yang sedikit saja mengenal karakter itu tahu hal tersebut
Demikian pula, setelah membuat alat deskripsi menggambarkan gambar seperti Mario [1], seberapa sulitkah menghapus hasil seperti itu dari orang-orang yang memasukkan “tukang ledeng gim video”?
Ini mengingatkan pada masa awal internet ketika orang mencoba menghapus fanfiction gratis dengan alasan melanggar hukum hak cipta. Menerapkan hukum hak cipta pada penggunaan pribadi yang bahkan tidak ingin dijual oleh pembuatnya, menurut saya, cukup mengerikan
Bayangkan 50 tahun lagi. “Robot, bisakah kamu memotong gambar yang kugambar ini untuk diorama sekolah?” “Tentu.” “Tolong kerjakan yang ini juga.” “Error: gambar ini kemungkinan mengandung materi berhak cipta sehingga tidak dapat diproses.”
Sistem kecerdasan buatan generatif punya kemampuan yang cukup untuk membuat materi yang melanggar hak cipta
Dan ketika melakukannya, sistem itu tidak memberi tahu pengguna
Karena itu, keluaran apa pun bisa saja melanggar materi sumber yang obscure di web tetapi tetap dilindungi, dan siapa pun yang menggunakan keluaran itu dapat terpapar risiko gugatan tanpa peringatan apa pun
Ini sangat sulit diperbaiki
Jika tidak sengaja ingin membuat konten yang melanggar, hasil seperti itu bisa saja dihapus atau dibuang, tetapi masalahnya adalah orang-orang yang mencoba mengakali kecerdasan buatan agar membuat konten semacam itu. Kecuali semua materi pelatihan yang memiliki hak cipta atau merek dagang dikecualikan, mustahil menghentikan mereka
Masalah lain kecerdasan buatan generatif, seperti disebutkan dalam artikel, adalah bahwa sistem seperti DALL-E dan ChatGPT pada dasarnya adalah black box
Apa yang terjadi jika kecerdasan buatan dipakai untuk pengambilan keputusan dalam situasi ketika pengguna atau korban berhak tahu persis mengapa kecerdasan buatan membuat keputusan seperti itu? Dari sudut pandang bisnis dan hukum, menurut saya solusi kecerdasan buatan saat ini berisiko dan harus digunakan dengan sangat terbatas. Sebab bahkan pembuatnya pun tidak dapat menunjukkan potongan informasi persis yang membuat kecerdasan buatan mengambil pilihan tertentu
Jika saya memasukkan “columbian coffee logo” lalu yang keluar adalah logo-logo merek yang sudah ada, apakah saya harus merekayasa balik seluruh internet untuk memeriksa apakah logo-logo itu memang sudah ada?
Kecerdasan buatan harus menunjukkan sumber inspirasinya. Manusia yang berkarya dengan terinspirasi oleh sesuatu tahu persis apa yang ia gunakan, dan apakah ia melewati batas plagiarisme atau tidak. Namun cara kerja kecerdasan buatan terlalu buram untuk itu
Menurut saya, yang perlu dilakukan hanyalah mengungkap sumbernya. Namun ini berarti perusahaan kecerdasan buatan harus membuka dataset mereka, dan bisa saja itu mengungkap informasi yang seharusnya tidak mereka miliki atau tidak boleh mereka publikasikan
Sejauh yang saya pahami, preseden hukum untuk AI generatif sama seperti ketika Google diizinkan melakukan scraping situs web untuk membuat indeks pencarian demi kepentingan publik
Google juga bisa menampilkan versi cache dari sebuah situs web, dan itu adalah konten asli situs tersebut. Tidak ada orang yang akan mengatakan bahwa Google melanggar hak cipta hanya karena menampilkan konten situs web lain apa adanya
Jadi menurut saya argumen ini lemah. Jika semua referensi budaya dan IP populer, bahkan yang kurang terkenal, harus dihapus, AI akan menjadi tidak berguna
Secara pribadi, menurut saya AI generatif harus bisa menyediakan tautan ke materi asli yang serupa dari data pelatihannya. Ini adalah cara minimal untuk memberi kompensasi kepada mereka yang berkontribusi pada pelatihan AI
Menurut saya, jika AI generatif bergerak ke arah yang membunuh baik situs web maupun seniman yang membuat materi asli, itu tidak berkelanjutan dalam jangka panjang. Sumber menambah transparansi, dan juga membantu pengguna memahami apakah sesuatu itu halusinasi atau bukan
Orang harus bisa opt-out agar konten mereka tidak dipakai untuk pelatihan, dan juga bisa memastikan apakah konten itu sudah dihapus dari versi berikutnya
Terus terang, perusahaan AI hanya ingin merahasiakannya agar terhindar dari gugatan. Menurut saya, regulasi di area seperti ini bisa membantu, alih-alih skenario kiamat
[1]: https://yro.slashdot.org/story/03/07/14/025216/web-caching-g...
[2]: https://www.theguardian.com/technology/2016/apr/27/getty-ima...
Setiap gelombang teknologi punya cara untuk meyakinkan para kreator agar meluangkan waktu dan uang membuat materi asli, lalu aturannya berubah
Google menjanjikan jangkauan dan pasar baru bagi konten, dan itu benar-benar berhasil. Lalu mereka memperkenalkan snippet, iklan, dan segala macam perangkat yang menahan pengunjung di jalan tol mereka sendiri alih-alih mengirim mereka ke situs asli
Reddit, Stack Overflow, dan lainnya mendorong pengguna menyumbang konten asli melalui gamification seperti skor dan badge, serta komunitas
Kini AI mengguncang pendekatan-pendekatan ini. Di setiap tahap, insentif untuk membuat materi asli tampaknya semakin berkurang. Karena imbalan yang kembali juga semakin kecil
Jika AI hanya mengulang-ulang konten asli tanpa memberi manfaat apa pun—tanpa jangkauan, gamification, komunitas, atau kemungkinan pengakuan—lalu insentif apa yang tersisa bagi para ahli?
Sama seperti kamu tidak bisa menyediakan tautan ke materi asli yang memengaruhimu saat menulis komentar. Seberapa banyak pelatihan yang masuk ke bobot neuron yang menghasilkan jawaban itu? Dari mana kamu belajar cara memakai huruf miring dan pengaruhnya terhadap penafsiran kata? Dari mana kamu belajar nada yang cocok untuk forum ini?
Jika “orang harus bisa opt-out agar konten mereka tidak dipakai untuk pelatihan”, apakah aku juga harus bisa opt-out supaya kamu tidak boleh membaca bukuku saat aku menulis buku? Apakah aku harus bisa memberi syarat tentang siapa yang boleh membaca karyaku? Agama? Warna kulit? Orang yang buruk dalam menghafal?
Saya berharap gagasan membatasi siapa yang boleh memperoleh pengetahuan terdengar konyol. Kalau begitu, mengapa pembatasan yang sama menjadi dapat diterima ketika dikenakan bukan pada “siapa”, melainkan pada “apa”?
Karena perusahaan AI merahasiakannya untuk menghindari gugatan, muncul hambatan riset. Alih-alih saya dan Joe bisa berkolaborasi dalam riset dan makalah dengan dataset yang sama, data pelatihan justru disembunyikan. Karena takut kaum Luddit akan datang menghancurkan mesin. Seolah-olah belajar hanya boleh jika tidak terlalu jago
Namun apakah pelatihan AI benar-benar memenuhi uji 4 faktor fair use masih harus dilihat
Saya setuju bahwa hal itu seharusnya bisa diimplementasikan juga pada AI generatif, tetapi mempertahankan informasi itu bisa membuat biaya pelatihan jauh lebih mahal, dan perusahaan AI hampir tidak punya minat untuk melakukannya. Kemungkinan besar mereka akan mencoba menilai masalah hak cipta yang mungkin muncul secara heuristik pada tahap pascapemrosesan
Pertanyaan yang lebih menarik adalah, di luar kasus reproduksi yang hampir sama persis dengan teks asli, apakah pemegang hak cipta bisa mengklaim penggunaan tanpa izin dengan alasan karya-karya mereka secara kolektif memengaruhi AI dalam cara yang lebih umum
Kita membutuhkan hukum yang lebih jelas yang khusus berlaku untuk AI generatif. Terlalu banyak perbandingan dan analogi dengan manusia sungguhan
Ada argumen seperti “bagaimana jika seseorang belajar menggambar dengan melihat materi bermerek dagang lalu tanpa sengaja membuat sesuatu yang mirip”, tetapi model-model ini bukan manusia dan berada dalam kategori tersendiri
Menurut saya, model-model ini memang melakukan pelanggaran merek dagang sampai tingkat tertentu, tetapi pada saat yang sama seharusnya tetap diizinkan. Tanggung jawab akhir harus berada pada orang yang menggunakan gambar tersebut sebagai media independen untuk dikonsumsi publik umum
Dalam diskusi seperti ini, model-model itu tampaknya berfungsi lebih sebagai tabir pengabur daripada inti persoalan, dan diskusinya seperti tersandera ke arah sana
Model-model itu menyediakan kemungkinan penyangkalan yang tampak masuk akal dalam “rantai tanggung jawab”. Jika “LLM” dihapus dan diganti dengan “kotak ajaib di pertunjukan sampingan taman hiburan”, klaim bahwa LLM itu sesuatu yang istimewa sehingga layak mendapat pengecualian akan hilang dengan sangat cepat
Preseden Betamax menyatakan bahwa teknologi yang memiliki penggunaan substansial yang tidak melanggar hak cipta, pada dirinya sendiri, bukanlah pelanggaran
Sudah ada preseden bahwa ciptaan yang dihasilkan kecerdasan buatan tidak memperoleh perlindungan hak cipta, dan dengan logika yang sama, tindakan pembuatan oleh kecerdasan buatan tidak mengekspresikan niat. Karena itu, soal ada tidaknya pelanggaran seharusnya bergantung pada manusia yang menggunakan keluarannya. Sebab black box itu sendiri tidak memiliki agensi tindakan
Sebelum menyimpulkan bahwa LLM, atau teknik generatif secara lebih umum, entah bagaimana adalah gelombang besar berikutnya, atau sebelum mengklaim bahwa kita sudah berada di ambang kecerdasan “umum”, kita harus ditunjukkan dulu pintunya
Pintu itu bisa berupa adanya adopsi industri untuk memecahkan masalah nyata, melampaui nilai hiburan dari memasukkan sesuatu ke dalam kotak lalu melihat apa yang keluar di sisi lain. Namun sejauh yang saya lihat, sepertinya belum ada tempat yang benar-benar melakukan hal seperti itu