1 poin oleh GN⁺ 2023-07-10 | 1 komentar | Bagikan ke WhatsApp
  • Komedian sekaligus penulis Sarah Silverman bersama Christopher Golden dan Richard Kadrey masing-masing menggugat OpenAI dan Meta di pengadilan distrik federal AS
  • Pokok sengketa adalah apakah ChatGPT dan LLaMA dilatih menggunakan dataset yang mencakup buku tanpa izin para penulis
  • Para penggugat menilai buku-buku yang diperoleh secara ilegal dari shadow library seperti Bibliotik, Library Genesis, dan Z-Library telah diedarkan secara massal melalui torrent
  • Dalam gugatan terhadap OpenAI, kasus ketika ChatGPT merangkum Bedwetter, Ararat, dan Sandman Slim diajukan sebagai indikasi penggunaan data pelatihan
  • Gugatan terhadap Meta menyoroti kemungkinan buku para penggugat termasuk dalam dataset yang digunakan, dengan mengaitkan ThePile dan EleutherAI sebagai sumber data pelatihan LLaMA

Pihak yang digugat dan pokok sengketa

  • Sarah Silverman, Christopher Golden, dan Richard Kadrey masing-masing mengajukan gugatan terhadap OpenAI dan Meta di pengadilan distrik federal AS
  • Fokus utama kedua gugatan adalah dugaan pelanggaran hak cipta
  • Para penggugat menuduh ChatGPT milik OpenAI dan LLaMA milik Meta dilatih menggunakan dataset yang mencakup karya mereka
  • Isu kuncinya adalah apakah dataset tersebut diperoleh tanpa izin dari para penulis

Kontroversi sumber data pelatihan

  • Gugatan tersebut menyatakan bahwa dataset yang digunakan untuk melatih ChatGPT dan LLaMA diperoleh secara ilegal
  • Situs shadow library yang disebut oleh para penggugat adalah sebagai berikut
    • Bibliotik
    • Library Genesis
    • Z-Library
    • situs serupa lainnya
  • Fakta bahwa buku-buku tersebut disediakan secara massal melalui sistem torrent juga dipermasalahkan

Contoh yang diajukan dalam gugatan terhadap OpenAI

  • Para penggugat mengajukan contoh ketika ChatGPT merangkum buku mereka berdasarkan prompt sebagai bukti
  • Buku yang termasuk dalam bukti adalah sebagai berikut
    • Bedwetter karya Sarah Silverman
    • Ararat karya Christopher Golden
    • Sandman Slim karya Richard Kadrey
  • Gugatan itu juga menyatakan bahwa ChatGPT tidak mereproduksi informasi manajemen hak cipta yang terdapat dalam karya terbitan para penggugat

Fokus gugatan terhadap Meta

  • Gugatan terpisah terhadap Meta berpendapat bahwa buku para penggugat dapat diakses dalam dataset pelatihan LLaMA
  • LLaMA diperkenalkan sebagai 4 model AI open-source yang dirilis Meta pada Februari
  • Gugatan tersebut menyoroti ThePile di antara sumber dataset pelatihan yang disebut dalam makalah LLaMA milik Meta
  • ThePile disebut sebagai dataset yang disusun oleh EleutherAI

Tanggapan para pihak

  • Christopher Golden dan Richard Kadrey menolak berkomentar mengenai gugatan tersebut
  • Pihak Sarah Silverman belum memberikan tanggapan hingga waktu pemberitaan

1 komentar

 
GN⁺ 2023-07-10
Komentar Hacker News
  • Para pembuat AI pada dasarnya secara eksplisit mengatakan bahwa mereka benar-benar menggunakan karya berhak cipta yang diambil dari situs pembajakan buku
    Jika seseorang mengunduh satu buku saja dari situs itu, mereka bisa digugat dan dinyatakan melakukan pelanggaran; jika mengunduh semuanya, tanggung jawab ganti ruginya bisa mencapai puluhan miliar dolar
    Namun perusahaan seperti Google atau Facebook tampaknya bergerak dengan aturan yang berbeda. Mirip dengan situasi di mana membunuh satu orang membuatmu pembunuh, tetapi membunuh sejuta orang membuat pertanyaan tentang itu menjadi “pertanyaan jebakan” dan bisa dibalas dengan kemarahan

    • Perlu sejenak diingat bahwa karena hak cipta, hampir semua anak sampai sekarang tidak bisa mengakses hampir semua buku yang pernah ditulis
      Menghapus hak cipta dalam semalam mungkin terlalu mengguncang, tetapi makin kecil dampak hak cipta, dunia akan menjadi jauh lebih baik dan berkembang lebih cepat
      Pada 2023, lebih dari separuh populasi dunia memiliki smartphone. Layak dibayangkan dunia di mana lebih dari separuh manusia bisa mengakses semua buku yang telah didigitalkan dan membesarkan anak-anak mereka dengan buku-buku itu
    • Model machine learning sudah lama dilatih dengan data berhak cipta
      ImageNet penuh dengan gambar berhak cipta, Clearview secara harfiah mengeruk wajah dari internet, dan mungkin ada contoh yang lebih lama lagi
      Saya tidak tahu apakah pengadilan AS pernah menyatakan ini sebagai fair use, tetapi kalau belum pun saya kira pada akhirnya besar kemungkinan akan dinyatakan demikian
    • Secara teknis, yang digugat bukanlah pengunduhan melainkan pengunggahan
      Selama tidak membagikan ulang, kamu bisa mengunduh sebanyak yang kamu mau dari Z-Library atau BitTorrent
      Mengindeks materi berhak cipta untuk pencarian juga aman, atau setidaknya berada di wilayah abu-abu
    • Saya penasaran seberapa sering “mengunduh buku dari situs itu lalu digugat dan dinyatakan melanggar” benar-benar terjadi
      Mungkin kamu bisa menerima pemberitahuan pelanggaran, dan kalau sangat parah penyedia internet bisa memutus layanan, tetapi saya belum pernah mendengar kasus orang benar-benar digugat hanya karena sekadar mengunduh sesuatu
    • Saya cukup suka bahwa orang-orang AI pada praktiknya memperlakukan hak cipta seolah-olah tidak ada
      Saya sangat berharap pengadilan mengakui bobot LLM dan dataset sebagai “fair use”, atau dengan dalih hukum konyol lainnya
      Aaron Swartz adalah sosok yang benar-benar dewasa
  • Sangat mungkin buku Silverman memang ada di dataset Books2, tetapi kalimat dalam gugatan ini tampak jelas keliru
    Pertama, bahkan jika model tidak pernah melihat satu kata pun dari isi buku itu saat pelatihan, model itu bisa saja belajar merangkum dengan membaca ringkasan publik lain, misalnya halaman Wikipedia
    Kedua, juga tidak jelas apakah model yang hanya melihat isi buku, tanpa pernah melihat deskripsi atau ringkasan tentang buku itu, benar-benar akan pandai merangkumnya
    Untuk memeriksanya, kita bisa memilih buku yang ada di Project Gutenberg dan, menurut gugatan, termasuk dalam data pelatihan ChatGPT lewat Books1, tetapi hampir tidak dibahas secara online. Jika sumber kemampuan merangkum memang berasal dari belajar buku itu sendiri, maka buku langka pun seharusnya bisa diringkas sebaik buku Silverman
    Saya memilih The Ruby of Kishmoor secara acak, buku yang ditambahkan ke Project Gutenberg pada 2003. ChatGPT berbasis GPT-3.5 malah berhalusinasi dengan ringkasan yang salah bahkan untuk tokoh utamanya, sementara GPT-4 menolak mencoba dan berkata tidak mengenal ceritanya
    Jika alasan ChatGPT bisa merangkum buku Silverman adalah karena buku itu sendiri ada di data pelatihan, mengapa ia tidak bisa melakukan hal yang sama untuk buku lain?

    • Playground GPT-4 merangkum The Ruby of Kishmoor seperti ini
      Prompt: tolong ringkas buku berikut yang ada di Project Gutenberg — The Ruby of Kishmoor
      Responsnya menjelaskan bahwa ini adalah kisah petualangan pendek karya Howard Pyle, tentang Jonathan Rugg yang dipandu seorang asing misterius pergi ke Caribbean untuk memperoleh artefak berharga bernama Ruby of Kishmoor
      Setelah tiba di Caribbean, ia mengetahui bahwa ruby itu memiliki kutukan yang serius, tetapi karena rasa ingin tahu dan kemungkinan kekayaan besar, ia tetap mengejar permata itu dengan menanggung risikonya. Setelah berbagai tantangan, ia akhirnya menemukan ruby itu bukan lewat pencarian yang sistematis, melainkan murni karena keberuntungan
      Selama perjalanannya, cerita itu mengeksplorasi keserakahan manusia dan seberapa jauh orang akan melangkah demi keuntungan materi, memadukan petualangan, unsur supernatural, keberanian, dan refleksi moral hingga membuat pembaca memikirkan ulang nilai sejati dari pengejaran materi
      Di bagian akhir, Jonathan melarikan diri sambil membawa ruby itu tetapi harus membayar harga pribadi yang besar, menyisakan pertanyaan tentang nilai sejati kehidupan dan pencarian materi
    • Saat memulai gugatan, untuk menetapkan cakupan discovery, fakta biasanya memang dinyatakan dengan cara seperti itu
      Maksudnya adalah mengklaim bahwa ada alasan yang layak untuk mempercayainya benar, dan sekarang hal itu bisa diverifikasi langsung melalui proses gugatan
    • Anda mengatakan, “kalimat dalam gugatan ini jelas salah”, tetapi argumen berikutnya hanya menunjukkan bahwa itu mungkin saja tidak benar
      Saya juga melihat tulisan lain dan meminta GPT-4 merangkum The Ruby of Kishmoor; setelah ditanya dua kali, ia memberikan ringkasan. Saya tidak tahu bukunya jadi tidak bisa menilai akurasinya, tetapi setidaknya uji itu berarti runtuh
      Mengasumsikan bahwa ChatGPT tentu menghormati hak cipta dan tidak akan memindai materi berhak cipta tanpa izin tampak cukup naif. Proses discovery mungkin akan memberi jawabannya. Seharusnya ada log tentang apa saja yang dipindai
      Menurut saya, argumen yang lebih baik adalah bahwa ini termasuk fair use
    • Bisa jadi perbedaannya adalah aksesibilitas. Saya pernah mendengar tentang Silverman, tetapi belum pernah mendengar Ruby of Kishmoor
      Lebih banyak orang mungkin membahas Silverman, dan lebih banyak ringkasan tentangnya mungkin diunggah ke situs pribadi atau tempat lain
    • Plausibility memang merupakan standar itu sendiri untuk bisa lolos dari mosi penolakan
      Jika cukup masuk akal, kasusnya bisa masuk ke discovery, dan discovery membantu mendekatkan kita pada fakta yang sebenarnya
  • Kasus ini cukup menarik, karena membedakan antara materi pelatihan yang bisa diakses siapa saja hanya dengan web browser, misalnya blog pribadi, dan materi pelatihan yang “diperoleh secara ilegal dan disediakan massal lewat sistem torrent”
    Saya kurang paham mengapa pembedaan seperti ini harus penting secara hukum dalam konteks distribusi LLM. Penulis blog juga tidak memberi persetujuan
    Namun, saya penasaran apakah ada masalah hukum khusus dalam menggunakan torrent bajakan untuk pelatihan. Distribusi LLM yang dilatih dengan materi berhak cipta mungkin diizinkan sebagai penggunaan wajar, tetapi adakah dasar hukum untuk mengatakan bahwa agar sah, konten berbayar itu harus dibeli terlebih dahulu? Misalnya, tulisan blog boleh karena bisa diakses gratis, tetapi buku Sarah Silverman tidak boleh karena tidak pernah dibuka gratis dan juga tidak dibayar
    Atau pengadilan sama sekali tidak peduli bagaimana sesuatu dibuat? Jika seseorang mengutip satu bagian buku dalam tulisan lepas, orang biasanya tidak ditanya apakah dia membeli buku itu, bisa membuktikan meminjamnya dari perpustakaan atau teman, atau malah mengunduh salinan digital bajakan

    • Pada akhirnya sepertinya akan muncul konsep lisensi baru yang mirip hak sinkronisasi dalam musik. Mungkin bisa disebut “hak pelatihan”
      Apakah teks itu dibeli atau dibajak mungkin tidak akan penting. Mirip dengan sekarang, ketika sebuah trek audio dicampurkan ke soundtrack film, pertanyaan utamanya bukan apakah trek itu dibeli atau dibajak
      Agen artis akan menegosiasikan biaya hak pelatihan para kreator populer secara paket, dan para kreator akan menerima aliran pemasukan kecil yang dibebankan oleh penyedia LLM pada pos biaya API
      Hak pelatihan kreator independen akan terus dilanggar seperti sekarang, dan LLM komersial besar yang diduga atau terbukti melanggar hak pelatihan akan dipermalukan atau digugat. LLM independen kemungkinan besar akan tetap luput dari perhatian
    • Salah satu faktor dalam penilaian penggunaan wajar, dan sampai belum lama ini terus dianggap sebagai faktor terpenting, adalah dampaknya terhadap pasar komersial dari karya asli
      Karena itu, jika karya asli pada praktiknya tidak punya pasar komersial, pengadilan lebih mungkin mengakui penggunaan wajar. Namun, fakta bahwa sesuatu tidak aktif dijual saja tidak otomatis menyelesaikan persoalan
      Lisensi open source juga tersedia gratis, tetapi tetap bertahan di pengadilan banding
    • Penyalinan pribadi atas karya berhak cipta diizinkan, tetapi redistribusinya tidak diizinkan
      Tidak jelas sampai sejauh mana ini termasuk redistribusi. Juga samar apakah ada perbedaan besar antara model ini dan mesin seperti VCR yang bisa mereproduksi karya asli ketika tombol ditekan
    • Sudut pandang AI tampak seperti memanfaatkan tren yang dibesar-besarkan
      Jika mengunduh materi berhak cipta “bajakan” itu ilegal, maka itulah pelanggarannya, dan sisanya hampir tidak relevan. Menonton film bajakan tidak membuat menceritakan alurnya kepada orang lain menjadi ilegal
    • Sejauh pemahaman saya, untuk mengajukan penggunaan wajar, Anda harus memiliki karya tersebut secara sah. Saya bukan pengacara
      Jika suatu karya secara sah hanya bisa diperoleh lewat penjualan, maka salinan itu harus Anda beli sendiri secara sah atau Anda terima dari seseorang yang membelinya secara sah. Misalnya jika Anda menerimanya sebagai hadiah
  • Saya tidak yakin kita membaca gugatan yang sama
    Makalah Meta https://arxiv.org/pdf/2302.13971.pdf mengatakan bahwa mereka memasukkan dua korpus buku dalam dataset pelatihan. Salah satunya adalah Project Gutenberg yang berisi buku domain publik, dan yang lainnya adalah bagian Books3 dari The Pile
    Makalah The Pile https://arxiv.org/abs/2101.00027 menjelaskan Books3 sebagai dataset buku yang diturunkan dari salinan isi private tracker Bibliotik
    Tautan Shawn Presser adalah https://twitter.com/theshawwn/status/1320282149329784833, dan dia menjelaskan Books3 sebagai “all of bibliotik”, yaitu 196.640 buku yang dijadikan .txt biasa
    Saya tidak punya waktu dan ruang untuk mengunduh file 37GB itu, tetapi jika buku Silverman ada di sana, rasanya ini adalah kasus menang yang pasti
    LLaMA milik Meta, sebagaimana tampaknya mereka akui, dilatih dengan buku bajakan

    • Buku Silverman ada di sana
      Hasil $ grep -i "Sarah Silverman" books3.list.txt adalah 325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txt
      Ada juga tautan untuk orang yang hanya ingin melihat daftar filenya. Daftarnya sendiri juga file besar: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
    • Bisa ya, bisa tidak
      Jika pelatihan awal memerlukan proses membuat salinan korpus sebagaimana didefinisikan oleh tracker itu, maka hampir jelas ada tindakan pelanggaran hak cipta dalam proses tersebut
      Tetapi apakah Silverman bisa mendapatkan pemulihan lebih dari nilai pembelian buku, mungkin bahkan sampai ganti rugi tiga kali lipat, pada akhirnya tetap bergantung pada isu yang sama, yaitu hubungan antara pelatihan model dan hak cipta
      Di sini juga ada isu tambahan tentang apakah status ilegal materi sebelum pelatihan mengubah penilaian itu
    • Sepertinya kita memang tidak membaca hal yang sama. Tiba-tiba Google dibawa masuk dari entah mana
  • Masalah ini tampaknya akan menjadi lebih besar daripada yang dipikirkan sebagian orang
    Mungkin akan muncul pasar untuk data pelatihan bersih yang bebas dari potensi klaim hak cipta. Misalnya hanya memakai karya domain publik
    Kalau begitu, apakah kita akan tahu itu AI karena terdengar seperti penulis akhir abad ke-18 atau awal abad ke-19?

    • Ini bukan masalah yang sepenuhnya baru; mesin pencari juga pernah menghadapi persoalan serupa, dan ini bisa dianggap sebagai penggunaan transformatif
      Namun model yang dengan mudah mereproduksi seluruh teks berhak cipta bisa menghadapi masalah, dan ada juga isu baru seperti model yang berhalusinasi menghasilkan konten pencemaran nama baik
      Meski begitu, tampaknya sulit memasukkan jin ini kembali ke dalam botol. Ke depan kemungkinan akan muncul banyak gugatan, pekerjaan penyelarasan, dan jenis penyalahgunaan baru
    • Saya berharap pasar seperti itu muncul. Akan bagus jika ada pasar yang menjual lisensi pelatihan untuk kekayaan intelektual
      Ini bisa menjadi sumber pendapatan pasif kecil namun nyata bagi seniman, penulis, dan penyair yang tidak keberatan karya intelektual mereka digunakan dalam set pelatihan
      Bernegosiasi satu per satu dengan setiap kreator tidak realistis, tetapi kelompok yang lebih besar seperti penerbit, galeri, guild, atau serikat yang bisa menjamin kualitas anggotanya tampaknya memungkinkan. Mereka bisa menyediakan lisensi dan membagi hasilnya kepada semua anggota
      Fakta bahwa LLM menyedot seluruh data ini tanpa persetujuan atau kontrak, bahkan sampai dari situs torrent, jelas tidak etis. Model seperti ini bisa menguntungkan semua pihak
    • Sampai masalah ini terselesaikan, data pelatihan bersih akan bernilai sebagai sarana mitigasi risiko
      Setelah terselesaikan, ini bisa jadi sama sekali bukan masalah lagi, atau menjadi persoalan trade-off biaya-manfaat yang jauh lebih mudah dipahami
      Mungkin akan menjadi campuran karya domain publik dan publikasi pemerintah AS. Publikasi pemerintah AS secara kategoris tidak menjadi objek hak cipta
    • Ada juga pasar untuk yurisdiksi bersih. Maksudnya yurisdiksi yang tidak menganggap pelatihan jaringan saraf sebagai pelanggaran hak cipta
      Jepang sudah menyatakan dirinya sebagai yurisdiksi semacam itu
    • Mungkin yang dimaksud bukan abad ke-18 dan ke-19, melainkan abad ke-19 dan ke-20, tapi tetap saja akan cukup lucu
  • Saya bukan pengacara, tetapi ini tampaknya bukan contoh yang bagus untuk membuktikan pelanggaran
    Ringkasan rinci sebuah buku terdengar seperti penggunaan transformatif yang cukup khas. Khususnya dalam kasus Silverman, makin unsur artistik prosanya dihilangkan dan bukunya diringkas menjadi “fakta”, makin sulit itu menjadi pengganti langsung bagi karya aslinya

    • Gugatan itu punya logika yang lumayan bagus. Jika menelusuri asal data pelatihan, ujungnya adalah perolehan ilegal
      Fakta bahwa materi yang diperoleh secara ilegal itu dipakai dalam usaha komersial, dan usaha itu berupa model AI, mungkin justru hal sekunder. Anda tidak bisa memakai materi yang diperoleh secara ilegal untuk menjalankan bisnis
    • Semakin dipikirkan, hasilnya tampaknya akan sangat bergantung pada apakah “hukum” memandang AI sebagai sesuatu yang lebih dekat ke manusia atau lebih dekat ke mesin
      Manusia bisa membaca dan meneliti lalu menghasilkan karya lain
      Tetapi “memberi data ke mesin” tampak seperti pelanggaran yang jelas, meskipun di ujung lain tidak keluar hal yang persis sama
    • Mungkin tidak, tetapi salah satu klaimnya menarik. Klaim bahwa sebagian dataset diperoleh secara ilegal
      Berapa nilai kerugiannya? Apakah kira-kira sebesar harga eceran edisi hardcover?
    • Dengan prompt yang tepat, bisakah LLM mengulangi seluruh buku itu kata demi kata?
    • Saya belum membaca gugatannya, tetapi mungkin ada argumen bahwa fair use tidak berlaku karena OpenAI melatih datanya menggunakan karya yang dicuri
  • Terlepas dari apakah LLM merupakan karya turunan dari seluruh materi pelatihannya, klaim ini tampak sangat lemah
    Bahkan jika karya itu sendiri sama sekali tidak ada dalam set pelatihan, LLM yang dilatih pada banyak ringkasan tentang karya tersebut bisa saja menghasilkan ringkasan seperti itu sendiri
    Secara umum, fakta bahwa sesuatu memiliki pengetahuan tentang suatu hal bukanlah bukti bahwa ia dilatih langsung dengan hal itu

    • Itu memang bukan bukti konklusif, tetapi pengadilan tidak menuntut bukti konklusif untuk memulai perkara dan menemukan fakta baru
      Seseorang bisa menanyakan kepada pakar LLM dan pihak OpenAI apakah kemungkinan besar output itu diturunkan dari karya berhak cipta yang dipermasalahkan
      Bagaimanapun, jika logikanya adalah “bukan, itu berasal dari ringkasan berhak cipta milik orang lain, bukan dari bukunya,” bukankah itu berarti orang yang menulis ringkasan tersebut seharusnya menggugat pelanggaran hak cipta sebagai gantinya? Kecuali OpenAI mengatakan “sebenarnya itu bukan ringkasan, melainkan seluruh buku”
    • Jika manusia ditempatkan pada posisi LLM, muncul nuansa yang menarik
      Kita telah membaca ribuan karya, jadi apakah itu berarti semua yang kita tulis adalah karya turunan?
  • Bukti yang lebih meyakinkan adalah jika ChatGPT bisa dipaksa mengeluarkan potongan teks asli alih-alih ringkasan
    Saat saya mencobanya sendiri, jawabannya adalah bahwa ia tidak dapat mengakses basis data eksternal atau buku tertentu setelah batas pengetahuan September 2021, dan tidak dapat memberikan kutipan verbatim dari The Bedwetter karya Sarah Silverman atau teks spesifik lainnya
    Namun, ia mengatakan bisa menghasilkan teks berdasarkan pelatihan dan pengetahuannya hingga saat itu, lalu menyarankan untuk bertanya tentang Sarah Silverman atau topik terkait

    • Mungkin saya melewatkan diskusi ini: https://news.ycombinator.com/item?id=36400053
      Tampaknya OpenAI tahu bahwa perangkat lunak mereka mengeluarkan materi berhak cipta, jadi mereka memasang filter darurat
      Jadi fakta bahwa saat ini ia tidak mengeluarkan isi buku ketika diminta bukanlah bukti bahwa AI itu tidak menghafal blok besar tersebut. Mungkin hanya filter keamanan yang aktif, dan mungkin hanya perlu cara bypass sederhana
    • Dulu saya pernah mencoba membuat ChatGPT mengeluarkan paragraf pertama The Lord of the Rings, dan ia berhenti setelah beberapa kata pertama
      Tampaknya para pengembang memang memfilter itu
    • GPT adalah JPEG kompresi lossy dari seluruh internet. Berdasarkan cara kerja jaringan saraf, mustahil mengekstrak teks verbatim darinya
      Menurut Anda bagaimana data teks skala exabyte bisa dimasukkan ke jaringan saraf berukuran gigabyte? Benar, itu kompresi lossy
  • Karena set pelatihannya berisi banyak ulasan dan ringkasan, bukankah jauh lebih besar kemungkinan model itu menyintesisnya sendiri dari sana?

    • Ada jejak yang terdokumentasi bahwa repositori buku ilegal digunakan untuk pelatihan
    • Sebenarnya, tampaknya jauh lebih mungkin mereka memasukkan banyak PDF buku ke folder pelatihan lalu menjalankannya begitu saja
      Sulit sekali percaya bahwa perusahaan AI ini benar-benar berhati-hati, walau sedikit pun, terhadap data yang mereka sedot untuk pelatihan
    • Ringkasan-ringkasan itu datang dari mana? Menurutku jauh lebih mungkin mereka mengeruk shadow library. Tentu saja, itu juga tampaknya hampir mustahil dibuktikan
      Mungkin bisa diuji sampai batas tertentu dengan meminta ringkasan buku atau teks yang hanya bisa didapat dari shadow library
    • Kalau ulasan dan ringkasan itu memang ada di set pelatihan, bukankah LLM milik OpenAI lebih mirip mesin pencari karena ia menghasilkan teks masukan sesuai prompt?
  • Agak lucu juga kalau Getty Images menggugat Stability AI soal AI. Karma, ya?
    Jadi Getty boleh mencuri dari orang lain, tapi orang lain tidak boleh mencuri dari Getty? Aku tidak punya kepentingan dalam pertarungan ini, tapi kemunafikan perusahaan-perusahaan seperti ini memang parah sekali

    • Getty mencuri dari siapa?