Suara saya dicuri oleh AI
(jeffgeerling.com)- Jeff Geerling menemukan narasi yang sangat mirip dengan suaranya sendiri dalam tutorial promosi YouTube milik Elecrow, tetapi ia tidak pernah mengucapkan langsung kalimat tersebut
- Suara yang dipermasalahkan tampaknya digunakan dalam beberapa seri video terkait ESP32 dan RP2040, dan Jeff mencurigai bahwa video YouTube miliknya kemungkinan digunakan dalam alat kloning suara AI
- Karena Jeff pernah mengulas CrowPi 2 milik Elecrow, perusahaan pembuat aksesori Raspberry Pi dan produk elektronik, konteks hubungannya lebih kompleks daripada sekadar sengketa dengan pihak eksternal
- Preseden hukum terkait kloning suara AI tanpa izin itu sendiri belum jelas, tetapi persoalan penggunaan suara orang lain tanpa persetujuan dalam pekerjaan komersial berkaitan dengan kasus Midler vs. Ford
- Sebelum mengajukan permintaan penghapusan atau tindakan hukum, Jeff terlebih dahulu mengirim email kepada Elecrow untuk meminta penjelasan dan penghapusan video, serta berpendapat bahwa perusahaan seharusnya menyelesaikannya dengan merekrut pengisi suara atau menjalin kolaborasi resmi
Suara yang mirip Jeff Geerling terdengar di video Elecrow
- Setelah mendengar sebuah klip YouTube dari Elecrow, Jeff Geerling menilai narasinya terdengar sangat familier dengan suaranya sendiri
- Video tersebut bukan dari Jeff Geerling channel, melainkan video Elecrow, dan Jeff tidak pernah mengucapkan kalimat yang ada di dalamnya
- Seseorang mengirim tautan video Elecrow lewat email dan memberi tahu bahwa suaranya terdengar aneh; Jeff menilai, karena kanalnya sendiri membahas topik yang sama, sebagian penonton mungkin mengira ia telah menyetujui kemunculan suaranya di video Elecrow
- Elecrow adalah perusahaan pembuat produk elektronik dan aksesori Raspberry Pi, dan Jeff pernah mengulas CrowPi 2 dari Elecrow di masa lalu
- Sebelumnya tidak ada hubungan buruk dengan Elecrow, sehingga Jeff belum 100% yakin apakah kejadian ini disengaja
- Dalam versi video dari tulisan ini, klip Elecrow dan suara alami Jeff dapat dibandingkan secara langsung
Dugaan kloning suara AI dan respons
- Meski mengakui bahwa hal ini sulit dibuktikan, Jeff menilai besar kemungkinan Elecrow memasukkan video YouTube miliknya ke suatu alat kloning suara AI dan menggunakan suara tersebut untuk menarasikan beberapa tutorial promosi
- Sebagai contoh, ia menyebut seri ESP32 dan seri RP2040
- Setelah insiden ketika OpenAI disebut secara efektif mengkloning suara Scarlett Johansson, ia berharap perusahaan akan lebih berhati-hati dengan suara AI untuk demo produk atau tutorial, tetapi kasus ini tidak sesuai dengan harapan tersebut
- Sejauh yang Jeff ketahui, belum ada preseden hukum yang jelas untuk kloning suara AI tanpa izin, tetapi ia menyebut Midler vs. Ford sebagai preseden bahwa suara orang lain tidak boleh digunakan tanpa persetujuan dalam pekerjaan komersial
- Menanggapi lewat pengacara membutuhkan biaya, dan belum jelas pula apakah kloning suara tanpa persetujuan melanggar ketentuan layanan YouTube
- Permintaan Jeff jelas
- Jangan mencuri suara atau rupa orang lain lalu menempelkannya pada produk atau video
- Brand seharusnya merekrut pengisi suara atau membayar kreator konten untuk berkolaborasi
- Jeff mengirim email kepada Elecrow dan meminta agar setidaknya 2 seri yang berisi suara AI mirip dirinya diturunkan
- Ia menanyakan apakah suara tersebut sengaja dibuat mirip dengannya
- Ia juga meminta konfirmasi apakah suara itu dilatih menggunakan video atau konten audio miliknya
- Ia ingin memulai lewat email sebelum mengajukan permintaan penghapusan YouTube atau tindakan hukum, dan masih membuka kemungkinan bahwa ini adalah kesalahan yang jujur mengingat sebelumnya tidak ada masalah
- Namun jelas bahwa Elecrow mengetahui kanal Jeff
- Sejak 2020 hingga sekarang, ada lebih dari 43 email yang dipertukarkan dengan 5 staf pemasaran Elecrow
- 22 di antaranya adalah email tahun ini
- Pada 2 April 2024, seorang staf pemasaran Elecrow mengirim email yang menyatakan ingin membahas kemitraan berbayar
- Dalam pembaruan 23 September, CEO Elecrow merespons, dan Jeff menerbitkan tulisan lanjutan yang memuat respons tersebut serta pemikirannya tentang kloning suara AI
1 komentar
Komentar Hacker News
Ketakutan terhadap AI mungkin berbeda-beda bagi tiap orang, tetapi yang особенно menakutkan adalah ketika AI memalsukan seolah-olah seseorang mengucapkan penistaan agama
Di negara saya, bahkan jika hanya terlihat seperti penghinaan yang sangat sepele, baik nyata maupun dibayangkan, akan muncul massa lynch penistaan agama. Mereka datang beramai-ramai, melakukan lynch, membakar jenazah, lalu saat keluarganya bersembunyi sambil merilis pesan video yang menyangkal korban dan memaafkan massa, para perusuh itu membagi-bagikan makanan manis
Ini sudah terjadi bahkan sebelum AI menjadi mudah diakses. Orang bisa bilang, “itu cerita negara terbelakang”, tetapi itu tidak akan berhenti di sana dan akan menyebar. Kita tidak bisa memberikan pisau kepada balita lalu menyalahkannya karena menusuk
Terlepas dari reputasi, keamanan, atau hak cipta, ini bisa membuat orang terbunuh, dan tidak ada alat untuk mengendalikannya
https://x.com/search?q=blasphemy
Saya takut pada masa depan
Jika alat-alat ini tetap dibatasi, diregulasi, atau sulit diakses, orang akan terus mengira video dan rekaman tidak mungkin dimanipulasi. Tetapi jika kloning suara menjadi lelucon yang mudah dan menyenangkan lewat aplikasi seharga 1 dolar, dan para remaja dibiarkan iseng melakukan prank call, itu bisa segera tertanam dalam kesadaran publik
Minggu lalu ibu saya yang berusia 70 tahun bertanya apakah ia harus menghapus salam pesan suaranya. Katanya, bukankah seseorang bisa mencuri suaranya dari situ? Saya kaget, mungkin ia mendengarnya dari siaran seperti Fox
Beberapa tahun ke depan akan sulit, tetapi saya harap masa itu cepat berlalu
Sekarang, kalau penggunanya punya cukup banyak komentar, kemungkinan besar mereka bisa dideanonymisasi lewat analisis korelasi. Meski tidak 100% akurat, gaya bicara tetap bisa dicuri. Mungkin saya terlalu hati-hati, tetapi tidak ada jaminan bahwa kita tidak akan masuk ke hutan gelap, dan ada alasan untuk menganggap kita sedang menuju ke sana
Pada saat yang sama, saya juga bertanya-tanya apakah tidak mundur ke bayang-bayang justru merupakan sikap untuk tidak menyerah
Mirip seperti di media sosial seperti Reddit, selama beberapa tahun orang bermain “mencari pelaku” atau “membongkar identitas”, lalu para pengelola sadar bahwa massa online sering salah, dan praktik itu biasanya kemudian dilarang
Tetapi sampai undang-undang disahkan atau sampai kesadaran bahwa video palsu lebih mungkin daripada video asli menjadi pengetahuan umum, banyak orang akan dirugikan. Bisa jadi butuh lebih dari 5 tahun, dan masalahnya undang-undang biasanya baru dibuat setelah kerugian pada seseorang terbukti
Saya tidak paham mengapa penggunaan AI bisa menjadi alasan untuk menghindari preseden Midler vs. Ford
Bahkan, jika bukan menyuruh pengisi suara lain menirukan suara itu melainkan langsung mengkloningnya dengan AI, argumen pembelaannya justru tampak lebih lemah
Di banyak negara bagian lain, undang-undang dan preseden terkait apa yang disebut hak publisitas tersebar dan berbeda-beda. Apakah konsep seperti itu harus diakui dan bagaimana batasnya harus ditentukan masih jauh dari adanya kesepakatan universal di antara negara-negara bagian
“...pengamatan ini berlaku pada lagu, terutama lagu dari penyanyi terkenal. Seorang penyanyi mengekspresikan dirinya dalam nyanyiannya. Meniru suaranya berarti membajak identitasnya...”
“Kami tidak perlu, dan tidak pula memutuskan, bahwa semua peniruan suara untuk iklan komersial dapat digugat. Kami hanya memutuskan bahwa ketika suara khas dari penyanyi profesional yang terkenal sengaja ditiru untuk menjual suatu produk, penjual telah mengambil sesuatu yang bukan miliknya...”
Terima kasih sudah menunjukkan presedennya, tetapi preseden hanyalah titik awal, dan pada akhirnya kita harus menetapkan prinsip yang melampaui preseden
Jika teknologi membawa kemampuan yang belum pernah ada sebelumnya, masyarakat harus menarik batas agar sistem bekerja menguntungkan orang-orang, bukan merugikan mereka; kalau tidak, kita hanya akan semakin mendekat ke dunia tempat pihak kuat melakukan sesuka hati sementara pihak lemah atau orang yang cuma mengendarai Camry harus menanggung akibatnya
Masih dikembangkan di DPR, tetapi mendapat dukungan bipartisan. Anda bisa menghubungi anggota DPR dari distrik Anda dan meminta mereka ikut mensponsori atau memberikan suara setuju
https://www.cbsnews.com/losangeles/news/california-bills-pro...
https://salazar.house.gov/media/press-releases/salazar-intro...
https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
Anda harus mencari lembaga nirlaba politik seperti ACLU yang mau menanggung biaya banding berulang kali, dan selama itu harus bertahan menghadapi liputan media negatif dan sorotan publik
Saya sepenuhnya setuju bahwa kelas Camry membutuhkan pembela, tetapi salah satu prinsip inti praktik modern adalah membiarkan orang memilih tingkat kontribusi yang sanggup mereka tanggung. Kita boleh mendorong, mengangkat, dan memberi keberanian, tetapi jangan mempermalukan
Bagaimanapun, tulisan blog ini saja rasanya sudah cukup. Hampir tidak ada orang yang akan berpihak pada pencurian suara manusia, dan berbeda dengan mengikis data pelatihan dari arsip NYT atau deviantart, hal ini terasa menjijikkan secara intuitif. Mungkin tidak akan menghasilkan ganti rugi besar lewat mempermalukan mereka di depan umum, tetapi tampaknya itu juga bukan yang diinginkan
Jika model bahasa besar adalah mesin remix pamungkas, maka siapa pun yang punya retrieval-augmented generation (RAG) apakah berarti menjadi DJ digital
Dalam informasi digital, bahkan semakin sulit mengetahui apa itu pencurian. Preseden hukum masih minim sehingga rasanya seperti era Wild West untuk hak kekayaan intelektual dan hukum hak cipta
Jika bahkan superstar seperti Scarlett Johansson hanya bisa menulis surat yang menyakitkan setelah OpenAI mencoba meniru persona “Her”, lalu apa yang bisa dilakukan orang biasa yang relatif niche dan culun
Mungkin seperti Geerling: sama-sama sedih, marah, dan frustrasi, tetapi hanya bisa berkata, “tolong patuhi aturan kehormatan dengan niat baik”
Dalam kasus seperti itu, reputasi tersebut juga bisa dipakai untuk membalas. Misalnya, sulit membayangkan kejadian ini pada akhirnya akan baik bagi reputasi Elecrow. Saat berikutnya melihat nama perusahaan ini, yang terlintas adalah “oh, perusahaan yang menipu orang itu”, dan itu buruk bagi mereka
Yang lebih mengkhawatirkan adalah jika ini dipakai untuk menyingkirkan orang yang tidak disukai. Misalnya, bisa dibayangkan situasi ketika seorang dosen universitas tidak melakukan kesalahan apa pun, tetapi mahasiswa yang tidak puas dengan nilainya memakai kloning suara untuk membuat seolah-olah dosen itu mengatakan sesuatu yang cukup untuk membuatnya dipecat. Jika kloning suara menjadi sangat bagus, bagaimana orang seperti itu bisa membela diri? Itu akan sulit, setidaknya sampai rekaman itu sendiri menjadi begitu umum tidak lagi dipercaya
Pencurian mensyaratkan adanya korban yang kehilangan manfaat dari barang yang dicuri. Salin-tempel hanya merobohkan sistem rapuh seperti rumah kartu yang mengancam orang dengan penjara dan kemiskinan jika memakai meme yang diklaim tanpa membayar
Jika menjadi juri dalam perkara pelanggaran hak cipta di mana tergugatnya manusia, bukan korporasi, saya akan membatalkannya lewat nullifikasi juri
Bukankah Eric Schmidt baru-baru ini mengatakan, jika berhasil, curilah dulu dan biarkan para pengacara membereskannya nanti?[0,1]
[0] https://x.com/alexeheath/status/1823873344133062680
[1] Tepatnya maksudnya adalah mencuri secara legal, tetapi saya tidak tahu itu artinya apa
Jika dunia terus melompat, menendang, dan mencoba menjatuhkanmu dari bawah, mungkin yang salah adalah tempatmu berdiri
Pada objek yang punya antarmuka
.copy(), pencurian tidak terdefinisi. Meski begitu, jika dilihat lebih dekat, itu tetap adaOrang seharusnya menyesuaikan ekspektasi, bukan hukumnya. Komputer menggantikan kasir, dan sekarang akting suara menggantikan pengisi suara. Popularitas sebenarnya tidak terlalu berarti, dan kalau hanya orang populer yang bisa mempertahankan pekerjaan, bukankah itu juga tidak adil
Bahkan jika bagian AI-nya dikesampingkan, rasanya ini bukankah sudah merupakan distorsi serius terhadap pendapat Jeff atau penggunaan citranya tanpa izin
Dengan memakai suaranya, mereka menciptakan dukungan tersirat dan termanipulasi terhadap produk itu, dan itu terasa sangat salah. Rasanya hukum untuk menangani kasus seperti ini pasti sudah ada jauh sebelum AI muncul
Dari dulu sudah ada orang yang sangat pandai meniru suara, dan umumnya kemampuan itu dipakai untuk komedi atau satire, bukan untuk memelintir pendapat orang lain. Saya bukan ahli hukum, tetapi ini tampaknya berdiri di atas dasar hukum yang cukup kuat, dan tindakan mewakili orang secara keliru seharusnya relatif mudah ditangani secara hukum
Perbedaannya adalah demokratisasi. Dari yang tadinya hanya segelintir orang punya kemampuan seperti ini, sekarang hampir siapa pun yang punya komputer bisa melakukan hal serupa. Karena itu penegakannya jadi jauh lebih sulit, dan jika penyelesaiannya memerlukan tindakan hukum, kemungkinan besar itu akan terlalu berat untuk ditanggung orang seperti Jeff Geerling
Mungkin saya yang aneh, tetapi saya tidak merasa suara itu sangat mirip dengannya
Agak mirip, tetapi berbeda, nadanya sedikit lebih tinggi, lebih sengau, dan intonasinya juga agak berbeda
https://www.youtube.com/watch?v=UMofZIT9FcQ
Perbedaan intonasi dan nada yang disebutkan itu hanya muncul karena ini adalah suara hasil generasi AI, bukan ujaran manusia
Mungkin pihak sana akan berkata bahwa mereka juga mencampurkan suara-suara yang lebih enak didengar untuk menciptakan perbedaan yang cukup
Masalahnya adalah siapa yang menentukan seberapa berbeda sesuatu harus terdengar agar lolos dari penyalahgunaan kemiripan rupa/suara. “Raja suara culun umum” akan dituduh mengklaim kemiripan berlebihan, sementara pihak yang dicurigai tidak akan membuka seluruh prosesnya
Menyetel suara AI dengan telinga juga sebentar lagi akan menjadi mungkin, jadi sekalipun seseorang meminta agar suara representatif dari bidang tertentu dikecualikan dari pelatihan, itu pun belum tentu aman. Gagasan semacam otoritas pengawas suara terdengar suram
Sebagai YouTuber teknologi kecil, saya juga pernah berhubungan dengan Elecrow
Setahu saya, bukan hanya Elecrow, pegawai di berbagai perusahaan mendapat imbalan, promosi, atau komisi jika berhasil menjalin kemitraan jangka panjang atau kolaborasi video dengan YouTuber. Mungkin ada seseorang yang melihat kanal Jeff cukup terkenal di bidang ini lalu berpikir menyalin suara Jeff adalah langkah yang cerdas
Dari sudut pandang Elecrow sekarang, ini jelas bukan publisitas yang bagus, dan saya juga penasaran apakah mereka akan mengakui bahwa itu disengaja
Gagasan bahwa yang penting adalah nada suara yang dicuri mungkin merupakan bagian paling picik dari investasi AI. Ini pada dasarnya didorong oleh pola pikir ala Hollywood: “jangan pernah membuat sesuatu yang baru”
Dalam sekitar 5 tahun, suara AI akan bersifat kustom dan lebih enak didengar daripada manusia sungguhan. Tidak dibatasi kelelahan pita suara, bisa diubah sesuka hati, dan mudah dikoreksi dengan meneliti keterlibatan pengguna
Ke depannya, yang akan menjadi inti adalah cara menyetel keluaran suara secara halus dan mengamati keterlibatan
Itulah tepatnya alasan mereka memilih suaranya
Suara AI mungkin bisa menjadi tidak terbedakan secara estetis atau bahkan lebih disukai, tetapi tidak bisa memuat reputasi atau ketulusan. Hal-hal itu bernilai karena pada dasarnya langka. Justru di lautan konten murahan yang sudah menjadi komoditas umum, kemungkinan besar permintaan terhadap orang dengan nilai merek yang unik tidak akan turun, melainkan naik. Itulah juga alasan influencer menghasilkan banyak uang dari iklan belakangan ini
“pelatihan”, ya
Saat ini pun mereka menyediakan berbagai teknik kloning suara yang dimulai dari input suara 30 detik. Yang 30 detik memang agak mirip dengan suara target, tetapi tidak sepenuhnya sama, dan jika diberi beberapa jam rekaman suara hasilnya terdengar seperti orang sungguhan. Selain itu, suaranya bisa disetel dengan beberapa parameter, atau bahkan dibuat baru hanya dari definisi parameter
Dilihat dari kualitasnya, suara dalam video itu bisa jadi suara “kloning instan” yang dibuat dari input beberapa detik. Untuk kloning yang lebih canggih, diperlukan bukti bahwa itu memang suara Anda sendiri
[1] https://elevenlabs.io
Dalam situasi seperti itu, perusahaan mungkin ingin membeli suara mereka. Ini bukan hanya soal enak didengar, tetapi karena nilai keakraban itu besar. Misalnya, ElevenLabs juga pernah membeli hak suara orang yang sudah meninggal dari keluarga yang ditinggalkan
Namun selain konteks khusus yang bercampur nostalgia seperti ini, saya tidak melihat alasan untuk tidak membuat suara sintetis sejak awal
Orang-orang akan menganggapnya lucu sampai seseorang membuat rekaman yang seolah-olah menunjukkan orang lain mengakui kejahatan, lalu itu dipakai di pengadilan
Inilah bagian dari AI yang paling saya benci
Tapi kalau bukti video dan audio tidak bisa diterima, lalu kita harus bagaimana
Namun dalam kedua kasus itu, tampaknya hal ini lebih penting di pengadilan opini publik daripada di pengadilan yang sebenarnya
Saat menilai teknologi baru yang berguna, sulit menganggap pelestarian format bukti sebagai perhatian utamanya
Ada ratusan alat kloning suara, jadi munculnya konten suara hasil kloning itu wajar
Ini mirip dengan penggunaan gambar seseorang tanpa izin. Platform dan tim operasional sudah memiliki prosedur pelaporan dan penghapusan untuk hal seperti itu. Sepertinya hal serupa juga diperlukan untuk suara