Di Mercor, 4 TB sampel suara dari 40 ribu kontraktor AI bocor

(app.oravys.com)

1 poin oleh GN⁺ 2 hari lalu | 1 komentar | Bagikan ke WhatsApp

Terjadi kebocoran besar yang mengikat biometrik suara dan identitas resmi yang diterbitkan pemerintah dalam satu baris data, dan berdasarkan indeks sampel yang bocor, lebih dari 40 ribu kontraktor AI ikut terdampak
Tiap kontraktor berisi rekaman bersih rata-rata 2–5 menit, jauh melampaui ambang kloning suara yang bisa dilakukan hanya dengan sekitar 15 detik audio referensi
Data yang bocor menyediakan klon suara dan identitas terverifikasi sekaligus, sehingga bisa disalahgunakan untuk melewati autentikasi suara bank, vishing yang menargetkan tempat kerja, panggilan video deepfake, penipuan klaim asuransi, dan panggilan darurat yang menyamar sebagai anggota keluarga
Jika pernah mengunggah sampel suara ke Mercor atau broker pelatihan AI lain yang beroperasi hingga 2025, data itu harus diperlakukan seperti kata sandi yang bocor, dan perlu menghapus suara publik, menetapkan kode kata, serta mendaftarkan ulang atau menonaktifkan voice print
Suara yang mencurigakan perlu diperiksa lewat analisis forensik untuk melihat ketidakcocokan codec, pola napas, micro-jitter, lintasan formant, konsistensi akustik ruangan, serta anomali prosodi dan kecepatan bicara, yang makin menyingkap kerentanan autentikasi suara secara umum

Ringkasan insiden

Pada 4 April 2026, Lapsus$ memposting Mercor di situs kebocorannya, dan skala kebocoran dilaporkan sekitar 4 TB
Arsip yang bocor menggabungkan biometrik suara dengan identitas resmi yang diterbitkan pemerintah milik orang yang sama, dan berdasarkan indeks sampel yang bocor, lebih dari 40 ribu kontraktor termasuk di dalamnya
Para korban adalah kontraktor yang mendaftar untuk pelabelan data pelatihan AI, merekam kalimat untuk dibacakan, dan melakukan panggilan verifikasi
Dalam 10 hari setelah postingan itu, diajukan 5 gugatan oleh kontraktor, yang menuduh voice print dikumpulkan sebagai "data pelatihan" tanpa penjelasan yang jelas bahwa data tersebut adalah pengenal biometrik permanen

Mengapa kebocoran ini berbeda

Kebocoran suara dalam 10 tahun terakhir umumnya terbagi menjadi rekaman panggilan yang sulit dihubungkan ke identitas atau kebocoran identitas/selfie tanpa audio
Proses pendaftaran Mercor menggabungkan pindaian paspor atau SIM, selfie webcam, dan rekaman suara pembacaan skrip di lingkungan tenang ke dalam satu baris data
Kombinasi ini persis cocok dengan bentuk input yang dibutuhkan oleh layanan kloning suara sintetis
Menurut laporan Wall Street Journal pada Februari 2026, alat komersial cukup membutuhkan sekitar 15 detik audio referensi yang bersih untuk membuat kloning suara berkualitas tinggi
Rekaman Mercor dilaporkan berisi suara berkualitas studio selama rata-rata 2–5 menit per kontraktor, jauh melampaui ambang kloning
Jika dipadukan dengan dokumen identitas yang sudah terverifikasi, penyerang akan memiliki klon suara sekaligus kredensial untuk dipakai dalam serangan nyata

Serangan yang dimungkinkan oleh data suara yang dicuri

Melewati autentikasi bank
- Sejumlah bank di AS dan Inggris masih memperlakukan pencocokan voice print sebagai salah satu dari dua faktor autentikasi
- Jika klon suara pemilik rekening membacakan frasa tantangan, penghalang audio bisa dilewati, dan yang tersisa hanya pertanyaan berbasis pengetahuan yang juga bisa berasal dari dataset bocor yang sama
Vishing yang menargetkan tempat kerja
- Penyerang bisa menelepon HR atau bagian keuangan sambil menyamar sebagai karyawan untuk mencoba mengubah rekening gaji, meminta transfer, atau membuka kunci workstation
- Arsip Krebs on Security telah mencatat lebih dari 24 kasus terverifikasi sejak 2023
Panggilan video deepfake
- Pada 2024 di Arup, setelah panggilan video deepfake multi-orang, seorang pejabat keuangan mentransfer sekitar 25 juta dolar AS
- Saat itu suara dan wajah dibuat dari video publik, tetapi data bocor Mercor berisi audio studio dan identitas terverifikasi yang lebih baik daripada video publik
Penipuan klaim asuransi
- Pindrop menghitung bahwa sepanjang 2025, serangan suara sintetis terhadap call center asuransi meningkat 475% dibanding tahun sebelumnya
- Klaim kendaraan, jiwa, dan disabilitas yang diproses lewat telepon menjadi target utama
Penipuan panggilan darurat yang menyamar sebagai keluarga
- FBI Internet Crime Complaint Center menghitung kerugian korban berusia 60 tahun ke atas pada 2026 sebesar 2,3 miliar dolar AS
- Kategori yang tumbuh paling cepat adalah panggilan darurat penipuan yang mengklaim seorang kerabat sedang dalam bahaya

Memeriksa penyalahgunaan suara dan respons segera

Jika Anda pernah mengunggah sampel suara ke Mercor atau broker pelatihan AI lain yang beroperasi hingga 2025, perlakukan itu seperti kata sandi yang telah bocor
Suaranya sendiri tidak bisa diganti, tetapi sarana autentikasi yang bisa dibuka oleh suara tersebut dapat diubah
Periksa jejak audio publik
- Cari sampel suara yang diindeks publik di YouTube, direktori podcast, dan rekaman Zoom lama
- Sebaiknya hapus sebanyak mungkin suara publik yang bisa diturunkan
- Semakin sedikit audio referensi publik, semakin rendah pula ketahanan klon bagi penyerang
Tetapkan kode kata lisan dengan keluarga dan kontak keuangan
- Pilih frasa yang belum pernah direkam maupun diketik di chat
- Bagikan lebih dulu kepada orang-orang yang mewakili Anda dalam urusan dana
- Untuk panggilan yang meminta transfer uang, paling aman menjadikan kode kata sebagai prosedur wajib
Daftarkan ulang tempat yang menggunakan voice print
- Google Voice Match, Amazon Alexa Voice ID, Apple personal voice, dan pendaftaran voice print bank dapat dihapus lalu diganti
- Sebaiknya daftarkan ulang dengan rekaman baru di lingkungan akustik yang berbeda dari sampel yang bocor
Nonaktifkan autentikasi voice print di bank
- Anda bisa meminta secara tertulis agar voice print dihapus dari faktor autentikasi
- Lebih baik meminta autentikasi multi-faktor yang menggabungkan token aplikasi atau hardware key dengan elemen berbasis pengetahuan
- Banyak bank menyediakan opsi untuk menghapus suara dari faktor autentikasi utama, tetapi tidak mengumumkannya secara luas
Analisis forensik untuk rekaman mencurigakan
- Jika menerima file audio atau pesan suara dari seseorang yang mengaku Anda kenal sambil meminta uang, akses, atau respons darurat, jangan langsung bertindak; sebaiknya jalankan lewat detektor deepfake
- ORAVYS memberikan pemeriksaan gratis untuk 3 sampel pertama yang diajukan oleh korban insiden
- Run a forensic check →

Checklist analisis forensik

Analisis forensik dimulai dengan mencari kesalahan umum pada suara sintetis
Ketidakcocokan codec terlihat ketika tanda spektral audio yang diklaim sebagai panggilan telepon tidak sesuai dengan codec telepon yang dikenal
Pola napas pada pembicara asli mengikuti panjang kalimat dan kapasitas paru-paru, sedangkan suara sintetis cenderung melewatkan napas atau menaruhnya di batas suku kata yang salah
Micro-jitter berarti ketidakteraturan halus pada getaran pita suara alami, sedangkan audio hasil generatif sering terlalu bersih pada skala milidetik
Lintasan formant mengikuti jalur transisi vokal yang dibentuk organ artikulasi nyata, tetapi suara hasil kloning kadang melompat antar-formant dengan cara yang secara fisik mustahil
Konsistensi akustik ruangan menuntut karakteristik gema tetap sama dari awal hingga akhir file, tetapi audio generatif bisa tidak selaras, misalnya suara utama kering sementara konteks sekitar terdengar bergema
Perataan prosodi tampak ketika suara sintetis memiliki rentang perubahan nada dan energi yang lebih sempit daripada pembicara asli
Stabilitas kecepatan bicara tampak dari suara generatif yang mempertahankan tempo tetap seperti metronom dalam segmen panjang, tidak seperti manusia yang alami mengalami percepatan dan perlambatan

Cara ORAVYS melakukan pemeriksaan

Untuk setiap sampel yang diajukan, ORAVYS menjalankan lebih dari 3.000 engine forensik secara paralel, mencakup domain sinyal, prosodi, artikulasi, codec, dan asal-usul
Deteksi watermark AudioSeal dapat menandai file yang dibuat model suara komersial utama bila watermark masih dipertahankan, dan bila watermark ada maka hasil positifnya bersifat konklusif
Modul anti-spoofing dilatih berdasarkan benchmark publik ASVspoof dan memberi skor kemungkinan bahwa sampel itu sintetis, bukan rekaman
Menerapkan pemrosesan biometrik yang patuh RGPD, tidak menggunakan audio untuk pelatihan model komersial tanpa persetujuan eksplisit, dan menghapusnya sesuai jadwal retensi yang telah ditentukan
Jika Anda adalah kontraktor Mercor dan suara Anda mungkin sudah beredar, 3 sampel mencurigakan pertama akan dianalisis gratis
Laporan gratis mencakup deteksi watermark, skor anti-spoofing, dan checklist artefak di atas
Disebutkan juga bahwa tidak diperlukan informasi kartu maupun hambatan batas penggunaan

Sumber dan batasan

Sumber yang disebut meliputi indeks situs kebocoran Lapsus$, Wall Street Journal edisi Februari 2026, Pindrop Voice Intelligence Report 2025, FBI IC3 Elder Fraud Report 2026, dan arsip Krebs on Security
ORAVYS tidak meng-host maupun mendistribusikan ulang dataset yang bocor, dan juga tidak menerimanya sebagai input

1 komentar

GN⁺ 2 hari lalu

Opini Hacker News

Ironinya besar. Untuk mengurangi dampak suara saya jatuh ke tangan perusahaan AI, malah harus mengirim suara ke perusahaan AI lain, sungguh absurd
Mercor kemungkinan juga sudah memasukkan persetujuan eksplisit ke dalam syarat layanan agar punya celah lolos secara hukum
- Yang lebih pahit daripada tawaran analisis gratis adalah fakta bahwa sejak awal struktur kontrak Mercor sendiri memang persis seperti pola itu
  Harus menyerahkan rekaman suara kualitas studio dan pindaian kartu identitas, padahal untuk pekerjaan pelabelan data yang sebenarnya keduanya tidak diperlukan, persetujuan disembunyikan jauh di dalam syarat layanan, dan orang-orang tetap terpaksa mengklik karena butuh bayaran
  Kini 40 ribu orang belajar bahwa biometrik bukan kata sandi, dan suara juga bukan sesuatu yang bisa diganti
- Ungkapan CYA terasa seperti cara yang terlalu enteng untuk membungkus kenyataan
  Idealnya hukum adalah sarana yang mudah diakses untuk menyelesaikan sengketa tanpa kekerasan, tetapi sekarang lebih sering dipakai sebagai sistem Kafkaesque untuk mempertahankan kekuasaan perusahaan atas individu
  Kenyataannya lebih mendekati memblokir hampir semua jalur pemulihan hukum, sementara opsi respons lain menuntut biaya besar yang berkelanjutan, seperti mempertahankan banyak tempat tinggal atau menyewa pengawal
  Ini bukan membela kekerasan, melainkan mengatakan bahwa kita butuh sistem hukum yang lebih setara dan mudah diakses
- Jika melihat artikel WSJ minggu lalu, Mercor tampaknya bermain di wilayah abu-abu kontrak. Bukan cuma soal suara
  Banyak orang pada praktiknya juga menyadap diri mereka sendiri dan perusahaan mereka
  Bahkan jika para kontraktor Mercor menuduh ada pengumpulan data berlebihan melalui Insightful, dari sudut pandang perusahaan ini juga struktur yang cukup cerdik. Sebab jika mereka terlalu keras mengeluh, mereka bukan hanya bisa kehilangan pekerjaan utama, tetapi juga takut menanggung tanggung jawab tanpa batas atas pelanggaran yang dianggap disengaja
  https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
- Saat mencoba menghapus akun Airbnb, saya diminta pindaian depan-belakang kartu identitas, jadi saya menyerah begitu saja, dan sejak itu tidak pernah lagi memakai perusahaan itu
- Kedengarannya mirip dengan situasi di mana untuk menerima kompensasi pencurian identitas, Anda harus memverifikasi identitas Anda dulu
Saya penulisnya. Saya menulis posting ini setelah melihat arsip Mercor yang diunggah Lapsus$ ke situs kebocorannya awal bulan ini
Yang paling menonjol adalah kombinasi sampel suara dan pindaian identitas. Biasanya kebocoran hanya salah satunya, tetapi kali ini rasanya seperti menyerahkan satu paket alat yang siap langsung dipakai untuk deepfake
Saya mencoba merangkum secara praktis apa yang benar-benar bisa dilakukan penyerang dengan kombinasi ini, misalnya melewati autentikasi suara bank, penyamaran panggilan video ala Arup, penipuan asuransi, serta checklist 5 langkah yang harus diikuti para kontraktor yang terdampak
Sisi deteksi forensik juga layak dibahas. Watermark AudioSeal, anti-spoofing AASIST, dan bagaimana lanskap deteksi akan berubah jika biometrik suara mulai bocor dalam skala besar juga penting
- Bahannya menarik. Mercor hampir tidak mengeluarkan pernyataan publik setelah insiden ini
  Postingan media sosial mungkin bukan pengumuman resmi, tetapi saya menemukan contoh pemberitahuan kebocoran ini yang diajukan di California
  Menarik untuk melihat apakah para legislator kita kali ini akan serius menangani privasi data
  https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
- Beberapa tahun lalu ketika HSBC menawarkan autentikasi suara, saya langsung menolaknya
  Di perangkat Apple pun saya tidak memakai biometrik, hanya PIN 6 digit
  Menurut saya ini memang ide bodoh sejak awal
  Pola yang sama terus berulang: saat harus memilih antara kenyamanan dan keamanan, orang yang tidak memilih kenyamanan dianggap paranoid, lalu ketika insiden benar-benar terjadi, mereka tetap dianggap paranoid hanya dengan alasan lain
Hanya data yang tidak ada yang tidak bisa dicuri atau bocor. Ini pelajaran pahit bagi pengguna maupun perusahaan
Dalam bahasa Jerman bahkan ada istilah Datensparsamkeit untuk konsep ini. Kira-kira artinya menggunakan data sehemat mungkin
- Ada konteks sejarah juga mengapa bahasa Jerman punya kata seperti ini
  Pada 1970-an di Jerman ada perdebatan besar tentang privasi dan penyimpanan data, dan istilah seperti Datenschatten juga dipakai
  Tradisi ini mungkin lahir dari refleksi pasca-Perang Dunia II dan perenungan atas sistem administrasi
- Sebelum era LLM, cukup mudah berargumen bahwa data yang tidak perlu hanya menambah tanggung jawab dan risiko
  Sekarang semua orang justru ingin mengumpulkan lebih banyak apa pun sebagai data untuk AI
- Data bukan benda fisik, jadi secara ketat sebenarnya tidak dicuri
  Data bisa disalin atau dihapus, dan kadang keduanya terjadi sekaligus
  Satu-satunya saat data bisa benar-benar dikatakan hilang adalah ketika salinan terakhirnya ikut dihapus
- Tapi perusahaan hampir tidak pernah benar-benar belajar dari pelajaran ini
  Dalam model ancaman enterprise, bahkan pengguna mereka sendiri termasuk di dalamnya, dan cara operasinya justru terus menumpuk sebanyak mungkin informasi tentang ancaman tersebut
- Data yang sudah dipublikasikan sulit dimasukkan ke konsep kebocoran atau pencurian
  Misalnya dataset Common Voice milik Mozilla bukan sesuatu yang bisa dicuri seseorang
Kemarin di Houston saya berada dekat mantan orang agensi dan eks GS15, dan saya mendengar penjelasan bahwa pihak keamanan siber Israel selama 20 tahun terakhir menyusup ke suatu titik dalam rantai pasok pesan suara, lalu mengambil voicemail semua orang
Sekarang ada begitu banyak cara untuk memanfaatkan data audio sampai terasa menyeramkan
Jadi sekarang apakah kita semua tinggal mengganti suara saja
Ini bercanda, tetapi kebanyakan orang biasa yang saya kenal memang menyerahkan biometrik hanya karena lebih mudah
Biometrik perlu dipasarkan sebagai semacam kata sandi permanen, supaya orang paham apa sebenarnya yang mereka serahkan saat memakainya untuk akses rekening bank atau masuk ke Disney World
- Secara fungsional biometrik lebih mirip nama pengguna daripada kata sandi
  Sidik jari, DNA, iris, gaya berjalan, dan sejenisnya adalah pengenal permanen yang nyaris tidak bisa diubah, dan terus terekspos ke dunia seperti alamat email
  Selain itu, dalam hukum AS polisi bisa memaksa seseorang menunjukkan sidik jari, tetapi kata sandi dilindungi oleh Amandemen Kelima
- Orang yang berkata lebih mudah memang punya cara berpikir yang berbeda
  Mereka hidup cukup baik dengan kepercayaan sosial dan plausible deniability, dan cenderung tidak terlalu peduli selama bukan kesalahan mereka sendiri
  Mereka tidak melihat mengekspos diri pada risiko sebagai hal yang sama dengan memikul tanggung jawab
  Dalam arti tertentu agak membuat iri juga. Seolah mereka hidup dengan asumsi bahwa dunia memang seharusnya seperti itu
- Saat saya bekerja di bank, istilah forever passwords justru dipakai secara positif
  Maksudnya pelanggan tidak akan lupa dan kebutuhan dukungan jadi lebih sedikit, jadi banyak orang bisa saja menangkap istilah itu sebagai sesuatu yang baik
Fakta bahwa Mercor menipu 40 ribu kontraktor dan juga sangat buruk dalam mengamankan data benar-benar parah
Hal seperti ini seharusnya diikuti pertanggungjawaban yang lebih keras
- Yang sedang terjadi sekarang adalah para CTO yang tidak tahu-menahu tentang perusahaan ini jadi ikut mengenal namanya
  Karena itu, hasil dari kekacauan ini bisa saja malah berujung pada bisnis tambahan untuk Mercor
  Kita pernah melihat hal serupa saat kasus Crowdstrike
- Minimal, jika seseorang mengumpulkan sidik suara, syarat persetujuan, penyimpanan, dan keamanannya harus jauh lebih ketat daripada data pelatihan biasa
Jika penyerang punya 30 detik suara seseorang yang dibacakan dengan jelas dan pindaian SIM, ada cukup banyak hal yang bisa mereka lakukan
Bank dan perusahaan pialang saya sendiri pun memakai ID suara
Tujuan perusahaan ini sendiri terasa seperti memang untuk menyedot data semacam itu
- Dari kebijakan privasinya hal itu terlihat lebih jelas
  Mereka mengumpulkan banyak sekali hal seperti video, suara, dan lain-lain
Jika ini benar, masalah yang lebih besar mungkin bukan kebocoran itu sendiri
Kita diam-diam sedang masuk ke dunia di mana suara + identitas saja sudah cukup untuk sepenuhnya menyamar sebagai seseorang, sementara sebagian besar sistem belum dirancang dengan asumsi realitas itu
Ada juga masalah ketenagakerjaan yang tidak enak dilihat di sini
Orang-orang yang melabeli dan melatih sistem seperti ini justru berada di posisi paling minim perlindungan saat pipeline data berubah menjadi permukaan serangan

Di Mercor, 4 TB sampel suara dari 40 ribu kontraktor AI bocor

Ringkasan insiden

Mengapa kebocoran ini berbeda

Serangan yang dimungkinkan oleh data suara yang dicuri

Melewati autentikasi bank

Vishing yang menargetkan tempat kerja

Panggilan video deepfake

Penipuan klaim asuransi

Penipuan panggilan darurat yang menyamar sebagai keluarga

Memeriksa penyalahgunaan suara dan respons segera

Periksa jejak audio publik

Tetapkan kode kata lisan dengan keluarga dan kontak keuangan

Daftarkan ulang tempat yang menggunakan voice print

Nonaktifkan autentikasi voice print di bank

Analisis forensik untuk rekaman mencurigakan

Checklist analisis forensik

Cara ORAVYS melakukan pemeriksaan

Sumber dan batasan

Bacaan terkait

1 komentar

Opini Hacker News