EY Canada merilis laporan keamanan siber, dan sebagian besar kutipannya ternyata halusinasi
(gptzero.me)- Laporan penipuan loyalitas setebal 44 halaman dari EY Canada terungkap sebagai dokumen yang bercampur antara kutipan palsu, atribusi sumber yang salah, statistik palsu, dan teks yang ditulis AI
- Sebagian besar URL dalam tabel referensi rusak atau palsu, lebih dari setengah judul tidak cocok dengan sumber aslinya, dan AI Scan menandai 72% teks sebagai buatan AI
- Banyak sumber yang diklaim berasal dari BleepingComputer, Wired, Gartner, McKinsey, Forbes, Cisco Talos, dan TechCrunch terbukti berupa 404 error, halaman tag, atau dokumen yang tidak ada
- Angka $200 miliar digunakan dengan dua makna yang sulit didamaikan, yakni sebagai seluruh pasar poin loyalitas dan sebagai nilai poin yang tidak terpakai, sementara dua kutipan pendukungnya juga terbukti direkayasa
- Laporan yang cacat itu menyebar ke Canberra Times dan lebih dari 60 surat kabar, dan Claude, ChatGPT, serta Perplexity juga menampilkan informasi halusinasi tersebut
Masalah pada laporan EY Canada
- EY Canada menerbitkan laporan setebal 44 halaman pada akhir 2025 tentang ancaman siber dan penipuan dalam sistem loyalitas, Points of Attack: Uncovering Cyber Threats and Fraud in Loyalty Systems
- Laporan ini mencantumkan kredit untuk dua partner dan satu senior manager, tetapi juga ditemukan kutipan palsu, atribusi sumber yang salah, statistik palsu, dan teks buatan AI
- EY Canada adalah organisasi Kanada dari Ernst & Young yang setiap tahun memberikan layanan senilai jutaan dolar kepada pemerintah Kanada
- Hallucination Check milik GPTZero digunakan dalam pipeline otomatis untuk mencari dan memindai laporan publik dari perusahaan konsultan besar dalam beberapa bulan terakhir, dan mengindikasikan bahwa vibe citing juga menyebar di laporan perusahaan besar
Cara pengutipan dan hasil verifikasi
- Laporan EY Canada tidak memakai catatan kaki atau sitasi akademik umum, melainkan menyebut sumber langsung di dalam teks atau mengumpulkannya dalam resources table di halaman 41–43
- Tabel ini menyediakan judul sumber, deskripsi, URL, sebagian penerbit, dan tanggal, tetapi sebagian besar URL rusak atau palsu, dan lebih dari setengah judul tidak cocok dengan sumber aslinya
- Dengan mempertimbangkan biaya reputasi akibat false positive, GPTZero mendefinisikan kutipan halusinasi dengan kriteria yang spesifik dan memverifikasi hasil Hallucination Check secara manual
- Teks laporan ditandai 72% sebagai buatan AI oleh GPTZero AI Scan, dan berulang kali menunjukkan kesalahan LLM seperti statistik palsu, atribusi sumber yang salah, dan kontradiksi internal
Contoh sumber palsu atau tidak akurat
-
Artikel pelanggaran loyalitas maskapai dari BleepingComputer
Airline Loyalty Breach: BleepingComputerdisajikan sebagai artikel tentang jutaan akun loyalitas maskapai yang dibobol lewat serangan credential stuffinghttps://bleepingcomputer.com/news/security/…mengembalikan 404 error, dan artikel pada jalur tersebut dipastikan telah dihapus atau memang tidak pernah ada sejak awal
-
Artikel Wired tentang deepfake suara dan keamanan API
AI Voice Deepfakes Targeting Call Centersdisajikan sebagai artikel Wired yang membahas penyerang mengeksploitasi prosedur layanan pelanggan dengan suara buatan AI- Tidak ada artikel Wired tersebut pada jalur
https://www.wired.com/story/voice-deepfakes-ai-scams/ Wired: API Security Gapsjuga disajikan sebagai artikel tentang kerentanan API pada layanan digital untuk konsumen, tetapihttps://www.wired.com/story/api-security-risks-retail/juga mengembalikan 404 error
-
Laporan Gartner dan McKinsey
Gartner Market Trends – Loyalty Frauddisajikan sebagai panduan strategis tentang evolusi penipuan dalam program loyalitas digital dan dompet selulerhttps://www.gartner.com/en/documents/4000201hanya mengarah ke situs utama Gartner, dan tidak ada dokumen Gartner dengan judul tersebutMcKinsey & Company – Loyalty Economics Report (2022)disajikan sebagai laporan yang memperkirakan nilai global poin reward yang tidak terpakai mencapai $200 miliar, tetapi laporan tersebut tidak ada
-
Artikel Forbes tentang ekonomi loyalitas
Forbes – The $200 Billion Loyalty Economydisajikan sebagai dasar bahwa program loyalitas adalah aset digital yang penting- URL-nya rusak, dan meski Blake Morgan pernah menulis di Forbes, tidak ada artikel yang cocok dengan judul tersebut
- Namun, artikel Forbes tahun 2020 memang menggunakan frasa “$200 billion loyalty economy”
-
Cisco Talos dan TechCrunch
Cisco Talos: API Attacks on Retaildisajikan sebagai tulisan tentang eksploitasi API yang tidak aman dalam sistem commerce dan loyalitas, tetapihttps://blog.talosintelligence.com/api-abuse-retail/mengembalikan 404 errorTechCrunch: Loyalty Program Breachesdisajikan sebagai artikel tentang pelanggaran program loyalitas dan kebocoran data pengguna, tetapihttps://techcrunch.com/tag/loyalty-program/bukan artikel tertentu melainkan halaman tagloyalty-program
Kontradiksi internal pada statistik $200 miliar
-
Klaim dalam ringkasan eksekutif
- Executive Summary mengklaim bahwa ukuran pasar global poin loyalitas adalah $200 miliar, dan 30–50% di antaranya tidak digunakan
- Klaim ini didukung oleh kutipan Forbes palsu
-
Makna yang berubah di halaman 10
- Di halaman 10, angka $200 miliar yang sama berubah makna dari total nilai global seluruh poin menjadi estimasi poin loyalitas yang tidak terpakai
- Karena sebelumnya sudah diklaim bahwa hingga 50% poin tidak digunakan, kedua klaim itu hanya bisa sama-sama benar jika ukuran pasar global poin loyalitas setidaknya $400 miliar
-
Pelacakan sumber kutipan McKinsey
- Laporan McKinsey & Company palsu di halaman 43 dipakai sebagai dasar untuk mendukung klaim kedua bahwa nilai global poin yang tidak terpakai mencapai $200 miliar
- Angka yang sama dipakai untuk dua makna yang sulit didamaikan, dan dua kutipan pendukungnya dipastikan sama-sama direkayasa
- Kutipan McKinsey ini dapat ditelusuri ke posting blog fintech dari Financial IT yang terbit 6 bulan sebelum laporan EY
- Tulisan tersebut mengklaim bahwa “more than $200 billion in points sit idle each year” dan mengutip
McKinsey & Company: Loyalty Economics Report (2022)yang tidak ada di bagian sumber - Kutipan palsu ini lalu masuk apa adanya ke dalam tabel referensi laporan EY, sehingga sumber palsu dari blog berkualitas rendah dicuci menjadi terbitan Big Four
Statistik 72% dan 89% yang sumbernya campur aduk
-
Statistik 72% penipuan program loyalitas
- Di halaman 6 disebutkan bahwa 72% program loyalitas pelanggan melaporkan pencurian atau penipuan
- Angka ini diatribusikan ke artikel 2019 milik perusahaan pemrosesan pembayaran Kanada, Paystone
- Di halaman 11, statistik yang sama diatribusikan ke NRF 2020 summary milik perusahaan pencegahan fraud digital, Forter
- Baik Paystone maupun Forter tidak dimasukkan ke tabel referensi laporan, dan sumber aslinya tampaknya adalah survei Ipsos tahun 2017
-
Statistik kenaikan 89% serangan fraud loyalitas
- Di halaman 6 disebutkan bahwa serangan fraud pada program loyalitas meningkat 89% sejak 2019
- Di halaman 11, kenaikan 89% yang sama dibatasi menjadi perubahan satu tahun dari 2018 ke 2019, dan diatribusikan ke Fraud Attack Index milik Forter
- Sumber ini benar-benar ada dan sebagian mengonfirmasi versi kedua dari klaim tersebut, tetapi seperti banyak sumber lain dalam laporan EY, materinya sudah lama
- Sumber yang saling bertentangan, sumber berkualitas rendah, statistik lama, dan parafrase yang tidak akurat ditunjukkan sebagai tanda AI slop
Dampak publik dan risiko pencemaran data
- Points of Attack tampaknya tidak menimbulkan gelombang besar di Kanada, tetapi baru-baru ini dikutip dalam artikel Canberra Times, dan artikel itu didistribusikan ke lebih dari 60 surat kabar di seluruh Australia
- Laporan tersebut juga mungkin beredar melalui briefing klien, presentasi internal, dan media eksklusif yang tidak berada di domain publik
- Penerbitan laporan online mirip injeksi data ke dalam kumpulan pengetahuan internet, dan ketika perusahaan konsultan ternama mengunggah informasi palsu atau kutipan halusinasi ke situs dengan trafik tinggi, hal itu dapat menyesatkan peneliti berikutnya
- Alat AI “deep research” bisa lebih rentan terhadap pencemaran data semacam ini karena memilih sumber berdasarkan sinyal yang berbeda dari manusia
- Claude, ChatGPT, dan Perplexity menampilkan informasi halusinasi yang berasal dari laporan EY yang cacat tersebut
Tujuan Hallucination Check
- GPTZero menilai vibe citing telah menjadi risiko nyata bagi peneliti, akademisi, konsultan, dan siapa pun yang bergantung pada pencarian web
- Hallucination Check diposisikan sebagai alat untuk mengidentifikasi kutipan halusinasi dan informasi palsu tanpa harus memeriksa semua sitasi secara manual
- Alat ini juga digunakan untuk meninjau submission di konferensi akademik seperti IJCAI, ICLR, dan ICSE
- Kesimpulannya, bahkan kutipan dari sumber bereputasi seperti Ernst & Young pun kini sulit diterima hanya berdasarkan kepercayaan
- Tautan ke Hallucination Check milik GPTZero disertakan
1 komentar
Opini Hacker News
Masalah yang terlihat di banyak profesi adalah output AI tidak ditinjau dengan benar oleh orang yang berpengetahuan seperti analis berpengalaman, insinyur senior, pengacara spesialis, atau dokter residen
Paling bagus hanya dibaca sekilas, dan yang paling buruk bahkan tidak dilihat sama sekali sebelum dipublikasikan, didistribusikan, dimasukkan ke produksi, dikirim ke pelanggan, atau diajukan ke pengadilan
Dalam banyak kasus, kemampuan untuk melakukan peninjauan yang diperlukan sebenarnya ada di dalam organisasi, tetapi orang-orang itu sudah kewalahan hanya dengan pekerjaan rutin mereka
Beberapa bulan lalu saya hanya bisa tertawa ketika melihat tulisan tentang Amazon yang membuat output AI generatif ditinjau oleh insinyur senior (https://news.ycombinator.com/item?id=47323017). Mereka sudah sibuk, dan rasanya sulit membayangkan Amazon akan membiarkan bottleneck manusia bertambah di seluruh proyek dan pengembangan infrastruktur dasar
Saya mendorong perlunya prinsip-prinsip rekayasa dasar di seluruh organisasi
Kita tidak menyuruh insinyur meninjau 1000 baris kode tanpa spesifikasi awal tentang apa yang ingin dicapai. Minimal harus ada konteks, dan idealnya peninjau sudah ada sejak pekerjaan itu pertama kali diperkenalkan agar memahami konteks keseluruhan
Tetapi dokumen seperti ini datang dalam bentuk serba jadi atau tidak sama sekali. Apakah Anda mau membalikkan metrik ke-39 yang sudah didefinisikan sangat rinci sampai akhir, atau menyerah saja karena semuanya sudah telanjur seperti ini
Dokumen satu halaman, atau ala Amazon mungkin enam halaman, yang sekadar berbunyi “inilah yang saya usulkan” saja sudah cukup agar bentuk keseluruhan gagasan bisa diperdebatkan dan disempurnakan saat masih pada tahap kerangka. Itu harus terjadi sebelum muncul investasi emosional karena merasa laporan berharganya sudah selesai
Secara tradisional ini mirip dengan cara pihak produk meninjau spesifikasi dalam lingkungan SCRUM, lalu insinyur melakukan code review yang layak. Tentu saja SCRUM sudah mati, tapi itu cerita lain
Kalau memakai AI, sering kali Anda harus membaca semuanya, menjelaskan kenapa salah, dan akhirnya menulis ulang semuanya
Jam yang bisa ditagihkan memang jauh bertambah, tetapi ini tampak seperti gejala bagaimana keunggulan AI yang cepat dan mudah diakses bagi orang yang tidak memahami topiknya justru menghilang
Salah satu alasan para tokoh besar menyukai vibe coding adalah karena mereka merasa kini bisa mengerjakan sendiri hal-hal yang dulu harus melalui proses menyakitkan yaitu “menyerahkannya kepada ahli konteks”
Sekarang LLM dianggap sebagai “ahli konteks bawaan”, jadi mereka merasa tidak perlu lagi meninjau outputnya
Kalau begitu, AI menjadi sistem dengan ROI yang sangat negatif untuk banyak penggunaan
Bayangkan pelatihan profesional di mana kalau salah, akibatnya bisa muncul di berita malam
Gagasan bahwa semua orang menerima string yang keluar dari matriks angka dalam keadaan menangguhkan penilaian sambil hanya berusaha menghindari tanggung jawab sendiri itu mengerikan
Ini mirip dengan maskapai Asia Selatan yang melarang pilot melakukan pendaratan manual sehingga memperparah penurunan keterampilan, yang akhirnya berujung pada bencana terkenal
Jika bahkan konsultan mahal pun tidak memeriksa tautan, rasanya makin parah lagi
Apakah ada sumber yang bisa dilihat dalam teks polos saja? Gaya CSS-nya bikin pusing, dan mode baca tampaknya tidak berfungsi atau diblokir
Hanya saja fitur ini juga punya masalah karena menghapus gambar yang memuat sebagian sumber yang digunakan
Komedi yang sebenarnya adalah melihat sampah seperti ini datang dari eksekutif tingkat atas. Prompt yang canggung, halusinasi sampah, nol informasi yang bisa ditindaklanjuti, dan nol analisis nyata, hanya omong besar belaka
Semacam “Lihat analisis isu dukungan yang diambil dari Jira. Tiga masalah teratas ini harus diperbaiki!!!”, padahal itu semua hal yang sudah diketahui semua orang sejak bertahun-tahun lalu dan manajemen saja yang tidak pernah memberi siapa pun wewenang untuk memperbaikinya
Saya sudah melihat ini lebih dari dua kali, jadi rasanya perlu nama. Mungkin Garbagemaxxing
Ini halaman yang sangat mengerikan untuk dijelajahi
Nanti saya harus melihatnya lagi di desktop. Isinya kelihatan menarik, tetapi praktiknya mustahil dibaca. Saya bahkan tidak bisa melewati bagian pengantar Ernst and Young
Sebagian orang memang tidak seharusnya membuat website
Apakah ada yang juga berhalusinasi tentang bagaimana scroll seharusnya bekerja di halaman web?
Yang aneh, laporan ini mungkin akan jadi skandal besar dan menimbulkan kerusakan merek jangka panjang kalau terjadi 12–18 bulan lalu, tetapi sekarang rasanya tidak ada yang akan mengingat atau bahkan menyadarinya
Website-nya yang pertama harus diperbaiki. Animasi JavaScript yang buruk itu harus dibuang. Hal-hal seperti ini sebenarnya sudah terselesaikan pada 2014 dengan D3JS dan jQuery
Saya benar-benar tidak paham bagaimana hal seperti ini bisa terjadi. Misalnya, Qwen Chat atau Perplexity menambahkan kutipan di akhir setiap kalimat yang dihasilkan
Jadi ketika Anda mengarahkan mouse ke tiap kutipan, Anda bisa melihat itu diambil dari website mana
Apakah mereka hanya memasukkan prompt ke ChatGPT tanpa pencarian web lalu menyalin-tempelkannya?
EY diam-diam telah memecat orang sepanjang tahun lalu
Kalau mencoba melakukan lebih banyak pekerjaan dengan lebih sedikit orang, tidak mengejutkan kalau itu berujung pada penurunan kualitas
Banyak pekerjaan perusahaan pada dasarnya cuma mengisi kotak centang
Atasan berkata, “Bawa saya laporan tentang X. Saya akan memberikan laporan itu ke atasan saya, dan dia tidak akan membacanya”
Maka strukturnya menjadi, “E&Y, tolong buatkan satu laporan. Ini 200 ribu dolar”
Kemungkinan besar halaman web itu sendiri juga dibuat dengan vibe coding, dan penulisnya tampaknya tidak akan peduli