1 poin oleh GN⁺ 2 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Laporan penipuan loyalitas setebal 44 halaman dari EY Canada terungkap sebagai dokumen yang bercampur antara kutipan palsu, atribusi sumber yang salah, statistik palsu, dan teks yang ditulis AI
  • Sebagian besar URL dalam tabel referensi rusak atau palsu, lebih dari setengah judul tidak cocok dengan sumber aslinya, dan AI Scan menandai 72% teks sebagai buatan AI
  • Banyak sumber yang diklaim berasal dari BleepingComputer, Wired, Gartner, McKinsey, Forbes, Cisco Talos, dan TechCrunch terbukti berupa 404 error, halaman tag, atau dokumen yang tidak ada
  • Angka $200 miliar digunakan dengan dua makna yang sulit didamaikan, yakni sebagai seluruh pasar poin loyalitas dan sebagai nilai poin yang tidak terpakai, sementara dua kutipan pendukungnya juga terbukti direkayasa
  • Laporan yang cacat itu menyebar ke Canberra Times dan lebih dari 60 surat kabar, dan Claude, ChatGPT, serta Perplexity juga menampilkan informasi halusinasi tersebut

Masalah pada laporan EY Canada

  • EY Canada menerbitkan laporan setebal 44 halaman pada akhir 2025 tentang ancaman siber dan penipuan dalam sistem loyalitas, Points of Attack: Uncovering Cyber Threats and Fraud in Loyalty Systems
  • Laporan ini mencantumkan kredit untuk dua partner dan satu senior manager, tetapi juga ditemukan kutipan palsu, atribusi sumber yang salah, statistik palsu, dan teks buatan AI
  • EY Canada adalah organisasi Kanada dari Ernst & Young yang setiap tahun memberikan layanan senilai jutaan dolar kepada pemerintah Kanada
  • Hallucination Check milik GPTZero digunakan dalam pipeline otomatis untuk mencari dan memindai laporan publik dari perusahaan konsultan besar dalam beberapa bulan terakhir, dan mengindikasikan bahwa vibe citing juga menyebar di laporan perusahaan besar

Cara pengutipan dan hasil verifikasi

  • Laporan EY Canada tidak memakai catatan kaki atau sitasi akademik umum, melainkan menyebut sumber langsung di dalam teks atau mengumpulkannya dalam resources table di halaman 41–43
  • Tabel ini menyediakan judul sumber, deskripsi, URL, sebagian penerbit, dan tanggal, tetapi sebagian besar URL rusak atau palsu, dan lebih dari setengah judul tidak cocok dengan sumber aslinya
  • Dengan mempertimbangkan biaya reputasi akibat false positive, GPTZero mendefinisikan kutipan halusinasi dengan kriteria yang spesifik dan memverifikasi hasil Hallucination Check secara manual
  • Teks laporan ditandai 72% sebagai buatan AI oleh GPTZero AI Scan, dan berulang kali menunjukkan kesalahan LLM seperti statistik palsu, atribusi sumber yang salah, dan kontradiksi internal

Contoh sumber palsu atau tidak akurat

  • Artikel pelanggaran loyalitas maskapai dari BleepingComputer

    • Airline Loyalty Breach: BleepingComputer disajikan sebagai artikel tentang jutaan akun loyalitas maskapai yang dibobol lewat serangan credential stuffing
    • https://bleepingcomputer.com/news/security/… mengembalikan 404 error, dan artikel pada jalur tersebut dipastikan telah dihapus atau memang tidak pernah ada sejak awal
  • Artikel Wired tentang deepfake suara dan keamanan API

  • Laporan Gartner dan McKinsey

    • Gartner Market Trends – Loyalty Fraud disajikan sebagai panduan strategis tentang evolusi penipuan dalam program loyalitas digital dan dompet seluler
    • https://www.gartner.com/en/documents/4000201 hanya mengarah ke situs utama Gartner, dan tidak ada dokumen Gartner dengan judul tersebut
    • McKinsey & Company – Loyalty Economics Report (2022) disajikan sebagai laporan yang memperkirakan nilai global poin reward yang tidak terpakai mencapai $200 miliar, tetapi laporan tersebut tidak ada
  • Artikel Forbes tentang ekonomi loyalitas

    • Forbes – The $200 Billion Loyalty Economy disajikan sebagai dasar bahwa program loyalitas adalah aset digital yang penting
    • URL-nya rusak, dan meski Blake Morgan pernah menulis di Forbes, tidak ada artikel yang cocok dengan judul tersebut
    • Namun, artikel Forbes tahun 2020 memang menggunakan frasa “$200 billion loyalty economy”
  • Cisco Talos dan TechCrunch

Kontradiksi internal pada statistik $200 miliar

  • Klaim dalam ringkasan eksekutif

    • Executive Summary mengklaim bahwa ukuran pasar global poin loyalitas adalah $200 miliar, dan 30–50% di antaranya tidak digunakan
    • Klaim ini didukung oleh kutipan Forbes palsu
  • Makna yang berubah di halaman 10

    • Di halaman 10, angka $200 miliar yang sama berubah makna dari total nilai global seluruh poin menjadi estimasi poin loyalitas yang tidak terpakai
    • Karena sebelumnya sudah diklaim bahwa hingga 50% poin tidak digunakan, kedua klaim itu hanya bisa sama-sama benar jika ukuran pasar global poin loyalitas setidaknya $400 miliar
  • Pelacakan sumber kutipan McKinsey

    • Laporan McKinsey & Company palsu di halaman 43 dipakai sebagai dasar untuk mendukung klaim kedua bahwa nilai global poin yang tidak terpakai mencapai $200 miliar
    • Angka yang sama dipakai untuk dua makna yang sulit didamaikan, dan dua kutipan pendukungnya dipastikan sama-sama direkayasa
    • Kutipan McKinsey ini dapat ditelusuri ke posting blog fintech dari Financial IT yang terbit 6 bulan sebelum laporan EY
    • Tulisan tersebut mengklaim bahwa “more than $200 billion in points sit idle each year” dan mengutip McKinsey & Company: Loyalty Economics Report (2022) yang tidak ada di bagian sumber
    • Kutipan palsu ini lalu masuk apa adanya ke dalam tabel referensi laporan EY, sehingga sumber palsu dari blog berkualitas rendah dicuci menjadi terbitan Big Four

Statistik 72% dan 89% yang sumbernya campur aduk

  • Statistik 72% penipuan program loyalitas

    • Di halaman 6 disebutkan bahwa 72% program loyalitas pelanggan melaporkan pencurian atau penipuan
    • Angka ini diatribusikan ke artikel 2019 milik perusahaan pemrosesan pembayaran Kanada, Paystone
    • Di halaman 11, statistik yang sama diatribusikan ke NRF 2020 summary milik perusahaan pencegahan fraud digital, Forter
    • Baik Paystone maupun Forter tidak dimasukkan ke tabel referensi laporan, dan sumber aslinya tampaknya adalah survei Ipsos tahun 2017
  • Statistik kenaikan 89% serangan fraud loyalitas

    • Di halaman 6 disebutkan bahwa serangan fraud pada program loyalitas meningkat 89% sejak 2019
    • Di halaman 11, kenaikan 89% yang sama dibatasi menjadi perubahan satu tahun dari 2018 ke 2019, dan diatribusikan ke Fraud Attack Index milik Forter
    • Sumber ini benar-benar ada dan sebagian mengonfirmasi versi kedua dari klaim tersebut, tetapi seperti banyak sumber lain dalam laporan EY, materinya sudah lama
    • Sumber yang saling bertentangan, sumber berkualitas rendah, statistik lama, dan parafrase yang tidak akurat ditunjukkan sebagai tanda AI slop

Dampak publik dan risiko pencemaran data

  • Points of Attack tampaknya tidak menimbulkan gelombang besar di Kanada, tetapi baru-baru ini dikutip dalam artikel Canberra Times, dan artikel itu didistribusikan ke lebih dari 60 surat kabar di seluruh Australia
  • Laporan tersebut juga mungkin beredar melalui briefing klien, presentasi internal, dan media eksklusif yang tidak berada di domain publik
  • Penerbitan laporan online mirip injeksi data ke dalam kumpulan pengetahuan internet, dan ketika perusahaan konsultan ternama mengunggah informasi palsu atau kutipan halusinasi ke situs dengan trafik tinggi, hal itu dapat menyesatkan peneliti berikutnya
  • Alat AI “deep research” bisa lebih rentan terhadap pencemaran data semacam ini karena memilih sumber berdasarkan sinyal yang berbeda dari manusia
  • Claude, ChatGPT, dan Perplexity menampilkan informasi halusinasi yang berasal dari laporan EY yang cacat tersebut

Tujuan Hallucination Check

  • GPTZero menilai vibe citing telah menjadi risiko nyata bagi peneliti, akademisi, konsultan, dan siapa pun yang bergantung pada pencarian web
  • Hallucination Check diposisikan sebagai alat untuk mengidentifikasi kutipan halusinasi dan informasi palsu tanpa harus memeriksa semua sitasi secara manual
  • Alat ini juga digunakan untuk meninjau submission di konferensi akademik seperti IJCAI, ICLR, dan ICSE
  • Kesimpulannya, bahkan kutipan dari sumber bereputasi seperti Ernst & Young pun kini sulit diterima hanya berdasarkan kepercayaan
  • Tautan ke Hallucination Check milik GPTZero disertakan

1 komentar

 
GN⁺ 2 jam lalu
Opini Hacker News
  • Masalah yang terlihat di banyak profesi adalah output AI tidak ditinjau dengan benar oleh orang yang berpengetahuan seperti analis berpengalaman, insinyur senior, pengacara spesialis, atau dokter residen
    Paling bagus hanya dibaca sekilas, dan yang paling buruk bahkan tidak dilihat sama sekali sebelum dipublikasikan, didistribusikan, dimasukkan ke produksi, dikirim ke pelanggan, atau diajukan ke pengadilan
    Dalam banyak kasus, kemampuan untuk melakukan peninjauan yang diperlukan sebenarnya ada di dalam organisasi, tetapi orang-orang itu sudah kewalahan hanya dengan pekerjaan rutin mereka
    Beberapa bulan lalu saya hanya bisa tertawa ketika melihat tulisan tentang Amazon yang membuat output AI generatif ditinjau oleh insinyur senior (https://news.ycombinator.com/item?id=47323017). Mereka sudah sibuk, dan rasanya sulit membayangkan Amazon akan membiarkan bottleneck manusia bertambah di seluruh proyek dan pengembangan infrastruktur dasar

    • Sebagian masalahnya adalah dokumen yang sudah jadi baru dilempar untuk ditinjau setelah semuanya selesai dimasak
      Saya mendorong perlunya prinsip-prinsip rekayasa dasar di seluruh organisasi
      Kita tidak menyuruh insinyur meninjau 1000 baris kode tanpa spesifikasi awal tentang apa yang ingin dicapai. Minimal harus ada konteks, dan idealnya peninjau sudah ada sejak pekerjaan itu pertama kali diperkenalkan agar memahami konteks keseluruhan
      Tetapi dokumen seperti ini datang dalam bentuk serba jadi atau tidak sama sekali. Apakah Anda mau membalikkan metrik ke-39 yang sudah didefinisikan sangat rinci sampai akhir, atau menyerah saja karena semuanya sudah telanjur seperti ini
      Dokumen satu halaman, atau ala Amazon mungkin enam halaman, yang sekadar berbunyi “inilah yang saya usulkan” saja sudah cukup agar bentuk keseluruhan gagasan bisa diperdebatkan dan disempurnakan saat masih pada tahap kerangka. Itu harus terjadi sebelum muncul investasi emosional karena merasa laporan berharganya sudah selesai
      Secara tradisional ini mirip dengan cara pihak produk meninjau spesifikasi dalam lingkungan SCRUM, lalu insinyur melakukan code review yang layak. Tentu saja SCRUM sudah mati, tapi itu cerita lain
    • Dari sudut pandang pengacara, meninjau output AI terasa memakan waktu lebih lama daripada mengerjakannya sendiri sejak awal. Dibandingkan memakai template yang sudah ada, apalagi
      Kalau memakai AI, sering kali Anda harus membaca semuanya, menjelaskan kenapa salah, dan akhirnya menulis ulang semuanya
      Jam yang bisa ditagihkan memang jauh bertambah, tetapi ini tampak seperti gejala bagaimana keunggulan AI yang cepat dan mudah diakses bagi orang yang tidak memahami topiknya justru menghilang
    • Saat orang bilang “orang yang berpengetahuan tidak meninjau output AI”, saya jadi berpikir: maksudnya orang-orang yang baru saja di-PHK dan dimatikan semangatnya itu?
      Salah satu alasan para tokoh besar menyukai vibe coding adalah karena mereka merasa kini bisa mengerjakan sendiri hal-hal yang dulu harus melalui proses menyakitkan yaitu “menyerahkannya kepada ahli konteks”
      Sekarang LLM dianggap sebagai “ahli konteks bawaan”, jadi mereka merasa tidak perlu lagi meninjau outputnya
    • Masalahnya, kadang waktu untuk memverifikasi output justru lebih lama daripada waktu untuk membuatnya dari awal
      Kalau begitu, AI menjadi sistem dengan ROI yang sangat negatif untuk banyak penggunaan
    • Saya khususnya tertarik pada pendidikan dan pengelolaan pengetahuan manusia. Saya sudah melihat laju pendidikan TI mendekati nol
      Bayangkan pelatihan profesional di mana kalau salah, akibatnya bisa muncul di berita malam
      Gagasan bahwa semua orang menerima string yang keluar dari matriks angka dalam keadaan menangguhkan penilaian sambil hanya berusaha menghindari tanggung jawab sendiri itu mengerikan
      Ini mirip dengan maskapai Asia Selatan yang melarang pilot melakukan pendaratan manual sehingga memperparah penurunan keterampilan, yang akhirnya berujung pada bencana terkenal
      Jika bahkan konsultan mahal pun tidak memeriksa tautan, rasanya makin parah lagi
  • Apakah ada sumber yang bisa dilihat dalam teks polos saja? Gaya CSS-nya bikin pusing, dan mode baca tampaknya tidak berfungsi atau diblokir

    • Scroll-nya benar-benar menyiksa, dan bahkan saat beralih ke mode baca tampilannya tetap rusak
    • Firefox punya Reader view praktis yang mengekstrak hanya teks dari halaman dan menampilkannya secara sederhana. Di Mac bisa diaktifkan dengan Opt + CMD + R
      Hanya saja fitur ini juga punya masalah karena menghapus gambar yang memuat sebagian sumber yang digunakan
    • Hal yang sama juga terjadi di Lockdown Mode pada iOS
  • Komedi yang sebenarnya adalah melihat sampah seperti ini datang dari eksekutif tingkat atas. Prompt yang canggung, halusinasi sampah, nol informasi yang bisa ditindaklanjuti, dan nol analisis nyata, hanya omong besar belaka
    Semacam “Lihat analisis isu dukungan yang diambil dari Jira. Tiga masalah teratas ini harus diperbaiki!!!”, padahal itu semua hal yang sudah diketahui semua orang sejak bertahun-tahun lalu dan manajemen saja yang tidak pernah memberi siapa pun wewenang untuk memperbaikinya
    Saya sudah melihat ini lebih dari dua kali, jadi rasanya perlu nama. Mungkin Garbagemaxxing

    • Kalau “tiga masalah teratas harus diperbaiki” itu memang masalah yang sudah lama diketahui semua orang dan manajemen tidak pernah memberi wewenang untuk menyelesaikannya, bukankah efek bersihnya tetap positif?
  • Ini halaman yang sangat mengerikan untuk dijelajahi

    • Di ponsel, scroll-nya dibajak sehingga benar-benar tidak bisa turun lebih jauh. Mode baca juga hanya menampilkan kira-kira paragraf pertama
      Nanti saya harus melihatnya lagi di desktop. Isinya kelihatan menarik, tetapi praktiknya mustahil dibaca. Saya bahkan tidak bisa melewati bagian pengantar Ernst and Young
    • Scroll saya terasa seperti sedang berhalusinasi
    • Ini level permusuhan terhadap pengguna yang benar-benar berbeda. Saya belum pernah melihat yang seperti ini
    • iPhone saya otomatis menyalakan mode baca, lalu saya mematikannya untuk melihat apa maksudnya, dan akhirnya saya setuju
    • Umpan balik nonlinier yang benar-benar punya jeda, benar-benar mengerikan
      Sebagian orang memang tidak seharusnya membuat website
  • Apakah ada yang juga berhalusinasi tentang bagaimana scroll seharusnya bekerja di halaman web?

  • Yang aneh, laporan ini mungkin akan jadi skandal besar dan menimbulkan kerusakan merek jangka panjang kalau terjadi 12–18 bulan lalu, tetapi sekarang rasanya tidak ada yang akan mengingat atau bahkan menyadarinya

  • Website-nya yang pertama harus diperbaiki. Animasi JavaScript yang buruk itu harus dibuang. Hal-hal seperti ini sebenarnya sudah terselesaikan pada 2014 dengan D3JS dan jQuery

  • Saya benar-benar tidak paham bagaimana hal seperti ini bisa terjadi. Misalnya, Qwen Chat atau Perplexity menambahkan kutipan di akhir setiap kalimat yang dihasilkan
    Jadi ketika Anda mengarahkan mouse ke tiap kutipan, Anda bisa melihat itu diambil dari website mana
    Apakah mereka hanya memasukkan prompt ke ChatGPT tanpa pencarian web lalu menyalin-tempelkannya?

  • EY diam-diam telah memecat orang sepanjang tahun lalu
    Kalau mencoba melakukan lebih banyak pekerjaan dengan lebih sedikit orang, tidak mengejutkan kalau itu berujung pada penurunan kualitas

    • Menariknya, mungkin ada permintaan yang cukup besar untuk layanan yang pada dasarnya tidak melakukan apa-apa
      Banyak pekerjaan perusahaan pada dasarnya cuma mengisi kotak centang
      Atasan berkata, “Bawa saya laporan tentang X. Saya akan memberikan laporan itu ke atasan saya, dan dia tidak akan membacanya”
      Maka strukturnya menjadi, “E&Y, tolong buatkan satu laporan. Ini 200 ribu dolar”
  • Kemungkinan besar halaman web itu sendiri juga dibuat dengan vibe coding, dan penulisnya tampaknya tidak akan peduli