- Dalam studi kolaboratif internasional yang dipimpin oleh European Broadcasting Union (EBU) dan BBC, terungkap bahwa 4 asisten AI utama (ChatGPT, Copilot, Gemini, Perplexity) menunjukkan distorsi atau kesalahan pada 45% kasus saat menyampaikan konten berita
- Penelitian ini melibatkan 22 penyiar publik dari 18 negara dan mengevaluasi 14 bahasa serta lebih dari 3.000 respons, dengan banyak temuan seperti sumber yang hilang atau tidak akurat (31%) dan kesalahan fakta atau halusinasi (20%)
- Khususnya, tingkat masalah Gemini mencapai 76%, tertinggi di antara semuanya, dan penyebab utamanya dianalisis sebagai kegagalan mencantumkan sumber
- Meski ada beberapa perbaikan dibanding penelitian BBC sebelumnya, masalah yang bersifat sistematis dan lintas negara masih tetap terkonfirmasi
- Di tengah tren asisten AI yang menggantikan pencarian berita, muncul kekhawatiran tentang risiko melemahnya kepercayaan publik dan partisipasi demokratis
Gambaran penelitian
- Studi yang diumumkan di Majelis Berita EBU (Napoli) ini disebut sebagai eksperimen multinasional terbesar sejauh ini, dan menyimpulkan bahwa asisten AI menunjukkan distorsi berita yang konsisten terlepas dari bahasa, negara, maupun platform
- Lembaga peserta: 22 penyiar publik dunia termasuk BBC, ARD, ZDF, CBC, dan NPR
- Kriteria evaluasi: indikator etika jurnalistik utama seperti akurasi, pencantuman sumber, pemisahan fakta dan opini, serta pemberian konteks
Hasil utama
- Masalah serius ditemukan pada 45% dari seluruh respons
- 31% adalah kesalahan sumber (tidak dicantumkan, kutipan salah, sumber salah dikenali)
- 20% adalah cacat akurasi (termasuk halusinasi, informasi usang, dan misinformasi)
- Gemini mencatat tingkat masalah 76%, sekitar dua kali lipat model lain
- Beberapa indikator memang membaik dibanding studi yang dirilis BBC pada awal tahun ini, tetapi tingkat distorsi secara keseluruhan masih tinggi
Mengapa distorsi ini penting
- Asisten AI sudah menjadi kanal berita yang menggantikan mesin pencari bagi banyak orang
- Menurut ‘Digital News Report 2025’ dari Reuters Institute, 7% dari seluruh konsumen berita online (dan 15% pada mereka yang berusia di bawah 25 tahun) menggunakan asisten AI sebagai sumber berita
- Jean Philip De Tender (Direktur Media EBU) memperingatkan bahwa “masalah pada asisten AI adalah fenomena sistematis yang melampaui batas negara dan bahasa, dan ini mengancam kepercayaan publik”
- Peter Archer dari BBC menekankan bahwa “potensi AI memang besar, tetapi penyampaian informasi yang dapat dipercaya harus diprioritaskan, dan respons bersama dari perusahaan media dan perusahaan AI diperlukan”
Tanggapan dan langkah berikutnya
- Tim peneliti merilis ‘News Integrity in AI Assistants Toolkit’ untuk membantu mengatasi masalah ini
- Menyajikan standar untuk respons AI yang baik dan arah penyelesaian masalah
- Bertujuan meningkatkan kualitas respons AI dan literasi media pengguna
- EBU mendesak Uni Eropa dan regulator nasional untuk memperkuat penegakan hukum terkait integritas informasi dan layanan digital, serta mengusulkan pemantauan independen berkelanjutan terhadap asisten AI
Riset tambahan dan survei persepsi
- Dalam laporan terpisah ‘Audience Use and Perceptions of AI Assistants for News’, BBC menyatakan bahwa,
- Lebih dari sepertiga (orang dewasa di Inggris) menjawab bahwa mereka mempercayai ringkasan berita yang dibuat AI, dan
- Saat menemukan kesalahan, ada kecenderungan untuk menuntut tanggung jawab bukan hanya dari AI tetapi juga dari perusahaan media
- Ini menunjukkan bahwa kesalahan asisten AI juga dapat berdampak negatif pada tingkat kepercayaan terhadap merek berita
Daftar penyiar yang berpartisipasi
- Belgia (RTBF, VRT), Kanada (CBC-Radio Canada), Ceko (Czech Radio), Finlandia (YLE), Prancis (Radio France),
Georgia (GPB), Jerman (ARD, ZDF, Deutsche Welle), Italia (Rai), Lituania (LRT),
Belanda (NOS/NPO), Norwegia (NRK), Portugal (RTP), Spanyol (RTVE), Swedia (SVT),
Swiss (SRF), Ukraina (Suspilne), Inggris (BBC), Amerika Serikat (NPR)
1 komentar
Komentar Hacker News
Kalau melihat laporan aslinya, kita bisa tahu bagaimana angka itu dihitung. Sebagian besar kesalahan ternyata adalah “masalah sumber”, yaitu asisten AI tidak mengutip klaim, atau (secara mengejutkan) mengutip Wikipedia alih-alih BBC. Selain itu, laporan ini juga tidak menjelaskan dengan jelas model apa yang dipakai (meski disebutkan di lampiran). Anthropic (menurut saya yang terbaik untuk tugas seperti ini) tidak disertakan, dan yang diuji hanya Perplexity atau Copilot. Laporan ini juga mencampur isi laporan terbaru dengan riset setahun lalu tanpa konteks, sehingga hilang fakta bahwa situasinya sudah banyak berubah. Ada beberapa masalah penting pada artikel ini
Jurnalis manusia juga salah menyampaikan isi white paper sekitar 85% dari waktu. Kalau melihat itu, angka 45% tidak terasa seburuk itu
Saya juga mempertimbangkan bahwa masalah kutipan bisa jadi karena robots.txt BBC memblokir sebagian besar crawler dan user-agent AI
Saya setuju bahwa masalah yang muncul saat menafsirkan tulisan manusia itu memang sangat besar. Walaupun artikel ini kurang bagus, masalah seperti yang diklaim artikel itu memang nyata dan serius. LLM sering salah memahami kalimat per kalimat, atau kehilangan jejak siapa mengatakan apa, bahkan pada model terbaru (termasuk GPT-5). Ini terutama terjadi saat diminta menganalisis diskusi yang ditulis manusia. Masalah ini mungkin bisa diselesaikan, tetapi jelas belum sepenuhnya terselesaikan
Saya juga ingin menambahkan pada kritik bahwa mengutip Wikipedia alih-alih BBC itu bermasalah. Sebenarnya masalah yang lebih besar adalah ketika mereka mengutip artikel Wikipedia yang “bahkan tidak ada”. Misalnya, ChatGPT menautkan artikel wiki fiktif berjudul “European Union Enlargement Goals for 2040”, yang sebenarnya tidak ada, dan itu juga bukan kebijakan resmi UE. Ia mengarang URL yang tidak benar-benar ada, sekaligus target dan kebijakan UE yang fiktif
Menurut saya artikel ini justru menjalankan perannya dengan baik: memberi orang tajuk utama yang nanti akan mereka kutip. Dalam satu-dua bulan ke depan, kita pasti akan melihat tautan artikel ini atau kutipan asal-asalan seperti “95% proyek AI gagal” bermunculan di mana-mana. POSIWID (singkatan dari “the purpose of a system is what it does”, artinya tujuan suatu sistem adalah apa yang benar-benar dilakukannya)
Saya penasaran berapa banyak orang yang benar-benar pernah membandingkan ringkasan AI dengan teks aslinya. Saya sudah beberapa kali melakukannya sendiri, dan hasilnya benar-benar buruk. Ini lebih mirip “kompresi acak” daripada ringkasan, dan itu sama sekali berbeda dari merangkum. Dalam kasus parah, kesimpulan utamanya malah menjadi kebalikan total dari isi aslinya. Karena itu saya sekarang sama sekali tidak mempercayai fitur ringkasan AI
Kalau memeriksa sendiri fitur ringkasan panggilan Gemini, hampir selalu ada masalah serius di dalamnya. Kemarin saja Gemini mencatat sesuatu yang tidak pernah kami sepakati seolah-olah sudah diputuskan. Itu justru bagian yang paling penting, dan hasilnya jadi kebalikan total. Lebih baik tidak ada sama sekali
Istilah “kompresi acak” memang sangat tepat. Saya merasa ini terutama menonjol pada ringkasan email atau pesan teks. Modelnya sama sekali tidak menangkap inti pesan, hanya memilih kalimat secara acak, dan dalam 99,9% kasus itu bukan poin utamanya. Akhirnya saya abaikan saja
Dari pengalaman saya, fenomena ini terutama muncul pada model open-source yang diringankan atau model mini. Pada model kelas SOTA (misalnya Sonnet-4.5, Opus-4.1, GPT-5-Thinking, dan sebagainya), masalah ini hampir tidak ada. Tapi biayanya terlalu mahal, jadi kebanyakan perusahaan memakai model murahan atau TTC yang belum diimplementasikan karena alasan biaya atau kecepatan
Saya penasaran apakah ini sering terjadi karena judul artikel berita memang kerap clickbait. Kalau AI hanya melihat judul lalu merangkum isinya, tidak mengherankan kalau ia salah paham terhadap lebih dari setengah isi aslinya
Kadang AI memang benar-benar mengarang isi yang sama sekali tidak ada. Saya pernah melihat kutipan yang sepenuhnya diciptakan tanpa dasar, lengkap dengan judul makalah, penulis, dan hasilnya
Saya pernah meminta Gemini mengumpulkan dan menampilkan berita terbaru, tetapi tanpa menggunakan pencarian ia malah mengarang semuanya: judul, ringkasan, sampai tautannya. Ini terjadi berkali-kali, bukan hanya sekali dua kali. Karena itu sekarang saya takut memakai Gemini untuk apa pun yang melibatkan pencarian web. Contohnya, saya pernah diberi judul dan tautan tentang “peneliti Google DeepMind dan Harvard mengusulkan metode baru untuk mengevaluasi ‘theory of mind’ pada LLM”, tetapi tautannya tidak berfungsi dan judulnya juga tidak muncul di pencarian
Dari sepuluh jawaban Gemini, lebih dari tujuh biasanya salah. Kadang ia tertukar soal nama produk, atau salah memberi tahu jam operasional. Misalnya, saat saya dan istri hendak ke restoran, Gemini mengatakan buka Senin–Jumat, padahal kenyataannya hanya buka Selasa–Sabtu, jadi kami datang sia-sia. Kadang malah mengarang puluhan “fakta” yang sama sekali tak masuk akal. Istri saya sekarang jadi memeriksa sendiri dengan lebih teliti, dan bahkan pemilik usaha sampai bercanda, “kalau Gemini bilang X, mungkin kenyataannya justru Y?”
Saya belum bisa mereproduksi kejadian itu dengan hasil yang sama. Saya penasaran prompt apa yang dipakai. Kalau saya minta top news hari ini, ia menggunakan Google Search dan memberi tautan yang nyata
Saya juga penasaran Anda memakai Gemini versi apa, apakah dipanggil langsung lewat API atau dipakai lewat web app (seperti Gemini atau AI Studio). Tidak semua aplikasi LLM mengaktifkan fitur pencarian web/berita, jadi hasilnya bisa sangat berbeda tergantung hak akses. Tentu saja, kalau AI tidak punya akses pencarian web, ia seharusnya mengatakan itu, bukan mengarang tautan palsu. Kalau fitur pencarian web sebenarnya aktif tetapi ia tetap tidak melakukan pencarian dengan benar, itu sendiri sudah merupakan masalah
Untuk kasus seperti ini, saya ingin bertanya apakah bukankah lebih baik langsung membuka situs berita biasa dan membaca judulnya sendiri
Bahkan kalau AI memberi tautan, Anda tetap harus mengkliknya sendiri dan memastikan isinya benar-benar sesuai dengan yang dijelaskan
Saya penasaran apakah para penginjil LLM sadar betapa kecewanya pengguna ketika mereka langsung merasionalisasi performa alat yang serba seadanya ini. Ini terlihat bukan lagi sebagai keterbatasan teknis, melainkan hampir seperti “iman”. Seolah-olah “kapabilitas” itu sendiri terasa seperti tuntutan yang berlebihan
Saya curiga banyak dari para penginjil itu pada akhirnya hanyalah pendiri startup yang menjual prototipe buatan AI lalu akan runtuh saat hype mereda (atau developer yang merasa pintar karena mengikuti pemimpinnya). Budaya “fake-it-till-you-make-it” di industri teknologi terasa terlalu merajalela dan mengecewakan
Saya menganggap kita sudah hidup dalam masyarakat 'post-truth', tempat benar atau tidaknya suatu pernyataan tidak penting; yang penting hanya apakah mengatakannya membuat diri sendiri atau apa yang didorongnya menjadi lebih kuat
Siapa pun yang sudah menanam investasi dalam skema ponzi sirkular akan membela kegagalan LLM tanpa pikir panjang. Mereka ingin percaya bahwa distribusi token yang tak bermakna itu benar-benar adalah ilusi 'kognisi mesin', atau merasionalisasi bahwa walau tidak sempurna, hasilnya tetap cukup berguna dalam banyak kasus. Ilusi semacam ini dipakai secara kolektif untuk menopang valuasi triliunan dolar
Apakah ini hanya masalah LLM? Menurut saya, masyarakat secara umum sudah lama menganggap 'kapabilitas' tidak terlalu berarti. Misalnya terlihat dari pemberian ijazah kepada siswa yang bahkan tidak bisa membaca di tingkat kelas 5, atau outsourcing call center ke tempat yang bahasa Inggrisnya lemah
Saya setuju sebagian, tetapi saya merasa belakangan pembahasan sering bergeser ke kritik media berita atau ke arah lain. Hasil riset kali ini juga menurut saya cukup meragukan. Ini bukan paper akademik, melainkan studi Ipsos berbayar, jadi saya tidak paham kenapa baseline-nya bisa serendah ini. Paling tidak harus ada informasi model apa yang dipakai, nilai retrieval R@k, metrik akurasi ringkasan seperti BLEU/ROUGE, dan metrik evaluasi manusia. Kalau penilaian seperti itu pun tidak ada, menurut saya hasil ini tidak berguna, baik di dalam bidang ini maupun di luarnya
Mulai halaman 10 PDF ada contoh kesalahan yang spesifik: laporan resmi BBC
Contoh: ChatGPT mengutip artikel Wikipedia yang tidak ada berjudul “European Union Enlargement Goals for 2040”. Di UE sebenarnya tidak ada kebijakan dengan nama itu. Bukan hanya URL palsu, tetapi juga target dan kebijakan UE yang direkayasa
Perlu selalu diingat bahwa jika Anda menyerahkan ringkasan rapat, email, atau komunikasi kepada LLM, orang tersebut tidak akan memperoleh pesan yang sebenarnya
Ini terasa menakutkan. Bukan cuma mendelegasikan proses berpikir, tetapi juga merusak satu-satunya alat pengganti yang tersedia. Saya pernah mengalami hal serupa: sempat mempertimbangkan menyerahkan riwayat edit dokumen yang tidak jelas kepada AI, tetapi batal karena kehabisan waktu. Kalau jadi saya lakukan, mungkin saya akan menerima riwayat yang terdengar sangat meyakinkan, tetapi alih-alih memberi tahu perubahan yang benar-benar terjadi, justru saya akan menerima versi yang terdistorsi ke arah sebaliknya. Bukan sekadar kekurangan pengetahuan, melainkan mendapat pengetahuan yang salah, semacam anti knowledge
Kalau ini benar, itu peringatan penting, tetapi pengalaman saya pribadi justru berbeda. Saya melakukan meeting penjualan setiap hari, dan menerima ringkasan rapat dari berbagai alat ringkasan AI. Saat saya cek sendiri ringkasan yang tersimpan di CRM, hampir selalu sangat akurat. Saya bisa memverifikasinya karena hadir langsung di rapat itu
Sudah beberapa bulan kami memakai MS Copilot dalam rapat, dan ia merangkum dengan sangat baik siapa mengatakan apa serta siapa bertanggung jawab atas tugas tertentu. Sangat berguna, dan dalam pengalaman saya tingkat kejelasannya juga tinggi
Menurut saya Kagi News cukup akurat. Ia merangkum sambil menyertakan sumber asli dan detail penting. Ringkasan AI membantu saya memutuskan apakah suatu artikel layak dibaca langsung atau tidak. Meski begitu, fakta penting tetap saya cek sendiri
Saya bertanya-tanya, sampai sejauh mana verifikasi fakta itu bisa dilakukan. Untuk benar-benar tahu apakah ringkasannya tepat, kita pada akhirnya harus pergi meliput langsung atau membaca paper dan referensi di tiap bidang, jadi pada titik tertentu tetap ada unsur kepercayaan yang tak bisa dihindari
Saya juga pernah mengerjakan proyek serupa, dan mendapatkan hasil yang cukup baik saat merangkum artikel RSS. Hasilnya jauh lebih baik terutama ketika memakai model yang berfokus pada "reasoning"
Kagi News bekerja dengan memasukkan isi dari beberapa artikel berita ke dalam konteks lalu merangkumnya. Itu berbeda dengan skenario di postingan awal yang meminta “LLM menyediakan berita lewat web search”
Ada juga layanan seperti ini: rawdiary.com
Saya setuju soal Kagi News, dan Particle News juga bagus. Namun Particle News menerima investasi dari The Atlantic dan sempat memberi artikel media itu posisi "Featured Article". Kasus seperti ini memang diberi penanda grafis untuk membantu membedakan bias, tetapi tidak diterapkan pada Featured Article. Mungkin investor lain juga serupa, tetapi promosi terkait Atlantic ini adalah contoh yang relatif baru
Laporan itu menyatakan bahwa yang dipakai hanya versi gratis/konsumen dari ChatGPT, Copilot, Perplexity, dan Gemini. Copilot memakai model ChatGPT, dan model lain seperti Grok sama sekali tidak masuk pengujian
Saya memakai DeepSeek V3 untuk analisis berita kripto otomatis, dan pada laporan akurasi terbaru saya mendapat angka 98,5%. Karena itu hasil di artikel ini agak mengejutkan
laporan akurasi saya
Setengah dari pertanyaan di artikel itu menyangkut isu yang sensitif secara politik. Menarik memang, tetapi kalau ingin menilai bagaimana performa AI pada berita umum yang tidak terlalu provokatif, menurut saya dibutuhkan pertanyaan yang lebih umum. Beberapa pertanyaan juga tampaknya lebih cocok untuk mode riset mendalam daripada jawaban cepat. Berita nyata pun sering kali penuh dengan opini tentang apa jawabannya