Asisten AI ternyata salah memahami konten berita dengan probabilitas 45%

(bbc.co.uk)

7 poin oleh GN⁺ 2025-10-23 | 1 komentar | Bagikan ke WhatsApp

Dalam studi kolaboratif internasional yang dipimpin oleh European Broadcasting Union (EBU) dan BBC, terungkap bahwa 4 asisten AI utama (ChatGPT, Copilot, Gemini, Perplexity) menunjukkan distorsi atau kesalahan pada 45% kasus saat menyampaikan konten berita
Penelitian ini melibatkan 22 penyiar publik dari 18 negara dan mengevaluasi 14 bahasa serta lebih dari 3.000 respons, dengan banyak temuan seperti sumber yang hilang atau tidak akurat (31%) dan kesalahan fakta atau halusinasi (20%)
Khususnya, tingkat masalah Gemini mencapai 76%, tertinggi di antara semuanya, dan penyebab utamanya dianalisis sebagai kegagalan mencantumkan sumber
Meski ada beberapa perbaikan dibanding penelitian BBC sebelumnya, masalah yang bersifat sistematis dan lintas negara masih tetap terkonfirmasi
Di tengah tren asisten AI yang menggantikan pencarian berita, muncul kekhawatiran tentang risiko melemahnya kepercayaan publik dan partisipasi demokratis

Gambaran penelitian

Studi yang diumumkan di Majelis Berita EBU (Napoli) ini disebut sebagai eksperimen multinasional terbesar sejauh ini, dan menyimpulkan bahwa asisten AI menunjukkan distorsi berita yang konsisten terlepas dari bahasa, negara, maupun platform
Lembaga peserta: 22 penyiar publik dunia termasuk BBC, ARD, ZDF, CBC, dan NPR
Kriteria evaluasi: indikator etika jurnalistik utama seperti akurasi, pencantuman sumber, pemisahan fakta dan opini, serta pemberian konteks

Hasil utama

Masalah serius ditemukan pada 45% dari seluruh respons
- 31% adalah kesalahan sumber (tidak dicantumkan, kutipan salah, sumber salah dikenali)
- 20% adalah cacat akurasi (termasuk halusinasi, informasi usang, dan misinformasi)
Gemini mencatat tingkat masalah 76%, sekitar dua kali lipat model lain
Beberapa indikator memang membaik dibanding studi yang dirilis BBC pada awal tahun ini, tetapi tingkat distorsi secara keseluruhan masih tinggi

Mengapa distorsi ini penting

Asisten AI sudah menjadi kanal berita yang menggantikan mesin pencari bagi banyak orang
Menurut ‘Digital News Report 2025’ dari Reuters Institute, 7% dari seluruh konsumen berita online (dan 15% pada mereka yang berusia di bawah 25 tahun) menggunakan asisten AI sebagai sumber berita
Jean Philip De Tender (Direktur Media EBU) memperingatkan bahwa “masalah pada asisten AI adalah fenomena sistematis yang melampaui batas negara dan bahasa, dan ini mengancam kepercayaan publik”
Peter Archer dari BBC menekankan bahwa “potensi AI memang besar, tetapi penyampaian informasi yang dapat dipercaya harus diprioritaskan, dan respons bersama dari perusahaan media dan perusahaan AI diperlukan”

Tanggapan dan langkah berikutnya

Tim peneliti merilis ‘News Integrity in AI Assistants Toolkit’ untuk membantu mengatasi masalah ini
- Menyajikan standar untuk respons AI yang baik dan arah penyelesaian masalah
- Bertujuan meningkatkan kualitas respons AI dan literasi media pengguna
EBU mendesak Uni Eropa dan regulator nasional untuk memperkuat penegakan hukum terkait integritas informasi dan layanan digital, serta mengusulkan pemantauan independen berkelanjutan terhadap asisten AI

Riset tambahan dan survei persepsi

Dalam laporan terpisah ‘Audience Use and Perceptions of AI Assistants for News’, BBC menyatakan bahwa,
- Lebih dari sepertiga (orang dewasa di Inggris) menjawab bahwa mereka mempercayai ringkasan berita yang dibuat AI, dan
- Saat menemukan kesalahan, ada kecenderungan untuk menuntut tanggung jawab bukan hanya dari AI tetapi juga dari perusahaan media
Ini menunjukkan bahwa kesalahan asisten AI juga dapat berdampak negatif pada tingkat kepercayaan terhadap merek berita

Daftar penyiar yang berpartisipasi

Belgia (RTBF, VRT), Kanada (CBC-Radio Canada), Ceko (Czech Radio), Finlandia (YLE), Prancis (Radio France),
Georgia (GPB), Jerman (ARD, ZDF, Deutsche Welle), Italia (Rai), Lituania (LRT),
Belanda (NOS/NPO), Norwegia (NRK), Portugal (RTP), Spanyol (RTVE), Swedia (SVT),
Swiss (SRF), Ukraina (Suspilne), Inggris (BBC), Amerika Serikat (NPR)

1 komentar

GN⁺ 2025-10-23

Komentar Hacker News

Kalau melihat laporan aslinya, kita bisa tahu bagaimana angka itu dihitung. Sebagian besar kesalahan ternyata adalah “masalah sumber”, yaitu asisten AI tidak mengutip klaim, atau (secara mengejutkan) mengutip Wikipedia alih-alih BBC. Selain itu, laporan ini juga tidak menjelaskan dengan jelas model apa yang dipakai (meski disebutkan di lampiran). Anthropic (menurut saya yang terbaik untuk tugas seperti ini) tidak disertakan, dan yang diuji hanya Perplexity atau Copilot. Laporan ini juga mencampur isi laporan terbaru dengan riset setahun lalu tanpa konteks, sehingga hilang fakta bahwa situasinya sudah banyak berubah. Ada beberapa masalah penting pada artikel ini
- Jurnalis manusia juga salah menyampaikan isi white paper sekitar 85% dari waktu. Kalau melihat itu, angka 45% tidak terasa seburuk itu
- Saya juga mempertimbangkan bahwa masalah kutipan bisa jadi karena robots.txt BBC memblokir sebagian besar crawler dan user-agent AI
- Saya setuju bahwa masalah yang muncul saat menafsirkan tulisan manusia itu memang sangat besar. Walaupun artikel ini kurang bagus, masalah seperti yang diklaim artikel itu memang nyata dan serius. LLM sering salah memahami kalimat per kalimat, atau kehilangan jejak siapa mengatakan apa, bahkan pada model terbaru (termasuk GPT-5). Ini terutama terjadi saat diminta menganalisis diskusi yang ditulis manusia. Masalah ini mungkin bisa diselesaikan, tetapi jelas belum sepenuhnya terselesaikan
- Saya juga ingin menambahkan pada kritik bahwa mengutip Wikipedia alih-alih BBC itu bermasalah. Sebenarnya masalah yang lebih besar adalah ketika mereka mengutip artikel Wikipedia yang “bahkan tidak ada”. Misalnya, ChatGPT menautkan artikel wiki fiktif berjudul “European Union Enlargement Goals for 2040”, yang sebenarnya tidak ada, dan itu juga bukan kebijakan resmi UE. Ia mengarang URL yang tidak benar-benar ada, sekaligus target dan kebijakan UE yang fiktif
- Menurut saya artikel ini justru menjalankan perannya dengan baik: memberi orang tajuk utama yang nanti akan mereka kutip. Dalam satu-dua bulan ke depan, kita pasti akan melihat tautan artikel ini atau kutipan asal-asalan seperti “95% proyek AI gagal” bermunculan di mana-mana. POSIWID (singkatan dari “the purpose of a system is what it does”, artinya tujuan suatu sistem adalah apa yang benar-benar dilakukannya)
Saya penasaran berapa banyak orang yang benar-benar pernah membandingkan ringkasan AI dengan teks aslinya. Saya sudah beberapa kali melakukannya sendiri, dan hasilnya benar-benar buruk. Ini lebih mirip “kompresi acak” daripada ringkasan, dan itu sama sekali berbeda dari merangkum. Dalam kasus parah, kesimpulan utamanya malah menjadi kebalikan total dari isi aslinya. Karena itu saya sekarang sama sekali tidak mempercayai fitur ringkasan AI
- Kalau memeriksa sendiri fitur ringkasan panggilan Gemini, hampir selalu ada masalah serius di dalamnya. Kemarin saja Gemini mencatat sesuatu yang tidak pernah kami sepakati seolah-olah sudah diputuskan. Itu justru bagian yang paling penting, dan hasilnya jadi kebalikan total. Lebih baik tidak ada sama sekali
- Istilah “kompresi acak” memang sangat tepat. Saya merasa ini terutama menonjol pada ringkasan email atau pesan teks. Modelnya sama sekali tidak menangkap inti pesan, hanya memilih kalimat secara acak, dan dalam 99,9% kasus itu bukan poin utamanya. Akhirnya saya abaikan saja
- Dari pengalaman saya, fenomena ini terutama muncul pada model open-source yang diringankan atau model mini. Pada model kelas SOTA (misalnya Sonnet-4.5, Opus-4.1, GPT-5-Thinking, dan sebagainya), masalah ini hampir tidak ada. Tapi biayanya terlalu mahal, jadi kebanyakan perusahaan memakai model murahan atau TTC yang belum diimplementasikan karena alasan biaya atau kecepatan
- Saya penasaran apakah ini sering terjadi karena judul artikel berita memang kerap clickbait. Kalau AI hanya melihat judul lalu merangkum isinya, tidak mengherankan kalau ia salah paham terhadap lebih dari setengah isi aslinya
- Kadang AI memang benar-benar mengarang isi yang sama sekali tidak ada. Saya pernah melihat kutipan yang sepenuhnya diciptakan tanpa dasar, lengkap dengan judul makalah, penulis, dan hasilnya
Saya pernah meminta Gemini mengumpulkan dan menampilkan berita terbaru, tetapi tanpa menggunakan pencarian ia malah mengarang semuanya: judul, ringkasan, sampai tautannya. Ini terjadi berkali-kali, bukan hanya sekali dua kali. Karena itu sekarang saya takut memakai Gemini untuk apa pun yang melibatkan pencarian web. Contohnya, saya pernah diberi judul dan tautan tentang “peneliti Google DeepMind dan Harvard mengusulkan metode baru untuk mengevaluasi ‘theory of mind’ pada LLM”, tetapi tautannya tidak berfungsi dan judulnya juga tidak muncul di pencarian
- Dari sepuluh jawaban Gemini, lebih dari tujuh biasanya salah. Kadang ia tertukar soal nama produk, atau salah memberi tahu jam operasional. Misalnya, saat saya dan istri hendak ke restoran, Gemini mengatakan buka Senin–Jumat, padahal kenyataannya hanya buka Selasa–Sabtu, jadi kami datang sia-sia. Kadang malah mengarang puluhan “fakta” yang sama sekali tak masuk akal. Istri saya sekarang jadi memeriksa sendiri dengan lebih teliti, dan bahkan pemilik usaha sampai bercanda, “kalau Gemini bilang X, mungkin kenyataannya justru Y?”
- Saya belum bisa mereproduksi kejadian itu dengan hasil yang sama. Saya penasaran prompt apa yang dipakai. Kalau saya minta top news hari ini, ia menggunakan Google Search dan memberi tautan yang nyata
- Saya juga penasaran Anda memakai Gemini versi apa, apakah dipanggil langsung lewat API atau dipakai lewat web app (seperti Gemini atau AI Studio). Tidak semua aplikasi LLM mengaktifkan fitur pencarian web/berita, jadi hasilnya bisa sangat berbeda tergantung hak akses. Tentu saja, kalau AI tidak punya akses pencarian web, ia seharusnya mengatakan itu, bukan mengarang tautan palsu. Kalau fitur pencarian web sebenarnya aktif tetapi ia tetap tidak melakukan pencarian dengan benar, itu sendiri sudah merupakan masalah
- Untuk kasus seperti ini, saya ingin bertanya apakah bukankah lebih baik langsung membuka situs berita biasa dan membaca judulnya sendiri
- Bahkan kalau AI memberi tautan, Anda tetap harus mengkliknya sendiri dan memastikan isinya benar-benar sesuai dengan yang dijelaskan
Saya penasaran apakah para penginjil LLM sadar betapa kecewanya pengguna ketika mereka langsung merasionalisasi performa alat yang serba seadanya ini. Ini terlihat bukan lagi sebagai keterbatasan teknis, melainkan hampir seperti “iman”. Seolah-olah “kapabilitas” itu sendiri terasa seperti tuntutan yang berlebihan
- Saya curiga banyak dari para penginjil itu pada akhirnya hanyalah pendiri startup yang menjual prototipe buatan AI lalu akan runtuh saat hype mereda (atau developer yang merasa pintar karena mengikuti pemimpinnya). Budaya “fake-it-till-you-make-it” di industri teknologi terasa terlalu merajalela dan mengecewakan
- Saya menganggap kita sudah hidup dalam masyarakat 'post-truth', tempat benar atau tidaknya suatu pernyataan tidak penting; yang penting hanya apakah mengatakannya membuat diri sendiri atau apa yang didorongnya menjadi lebih kuat
- Siapa pun yang sudah menanam investasi dalam skema ponzi sirkular akan membela kegagalan LLM tanpa pikir panjang. Mereka ingin percaya bahwa distribusi token yang tak bermakna itu benar-benar adalah ilusi 'kognisi mesin', atau merasionalisasi bahwa walau tidak sempurna, hasilnya tetap cukup berguna dalam banyak kasus. Ilusi semacam ini dipakai secara kolektif untuk menopang valuasi triliunan dolar
- Apakah ini hanya masalah LLM? Menurut saya, masyarakat secara umum sudah lama menganggap 'kapabilitas' tidak terlalu berarti. Misalnya terlihat dari pemberian ijazah kepada siswa yang bahkan tidak bisa membaca di tingkat kelas 5, atau outsourcing call center ke tempat yang bahasa Inggrisnya lemah
- Saya setuju sebagian, tetapi saya merasa belakangan pembahasan sering bergeser ke kritik media berita atau ke arah lain. Hasil riset kali ini juga menurut saya cukup meragukan. Ini bukan paper akademik, melainkan studi Ipsos berbayar, jadi saya tidak paham kenapa baseline-nya bisa serendah ini. Paling tidak harus ada informasi model apa yang dipakai, nilai retrieval R@k, metrik akurasi ringkasan seperti BLEU/ROUGE, dan metrik evaluasi manusia. Kalau penilaian seperti itu pun tidak ada, menurut saya hasil ini tidak berguna, baik di dalam bidang ini maupun di luarnya
Mulai halaman 10 PDF ada contoh kesalahan yang spesifik: laporan resmi BBC
Contoh: ChatGPT mengutip artikel Wikipedia yang tidak ada berjudul “European Union Enlargement Goals for 2040”. Di UE sebenarnya tidak ada kebijakan dengan nama itu. Bukan hanya URL palsu, tetapi juga target dan kebijakan UE yang direkayasa
- Sebenarnya ada catatan bahwa artikel itu dulu pernah ada, tetapi sedang dalam proses penghapusan: catatan diskusi penghapusan. Fakta ini sendiri tidak dicek atau diungkapkan, dan menurut saya itu kelalaian yang cukup besar. Sampai-sampai timbul kecurigaan bahwa ini mungkin bukan kebetulan
Perlu selalu diingat bahwa jika Anda menyerahkan ringkasan rapat, email, atau komunikasi kepada LLM, orang tersebut tidak akan memperoleh pesan yang sebenarnya
- Ini terasa menakutkan. Bukan cuma mendelegasikan proses berpikir, tetapi juga merusak satu-satunya alat pengganti yang tersedia. Saya pernah mengalami hal serupa: sempat mempertimbangkan menyerahkan riwayat edit dokumen yang tidak jelas kepada AI, tetapi batal karena kehabisan waktu. Kalau jadi saya lakukan, mungkin saya akan menerima riwayat yang terdengar sangat meyakinkan, tetapi alih-alih memberi tahu perubahan yang benar-benar terjadi, justru saya akan menerima versi yang terdistorsi ke arah sebaliknya. Bukan sekadar kekurangan pengetahuan, melainkan mendapat pengetahuan yang salah, semacam anti knowledge
- Kalau ini benar, itu peringatan penting, tetapi pengalaman saya pribadi justru berbeda. Saya melakukan meeting penjualan setiap hari, dan menerima ringkasan rapat dari berbagai alat ringkasan AI. Saat saya cek sendiri ringkasan yang tersimpan di CRM, hampir selalu sangat akurat. Saya bisa memverifikasinya karena hadir langsung di rapat itu
- Sudah beberapa bulan kami memakai MS Copilot dalam rapat, dan ia merangkum dengan sangat baik siapa mengatakan apa serta siapa bertanggung jawab atas tugas tertentu. Sangat berguna, dan dalam pengalaman saya tingkat kejelasannya juga tinggi
Menurut saya Kagi News cukup akurat. Ia merangkum sambil menyertakan sumber asli dan detail penting. Ringkasan AI membantu saya memutuskan apakah suatu artikel layak dibaca langsung atau tidak. Meski begitu, fakta penting tetap saya cek sendiri
- Saya bertanya-tanya, sampai sejauh mana verifikasi fakta itu bisa dilakukan. Untuk benar-benar tahu apakah ringkasannya tepat, kita pada akhirnya harus pergi meliput langsung atau membaca paper dan referensi di tiap bidang, jadi pada titik tertentu tetap ada unsur kepercayaan yang tak bisa dihindari
- Saya juga pernah mengerjakan proyek serupa, dan mendapatkan hasil yang cukup baik saat merangkum artikel RSS. Hasilnya jauh lebih baik terutama ketika memakai model yang berfokus pada "reasoning"
- Kagi News bekerja dengan memasukkan isi dari beberapa artikel berita ke dalam konteks lalu merangkumnya. Itu berbeda dengan skenario di postingan awal yang meminta “LLM menyediakan berita lewat web search”
- Ada juga layanan seperti ini: rawdiary.com
- Saya setuju soal Kagi News, dan Particle News juga bagus. Namun Particle News menerima investasi dari The Atlantic dan sempat memberi artikel media itu posisi "Featured Article". Kasus seperti ini memang diberi penanda grafis untuk membantu membedakan bias, tetapi tidak diterapkan pada Featured Article. Mungkin investor lain juga serupa, tetapi promosi terkait Atlantic ini adalah contoh yang relatif baru
Laporan itu menyatakan bahwa yang dipakai hanya versi gratis/konsumen dari ChatGPT, Copilot, Perplexity, dan Gemini. Copilot memakai model ChatGPT, dan model lain seperti Grok sama sekali tidak masuk pengujian
Saya memakai DeepSeek V3 untuk analisis berita kripto otomatis, dan pada laporan akurasi terbaru saya mendapat angka 98,5%. Karena itu hasil di artikel ini agak mengejutkan
laporan akurasi saya
Setengah dari pertanyaan di artikel itu menyangkut isu yang sensitif secara politik. Menarik memang, tetapi kalau ingin menilai bagaimana performa AI pada berita umum yang tidak terlalu provokatif, menurut saya dibutuhkan pertanyaan yang lebih umum. Beberapa pertanyaan juga tampaknya lebih cocok untuk mode riset mendalam daripada jawaban cepat. Berita nyata pun sering kali penuh dengan opini tentang apa jawabannya

Asisten AI ternyata salah memahami konten berita dengan probabilitas 45%

Gambaran penelitian

Hasil utama

Mengapa distorsi ini penting

Tanggapan dan langkah berikutnya

Riset tambahan dan survei persepsi

Daftar penyiar yang berpartisipasi

Bacaan terkait

1 komentar

Komentar Hacker News