Jawaban AI dapat mengandung kesalahan

(os2museum.com)

2 poin oleh GN⁺ 2025-06-02 | 2 komentar | Bagikan ke WhatsApp

Ringkasan pencarian AI tidak selalu akurat
Berbagai informasi tentang PS/2 Model 280 diberikan berbeda-beda setiap kali pencarian diulang
Muncul masalah halusinasi AI yang menjelaskan nomor model yang tidak ada seolah-olah masuk akal
Peluang munculnya jawaban yang benar berada pada tingkat yang sangat rendah
Pengguna non-ahli berisiko tinggi mudah salah mengira informasi keliru sebagai kebenaran

Pengalaman menghadapi masalah keandalan ringkasan pencarian AI

Upaya mencari model IBM PS/2

Melakukan pencarian di Google untuk menemukan model tertentu dari sistem PS/2 Server yang dirilis pada 1992
Informasi yang muncul di hasil pencarian tidak sesuai dengan mesin yang dicari, sementara model aslinya memiliki karakteristik penggunaan prosesor 486 (jamak) dan Microchannel (MCA)

Hasil yang berulang dan jawaban yang tidak konsisten

Meski kueri yang sama dijalankan ulang, hasil ringkasan AI muncul berbeda setiap kali
Misalnya, berulang kali muncul klaim bahwa PS/2 Model 280 adalah sistem berbasis 286 dengan ISA
Pada tiap jawaban, bahkan informasi kapasitas dan spesifikasi RAM ikut berubah, memperlihatkan data yang tidak konsisten

Penjelasan halusinatif tentang model yang tidak ada

Setelah beberapa kali bertanya, AI bahkan menghasilkan informasi yang secara teknis mustahil, seperti klaim bahwa sistem 286 bisa diperluas hingga 128MB
Bahkan muncul tambahan penjelasan bahwa PS/2 Model 280 merupakan perkembangan penting dalam lini IBM PC
Padahal PS/2 Model 280 sendiri sebenarnya tidak ada, tetapi AI tetap memberikan penjelasan tanpa dasar dengan sangat meyakinkan

Rendahnya frekuensi jawaban yang benar

Baru setelah berkali-kali mencoba kueri, sesekali muncul jawaban benar bahwa “Model 280 sebenarnya tidak ada dalam seri PS/2”
Tingkat kemunculan jawaban yang akurat sangat rendah, dan dalam sebagian besar kasus AI menciptakan informasi tanpa dasar
Jawaban hasil halusinasi tidak memiliki nilai sebagai informasi dan justru memberi keyakinan yang salah

Waspada terhadap kepercayaan buta pada ringkasan pencarian AI

Pencarian internet berbasis AI bisa tampak sangat meyakinkan bagi pengguna non-ahli
Seorang ahli mungkin cepat menyadari kesalahannya, tetapi dari sudut pandang pengguna yang kurang mampu memverifikasi informasi, informasi palsu mudah sekali dipercaya
Peringatan bahwa AI “bisa melakukan kesalahan” sama sekali bukan hal yang sepele, dan mengandalkan jawaban AI tanpa proses verifikasi fakta yang dapat dipercaya adalah berbahaya
Ditekankan bahwa terdengar meyakinkan bukan berarti benar-benar berdasarkan fakta
Perlu selalu diingat pentingnya sikap skeptis dan verifikasi fakta terhadap ringkasan atau hasil pencarian berbasis AI

2 komentar

ndrgrd 2025-06-03

Menurut saya, sepertinya lebih baik meminta LLM hanya untuk merangkum. Proses menemukan sumber data dan memverifikasinya pasti diperlukan.

GN⁺ 2025-06-02

Opini Hacker News

Disebutkan sifat confabulation pada hasil pencarian Google Gemini, yakni mengarang jawaban sembarangan agar terlihat cocok dengan pertanyaan, serta dikritik karena tidak peduli pada konteks maupun akurasi; dibagikan pengalaman bahwa ini hanya bisa dipakai sebagai alat bantu ingatan jika kita sudah memperkirakan hasilnya, tetapi selain itu sama sekali tidak bisa dipercaya; hasil Google Veo juga disebut penuh celah; terlihat jelas bahwa hasil AI tidak memiliki logika atau penalaran; turut dibagikan contoh Veo menghasilkan keluaran yang ngawur serta tautan artikel tentang kasus kecelakaan Tesla FSD yang berperilaku aneh
[Realisme video AI] (https://arstechnica.com/ai/2025/05/ai-video-just-took-a-star...)
[Berita kecelakaan Tesla FSD] (https://electrek.co/2025/05/23/tesla-full-self-driving-veers...)
- Ada suasana bahwa hasil dengan kualitas seperti ini diam-diam sudah diterima sebagai sesuatu yang 'normal' dan 'bisa diterima'; kenyataan bahwa hampir tak ada yang benar-benar mempermasalahkannya sangat mengkhawatirkan; dipertanyakan mengapa hasil yang tidak akurat kini makin diterima, padahal dulu hal seperti ini jelas tak dapat ditoleransi
- Dibagikan pengalaman saat mencari fitur terkait mobil di Google: pencarian Google lama sebenarnya sangat bagus menangani kueri seperti ini, tetapi sekarang 90% hasilnya dipenuhi keluaran AI yang mencampuradukkan tahun, model, dan merek yang salah; satu-satunya yang agak membantu hanyalah satu video YouTube, dan jawaban yang benar justru ditemukan di bagian paling bawah halaman pada forum mobil lama, sehingga mereka menyampaikan terima kasih kepada CamaroZ28.com
- Situasi ini terasa lebih membingungkan daripada teknologi apa pun; sulit dipahami mengapa Google bertaruh pada perubahan arah menuju teknologi yang cacat separah ini untuk bisnis intinya; janji seperti dari Ben Evans bahwa "ini akan membaik" dianggap cuma omong kosong; dibagikan contoh nyata bahwa saat mencari acara peringatan yang diadakan kemarin di Jerman, AI Overview malah mengambil nama musisi Italia yang sudah meninggal lalu mengarang bahwa venue konser itu adalah karya terbaik musisi tersebut; ketika jawaban itu ditempel ke ChatGPT, mereka malah mendapat respons yang lembut namun tajam mengejek kesalahan AI Overview, yang terasa lucu
- AI di permukaan tampak seolah paling cerdas sepanjang masa, tetapi logika dan penalaran di dalamnya tidak mampu mengikuti, sehingga terasa masuk ke semacam 'uncanny valley' yang aneh
- Terus terang sulit memahami bagaimana orang memakai LLM sebagai pengganti pencarian; chatbot selalu hanya memberi data yang berdekatan dengan informasi yang diinginkan (misalnya saat diminta sumber malah hanya memberi kutipan), sehingga muncul pertanyaan apakah selama ini cara memakai pencarian mereka yang salah
Meski memahami keterbatasan dan sifat probabilistik LLM, ada keluhan bahwa keluarga atau teman di sekitar justru memercayai LLM dan memakainya untuk tugas yang tidak cocok, lalu menganggap hanya dirinya sendiri yang skeptis terhadap AI; mereka bahkan menyuruh AI membagi angka seperti untuk patungan, dan punya masalah karena memercayai hasil LLM tanpa syarat
- Ini disebut contoh klasik menyelesaikan masalah teknologi rendah dengan teknologi tinggi; ada nada sindiran pada kebiasaan menyerahkan perhitungan angka sederhana pun kepada mesin
- Untuk penggunaan sehari-hari, hasilnya memang sering 'cukup' benar, dan di situlah letak bagian tricky karena membuat orang bergantung secara kebiasaan
- Menyuruh LLM melakukan perhitungan sederhana sebenarnya cukup lucu; sempat juga dilontarkan lelucon bahwa akan lebih baik jika disuruh menulis Python saja ke variabelnya
- Ada perumpamaan bahwa penggunaan LLM itu sendiri merugikan orang sekitar, seperti merokok di dalam ruangan
- Terkait fenomena "menyuruh AI menghitung dan mencari informasi lalu 100% memercayai hasilnya", ada pendapat bahwa untuk penggunaan mekanis sesederhana ini bukankah chatbot saat ini memang bisa menjawab semuanya dengan benar; jika banyak fungsi bisa ditangani sekaligus, mengapa harus repot pindah-pindah aplikasi sesuai situasi; pada akhirnya usability adalah pendorong yang paling kuat
Ditekankan bahwa kalimat sederhana seperti "jawaban AI bisa mengandung kesalahan" atau peringatan kecil di bagian bawah ChatGPT sudah tidak memadai; meski halusinasi LLM telah diperingatkan selama bertahun-tahun, orang-orang tetap terus salah, sehingga penyedia LLM harus lebih agresif mendidik pengguna tentang keterbatasannya; dianggap tetap perlu meskipun membuat pengalaman pengguna jadi kurang nyaman
- Ada pandangan bahwa dalam diskusi seperti ini, pilihan yang tersisa pada dasarnya hanya membebankan tanggung jawab pada penyedia model atau mempertahankan sistem pemberitahuan awal yang terbatas seperti sekarang; model AI dan layanan cloud saat ini sudah memiliki penyaringan dan sensor berlapis, dan gesekan tambahan dari sini paling banter hanya berupa hal kecil seperti menambah pop-up; jika tanggung jawab mulai dibebankan kepada penyedia model, maka pada saat itu juga bisnis model terbuka praktis tidak akan mungkin berjalan; antarkorporasi hanya akan memakai lewat kontrak lisensi tertutup, dan API untuk publik umum menjadi mustahil dibuka; paling jauh hanya diperkirakan ada kemungkinan pembatasan sedikit demi sedikit dilonggarkan lewat perubahan suasana di masa depan
- Menanggapi argumen bahwa "edukasi pengguna harus dilakukan dengan lebih efektif", ada pendapat realistis bahwa pada akhirnya orang hanya bisa belajar dari pengalaman, semacam masalah yang baru terasa setelah terkena langsung; peringatan apa pun tak akan seefektif kerugian nyata
- Ada sudut pandang bahwa karena LLM pada dasarnya dijual dengan dalih menggantikan kerja pengetahuan manusia, penyedianya tak mungkin secara aktif menekankan keterbatasannya; ini dianggap bertentangan dengan pernyataan berulang seperti dari CEO Anthropic bahwa pengangguran massal tak terelakkan
- Disebut pula masa ketika layanan peta Apple dan Google pernah menghadapi krisis PR akibat petunjuk yang salah; sekarang justru ada suasana seolah cukup menempelkan satu peringatan saja maka tak ada masalah; disampaikan rasa kecewa karena teknologi baru mendapat toleransi terlalu besar
- Ditekankan bahwa "peringatan harus ditampilkan besar-besar dengan tulisan merah di bagian paling atas halaman"
Dijelaskan bahwa model bahasa tidak dirancang untuk 'mengetahui' pengetahuan, melainkan untuk 'berbicara'; karena itu disebut 'language model', bukan 'knowledge model'; pada dasarnya ia hanya menyambung kata berikutnya secara probabilistik setelah kata yang sudah dihasilkan; alasan mengapa hasilnya bisa berbeda setiap kali adalah karena secara internal ada distribusi probabilitas yang memilih kata berikutnya lewat pseudo-random number generator; jika temperature diatur ke 0, unsur acak hilang dan model selalu memilih kata dengan probabilitas tertinggi; hasil seperti itu menjadi sangat membosankan; untuk hal-hal seperti IBM, PS/2, 80286, 80486, model tidak benar-benar tahu faktanya, melainkan hanya melakukan pengurutan kata
- Ada pengalaman bahwa bahkan dengan temperature 0, model lokal tetap bekerja cukup baik; pembatasan temperature 0 di UI cloud diyakini dimaksudkan agar publik tidak melihat bug model yang terjebak dalam loop pengulangan tanpa akhir
- Meski setuju bahwa model bahasa tidak memberikan 'pengetahuan' melainkan sekadar menghasilkan ujaran, dari sudut pandang orang yang memakai Google, mereka datang bukan untuk bercakap-cakap melainkan untuk memperoleh 'pengetahuan' nyata; upaya Google mengganti penyediaan pengetahuan yang andal dengan sekadar 'generasi kata' dianggap sebagai kesalahan mendasar; namun karena tujuan nyatanya mungkin pendapatan iklan, bisa jadi hal itu sebenarnya tidak terlalu penting bagi mereka
Disorot bahwa bahkan di situs pencarian Google sendiri, peringatan "jawaban AI bisa mengandung kesalahan" disembunyikan di bawah tombol "lihat selengkapnya"; ada pengalaman saat OpenAI ChatGPT dirilis, mereka menjelaskan kepada profesor nonteknis bahwa AI saat ini bukan 'AI sungguhan' melainkan lebih mirip sulap percakapan berbasis komputasi; namun 'sulap' seperti ini ternyata sangat efektif untuk menyalin tugas; secara keseluruhan, kesannya adalah alat ini sangat bagus untuk 'cheating' dalam tugas maupun berbagai hal lain, selama kualitas atau hak cipta tidak dianggap penting
- Dipertanyakan pandangan bahwa "ia hanya tampak seperti bisa menulis kode, padahal sebenarnya tidak bisa"; menurut mereka, ia memang bisa menulis kode, dan soal apa yang terjadi di balik layar toh sama saja dengan otak manusia yang juga tidak benar-benar dipahami siapa pun; perdebatan esensial seperti ini dianggap tidak terlalu bermakna, yang penting adalah hasil nyata
- Ada sudut pandang praktis bahwa ini adalah alat bantu memori/pencarian informasi dengan antarmuka input/output yang fleksibel
Gemini dianggap dioptimalkan untuk pertanyaan yang sering diajukan orang, tetapi untuk niat pencarian yang lebih tradisional justru cenderung memberi jawaban confabulated yang ngawur; banyak orang terlihat memercayai AI Overview layaknya oracle; inilah cara publik umum mengalami AI; berbeda dengan tingkat kepercayaan pada 'berita', AI justru dipercaya semua orang tanpa memandang usia atau demografi; muncul kesan mendasar bahwa manusia memang spesies yang menyukai jawaban komputer yang penuh percaya diri meski tanpa dasar
- Perubahan lingkungan pencarian Google dinilai sangat serius; dulu UI excerpt di bagian atas halaman dipakai lebih dari 10 tahun, mengutip dari situs tepercaya dan menghemat klik, sehingga dikenang sebagai sumber informasi yang dapat dipercaya; untuk pertanyaan medis, kutipan sering diambil dari sumber tepercaya seperti Mayo Clinic dan dapat ditemukan langsung di halaman sumber, sehingga kepercayaan terbentuk; seiring waktu, sistem kepercayaan ini makin rusak oleh SEO, dan masalah utamanya sekarang adalah bahwa ia telah digantikan oleh sistem yang secara mendasar berbeda, yakni AI Overview; perbedaannya sangat jelas dibanding masa ketika sumber sah yang tepercaya masih bisa diverifikasi secara real-time
- Bukan hanya orang yang tidak memakai LLM langsung; bahkan manajer yang bekerja secara profesional dengan LLM pun terus mengubah pertanyaan sampai keluar jawaban yang mengonfirmasi keyakinan mereka sendiri
- Disebutkan pula psikologi dasar bahwa manusia memang pada dasarnya menyukai jawaban yang dilandasi keyakinan tanpa dasar
- Ada perasaan bahwa lingkungan internet tempat orang dulu bisa mencari sesuatu lalu belajar darinya kini telah hilang; semua hasil makin buruk karena spam SEO yang tidak bisa dipercaya, dan AI Overview dikhawatirkan akan memperparahnya; ada rasa takut bahwa zaman ketika orang mencari "cara kerja printer" lalu menerima mentah-mentah jawaban konyol seperti "sistem katrol dan tali" akan segera datang; ini disertai refleksi bahwa jawaban ngawur seperti itu, bahkan yang kadang berbahaya, benar-benar sudah sering terlihat
Pesan "jawaban AI bisa mengandung kesalahan" disebut justru sebagai inti yang paling ingin diteriakkan kepada publik dalam diskusi AI; dalam semua pembahasan etika/keamanan AI, poin ini bersama dampak energi/iklim seharusnya menjadi pusat perhatian; keduanya dianggap akan menjadi kerugian terbesar bagi umat manusia jika demam AI terus berlanjut
- Masalahnya bukan bahwa "bisa ada kesalahan", melainkan bahwa "kesalahan pasti terjadi"; tetapi orang-orang tidak menyadarinya dan malah memujanya seperti peramal serbabisa, padahal pada kenyataannya itu hanya model probabilistik sederhana; bahkan monyet pun, jika diberi cukup banyak percobaan, punya peluang menulis Shakespeare
Ada kritik bahwa Google benar-benar salah memahami dasar pencarian; sekarang fokusnya bukan lagi akurasi jawaban, melainkan ringkasan cepat dan tautan sponsor
- Dari 10 jawaban cepat, 6 terasa salah secara halus, 2 jelas-jelas salah, dan 1 bahkan berbahaya menurut pengalaman mereka; ada jawaban yang sungguh bisa melukai orang atau menimbulkan masalah hukum
- Strategi Google era Eric Schmidt yang dulu semacam "lebih baik ada banyak jawaban daripada tak ada jawaban" dianggap kini berevolusi menjadi "lebih baik jawaban salah daripada tak ada jawaban sama sekali"
Ada pendapat bahwa AI mirip orang yang selalu menjawab apa pun dengan penuh percaya diri tanpa dasar, sehingga hampir tak ada alasan untuk memercayainya secara serius
- Faktor psikologis dianggap kunci; orang bisa menangkap ketidakyakinan seseorang lewat sinyal nonverbal, tetapi AI tidak memiliki sinyal seperti itu, dan sudah lama ada kepercayaan bahwa jawaban dari mesin pada dasarnya adalah jawaban yang akurat; sangat sedikit orang yang mendekatinya secara kritis
- Ditambahkan lelucon bahwa belum ada perusahaan AI yang berani menamai produknya "Cliff Clavin", lengkap dengan sindiran soal risiko pencemaran nama baik dan perlunya keberanian tertentu
- Menanggapi klaim "saya benar-benar tidak paham kenapa orang serius memercayai AI", ada sanggahan: bukankah wajar orang memercayainya ketika perusahaan seperti Google, yang selama puluhan tahun bertujuan menyediakan informasi dunia dan berusaha memberi jawaban akurat, kini menyajikan itu lewat AI
Dari pengalaman terbaru memakai ChatGPT dan kode Python, ada cerita bahwa mereka meminta chatbot membuat tiga solusi untuk mengecualikan kelas logger Gunicorn pada path URL tertentu lalu membandingkan kecepatannya; chatbot memberi hasil lengkap dengan kode benchmark dan menyimpulkan regex paling cepat, tetapi saat dijalankan sendiri ternyata pendekatan tuple lebih dari 5 kali lebih cepat; setelah diberi tahu hasil sebenarnya, chatbot langsung merevisi jawabannya dengan "terima kasih sudah memberi tahu, pendekatan tuple yang benar"; meski benchmark code yang dibutuhkan bisa didapat dengan cepat dan menghemat waktu, pengalaman ini membuat mereka jadi kurang memercayai hasil chatbot di area yang kebenarannya sendiri belum bisa mereka pastikan