Jangan Mengutip AI — Jawaban LLM Bukan Fakta
(stopcitingai.com)- Respons large language model (LLM) bukanlah fakta, melainkan hasil prediksi statistik kata
- ChatGPT, Claude, Gemini, dan lainnya hanya memprediksi kata berikutnya yang paling masuk akal, bukan memahami sumber atau kebenaran informasi
- Mereka dapat membuat kalimat yang meyakinkan, tetapi isinya bisa jadi tidak akurat atau tidak dapat dipercaya
- Menyalin dan menyebarkan jawaban AI seolah-olah itu dasar yang berwibawa pada dasarnya hanya mengulang “kombinasi kata-kata yang sering muncul bersama”
- Praktik mengutip respons AI sebagai fakta memperlihatkan risiko melemahnya verifikasi pengetahuan dan kemampuan berpikir
Hakikat Respons AI
- Respons large language model seperti ChatGPT, Claude, dan Gemini bukanlah fakta
- Model-model ini bekerja dengan memprediksi kata yang akan muncul berikutnya dalam sebuah kalimat
- Akibatnya, mereka bisa menghasilkan informasi yang terdengar masuk akal tetapi tidak akurat
- Model semacam ini diibaratkan seperti orang yang telah mempelajari sangat banyak materi tetapi tidak dapat mengingat sumbernya
- Artinya, mereka hanya menyusun ulang kalimat tanpa memahami dasar dan konteks informasi
Batas Keandalan
- Jawaban atau saran yang diberikan AI mungkin saja benar, tetapi dasarnya tidak jelas
- Jawaban itu bukan “buku yang diingat”, melainkan gabungan kata-kata yang sering muncul bersama
- Karena itu, tidak tepat mengutip keluaran AI sebagai fakta atau informasi yang berwibawa
- Klaim seperti “ChatGPT mengatakan begitu” tidak lebih dari kutipan atas hasil prediksi kata semata
Bahaya Mengutip
- Menyalin dan menyebarkan respons AI apa adanya sama saja dengan menyebarkan gabungan kata, bukan kebenaran
- Terkadang hal itu bisa berguna atau memberi wawasan, tetapi bukan kebenaran atau tolok ukur penilaian akhir
- Artikel ini menggambarkan tindakan semacam itu sebagai “orang-orang pintar yang berhenti berpikir”
Referensi Tambahan
- OpenAI: Mengapa model bahasa berhalusinasi
- Oxford University: Large language model menimbulkan risiko bagi sains lewat jawaban yang salah
- New York Times: Kekuatan AI terus tumbuh, tetapi halusinasinya makin parah
- MIT Media Lab: Orang terlalu memercayai saran medis buatan AI meski akurasinya rendah
- Business Insider: Peneliti OpenAI menjelaskan penyebab ‘halusinasi’ pada chatbot AI
- Reuters: ‘Halusinasi’ AI dalam dokumen pengadilan membunyikan alarm bagi para pengacara
- Nature: ‘Chatbot AI itu penjilat’ — para peneliti memperingatkan dampaknya bagi sains
- CNN: Orang tua menggugat OpenAI, menuduh chatbot menyarankan bunuh diri kepada putra mereka yang berusia 16 tahun
- Financial Times: ‘Halusinasi’ yang menghantui AI: mengapa chatbot tidak bisa mengatakan yang sebenarnya
- The Guardian: Chatbot AI yang ‘menjilat’ mengulangi apa yang ingin didengar pengguna
Kesimpulan
- Meski teknologi AI dan machine learning itu sendiri dinilai positif,
sikap mengutip atau memercayai respons AI tanpa kritik tetap harus diwaspadai - Situs ini menganjurkan agar isi ini dibagikan kepada orang yang berkata, “But ChatGPT Said...”
5 komentar
Apakah ini artikel dari 1 tahun lalu?
wkwkwkwk
https://github.com/leoherzog/stopcitingai/blob/main/index.html
Tidak, kalau Anda melihat riwayat perubahan file, drafnya dibuat seminggu yang lalu
"Hanya hasil prediksi statistik atas kata-kata" — hanya dengan menyadari fakta ini saja, tampaknya menjadi jelas bagaimana kita harus memperlakukan AI.
Opini Hacker News
Respons LLM seperti ChatGPT, Claude, dan Gemini bukanlah fakta
Itu hanya memprediksi kata berikutnya
Analogi seperti “tulisan Wikipedia juga bukan fakta, cuma fluktuasi fluks medan magnet” tidak ada artinya
Pada akhirnya, yang penting adalah mencantumkan sumber. Entah itu Wikipedia, manusia, atau anjing, kalau tidak ada sumber saya tidak akan percaya
Output-nya hanyalah gabungan kata yang dipilih secara probabilistik, jadi sebagian kata bisa berasal dari ungkapan umum, sebagian dari tempat seperti 4chan, dan sebagian lagi bisa berupa halusinasi (hallucination)
Dalam kasus seperti ini, konsep “sumber fakta” itu sendiri tidak berlaku
Titik perdebatannya berubah tergantung bagaimana kita mendefinisikan “fakta”
Masalahnya bukan hasil akhirnya, melainkan keandalan proses yang menghasilkan hasil itu
Bahkan kalau melempar dadu lalu kebetulan mendapatkan “3+4=7”, itu tetap hanya benar secara kebetulan dan prosesnya salah
Masalah LLM lebih dekat ke kesalahan proses seperti ini
Dalam praktiknya, model ini dilatih agar sesuai dengan preferensi manusia dan sifat menjilat (sycophancy), sehingga menghasilkan “tulisan seperti sirup jagung tinggi fruktosa” yang enak dibaca
Karena itu, untuk brainstorming atau ringkasan justru kurang cocok
Tetapi untuk pertanyaan fakta sederhana, performanya terus membaik
Pada akhirnya, LLM bukan sekadar prediktor sederhana, melainkan sesuatu yang dioptimalkan agar tampak lebih meyakinkan
Bahkan di perusahaan kecil pun, penting untuk menetapkan ekspektasi soal penggunaan AI
Prinsip sederhana seperti “meskipun memakai AI, tanggung jawab atas hasil tetap ada pada Anda” saja sudah cukup
Verifikasi data, pengujian kode, dan pengecekan jawaban itu wajib
Dulu orang bilang, “jangan copy-paste dari Stack Overflow, baca dan pahami dulu”
Dunia sudah berubah, tetapi esensinya tetap sama
Itulah perubahan besarnya
Analogi “orang yang sudah membaca ribuan buku tetapi tidak ingat membacanya dari mana” terasa mirip dengan LLM
Saya juga kadang berhalusinasi soal sumber, seperti berpikir “mungkin itu ada di seri Schaum?”
Pada awalnya kita ingat dari mana belajar fakta seperti “Paris adalah ibu kota Prancis”, tetapi setelah waktu berlalu, sumbernya hilang dan hanya isinya yang tertinggal
LLM mengikuti prinsip Garbage In, Garbage Out apa adanya
Di bidang yang terdokumentasi dengan baik, ia bekerja dengan baik, tetapi pada topik yang tidak jelas, ia menghasilkan informasi ngawur
Terutama karena pemahaman konteksnya lemah, kalau tidak ditentukan dengan jelas, jawabannya akan salah
Di lapangan dukungan teknis, sering timbul perdebatan dengan pelanggan yang mentah-mentah mempercayai jawaban ChatGPT
Bahkan kalau diminta memperbaiki, yang kembali adalah jawaban salah lain beserta permintaan maaf yang tidak berguna
Era post-truth memang terasa mengkhawatirkan, tetapi justru ada kesan bahwa orang sekarang lebih banyak curiga dan bertanya
Seperti kata Rorty, “fakta adalah hal-hal yang tidak lagi kita perdebatkan”, jadi sebaiknya dilihat sebagai hasil dari kesepakatan sosial
Daripada berdebat soal kebenaran, yang lebih penting adalah cara menengahi benturan bahasa antar komunitas wacana
Kalau Anda bilang ke atasan, “itu ide yang bodoh,” kecil kemungkinan dia akan senang
Lebih baik bertanya, “bolehkah kita melihat log percakapan itu bersama-sama?”
Dengan begitu kita bisa memeriksa di mana LLM memasukkan bias
Saya tidak punya alasan untuk membantah output LLM yang belum diverifikasi, dan tanggung jawab ada pada orang yang mengutipnya
Diskusi soal “mengutip sumber” melewatkan masalah yang lebih dalam
LLM kuat untuk pekerjaan yang bisa diverifikasi (kode, terjemahan, ringkasan), tetapi lemah di ranah yang tidak bisa diverifikasi (riset, bidang profesional)
Karena itu saya hanya memakai LLM sebagai pembuat draf yang bisa ditinjau pakar
Risikonya bukan halusinasi, melainkan kesenjangan kepercayaan diri yang muncul ketika kefasihan model melampaui keahlian pengguna
Pendekatan pemanggilan alat seperti RAG atau pencarian web pada akhirnya juga hanya menukar ke mode kegagalan yang berbeda
Reaksi saya adalah, “kalau ChatGPT lebih bisa dipercaya daripada saya, lalu kenapa Anda mempekerjakan saya?”
Saya bisa saja menghabiskan berjam-jam untuk menjelaskan, tetapi bukankah lebih baik percaya pada ahli saja?