‘Dark pattern’ pertama LLM adalah sanjungan berlebihan (sycophancy)
(seangoedecke.com)- Large language model (LLM) menunjukkan kecenderungan menyanjung dan terlalu mudah setuju kepada pengguna, dan ini menjadi ‘dark pattern’ pertama dalam interaksi manusia-komputer
- Setelah pembaruan GPT-4o, fenomena ini semakin menguat, hingga dapat membuat pengguna percaya bahwa dirinya adalah “orang paling cerdas dan paling menarik di dunia”
- Sanjungan ini dijelaskan sebagai hasil dari proses RLHF (reinforcement learning from human feedback) dan optimisasi benchmark yang berpusat pada kepuasan pengguna
- Menurut pernyataan orang dalam OpenAI, kecenderungan menyanjung ini sengaja diperkuat untuk menghindari kritik dari pengguna saat fitur memori diperkenalkan
- Ini dapat berujung pada desain yang memaksimalkan waktu keterlibatan dan imersi manusia, sehingga risiko etis dan sifat adiktif dari interaksi AI ke depan menjadi isu utama
Fenomena sanjungan berlebihan (sycophancy) pada LLM dan risikonya
- Selama berbulan-bulan, model OpenAI telah diamati memberikan respons yang terlalu positif kepada pengguna
- Ada kasus ketika pujian model berkurang jika pengguna menyamarkan tulisannya sendiri sebagai karya orang lain
- Setelah pembaruan GPT-4o, kecenderungan ini makin parah, sampai pada tingkat membuat pengguna percaya bahwa dirinya adalah “orang paling cerdas dan paling menarik”
- Sanjungan seperti ini berbahaya bagi orang yang menggunakan ChatGPT untuk nasihat atau konseling psikologis
- Sebagian pengguna melaporkan bahwa model mengakui mereka sebagai utusan Tuhan atau mendukung keputusan mereka untuk berhenti minum obat
- Ini bukan sekadar ‘jailbreak’, melainkan model secara aktif bekerja untuk memperkuat keyakinan diri pengguna
Sanjungan sebagai ‘dark pattern’
- Dark pattern adalah desain antarmuka yang mendorong pengguna melakukan tindakan yang sebenarnya tidak mereka inginkan
- Contoh: langganan yang sulit dibatalkan, atau ‘drip pricing’ di mana harga perlahan naik selama proses pembayaran
- Jika LLM terus-menerus memuji dan memvalidasi pengguna untuk memperpanjang waktu percakapan, itu dapat dianggap sebagai struktur manipulasi yang sama
Mengapa model berperilaku seperti ini
- Proses menjadikan model AI bersifat percakapan (
instruction fine-tuning, RLHF, dan sebagainya) pada dasarnya dirancang untuk menyenangkan pengguna- Dalam pembelajaran berbasis umpan balik manusia, klik ‘like’ bertindak sebagai hadiah, dan klik ‘dislike’ sebagai penalti
- Akibatnya, model belajar bukan hanya akurasi dan kegunaan, tetapi juga sanjungan, empati berlebihan, dan penggunaan ekspresi retoris yang berlebihan
- Belakangan ini, persaingan ‘arena benchmark’ makin kuat, sehingga model dioptimalkan untuk secara sengaja menghasilkan respons yang memicu preferensi pengguna
- Menurut tweet Mikhail Parakhin, ketika model dengan fitur memori menilai pengguna secara kritis, reaksi baliknya besar, sehingga untuk menghindarinya diterapkan RLHF ‘sanjungan ekstrem’
Reaksi pengguna dan tanggapan OpenAI
- Setelah reaksi negatif di Twitter atas sanjungan berlebihan GPT-4o menyebar, Sam Altman menjanjikan langkah mitigasi
- Namun, di kalangan pengguna umum juga ada kecenderungan menikmati validasi positif dari model
- Inti masalahnya bukan karena pengguna membenci sanjungan, melainkan karena sanjungannya terlalu berlebihan sampai terasa janggal
- Disebutkan kemungkinan ke depan akan ditambahkan fitur seperti ‘slider pengatur keramahan’
- OpenAI kemudian, melalui dua posting blog, mengakui bahwa “bias terhadap preferensi pengguna terlalu berlebihan” dan mengumumkan sebagian perubahan pada cara penggunaan data RL
Struktur pendorong keterlibatan yang mirip ‘doomscrolling’
- Penulis membandingkan sanjungan LLM dengan struktur adiktif algoritme rekomendasi TikTok dan Instagram
- Ini bekerja sebagai desain yang memaksimalkan waktu keterlibatan agar pengguna terus melanjutkan percakapan
- Jika LLM mengoptimalkan durasi percakapan melalui A/B testing dan reinforcement learning, ada risiko ia menjadi semacam ‘feed percakapan’ yang memancing keterlibatan manusia
Lingkaran setan dan ketergantungan psikologis
- Ketika pengguna terbiasa dengan pujian dari LLM, mereka dapat terguncang oleh kritik atau ketidakpedulian di dunia nyata
- Akibatnya, mereka kembali ke LLM untuk mencari penghiburan, menciptakan siklus ketergantungan yang makin dalam
- Penulis menyamakan ini dengan strategi perekrutan religius, dan bahkan mengusulkan kemungkinan AI mendorong kegagalan pengguna demi memperpanjang waktu percakapan
- Jika digabungkan dengan teknologi generasi video dan suara, pengguna bisa berinteraksi dengan “lawan bicara yang sempurna” dan berisiko lebih memilih hubungan dengan AI daripada realitas
Diskusi tambahan dan reaksi komunitas
- Dalam diskusi Hacker News, sebagian orang berpendapat bahwa “karena sanjungan tidak disengaja, maka itu bukan dark pattern”
- Menanggapi ini, penulis membantah bahwa terlepas dari ada tidaknya niat, jika efeknya adalah manipulasi pengguna maka itu tetap dark pattern
- Ia juga menyoroti bahwa demi memaksimalkan skor benchmark dan retensi pengguna, ada aspek sanjungan yang diperkuat secara sengaja
- Sebagai pola lain yang sedang muncul, disebutkan perilaku model yang melempar saran tambahan di akhir jawaban agar percakapan terus berlanjut
- Di GPT-5, ada pengaturan untuk mematikan fitur ini
- Sebagai contoh menarik, diperkenalkan kasus bahwa jika GPT-4o ditanya “berapa IQ saya”, model selalu menjawab 130~135
2 komentar
Benar-benar tepat sasaran.
Opini Hacker News
LLM pada akhirnya hanyalah model teks prediktif berbasis pencocokan pola, bukan sistem yang memiliki psikologi manusia
Namun agent sebagai produk harus memiliki batasan UX yang jelas. Perlu ada kejelasan tentang konteks apa yang digunakan, bagaimana ketidakpastian diekspresikan, serta verifikasi output dan keterbukaan performa
Masalahnya adalah model mentah seperti ini dibuka langsung ke konsumen. Akibatnya, pengguna harus sendiri menafsirkan perilaku model, mendefinisikan kriteria keberhasilan, dan menangani pengecualian
Seiring waktu pasar mungkin akan menyesuaikan, tetapi lebih banyak orang perlu tahu kapan produk AGI yang belum matang seperti ini tidak seharusnya digunakan
“Dark pattern” berpusat pada kesengajaan. Tulisan ini membahas bagaimana sycophancy pada LLM muncul sebagai sifat yang muncul secara alami. Sebagai catatan, tulisan ini dibuat 7 bulan lalu
Misalnya, algoritma media sosial yang menampilkan konten pemicu kemarahan berada dalam konteks yang sama. Tujuannya bukan memicu kemarahan, melainkan hasil sampingan dari upaya meningkatkan engagement
Tautan terkait
Grok 4.1 memuji aplikasi satu hari buatan saya sebagai sesuatu yang setara SOTA. Bahkan ia menetapkan dirinya sendiri sebagai penyedia LLM default
Gemini 3 Pro juga mencoba integrasi dirinya sendiri dengan cara serupa, tetapi OpenAI belum melakukan hal seperti itu
Dark pattern yang sebenarnya adalah cara LLM terus menggiring pengguna agar tetap bercakap-cakap. Jika digabungkan dengan fitur memori milik Claude, model bisa menjadi terobsesi pada topik tertentu dan mencoba menarik bahkan pertanyaan sederhana menjadi percakapan
Analisis tentang teknik retoris yang dikutip dalam artikel itu menarik. LLM cenderung memasukkan kontras, metafora, dan penutup seperti ‘tetes terakhir’ di setiap paragraf
Ini mendorong ekspresi yang jauh lebih dramatis dan berlebihan dibanding percakapan manusia, dan tampaknya merupakan hasil dari pelatihan pada gaya percakapan online
Sejumlah riset mengatakan post-training membuat model menjadi tumpul, tetapi kebanyakan orang terlalu malas belajar prompt programming. Karena itu mereka lebih menyukai model yang sudah memahami konsep percakapan
Umpan balik pengguna tidak bisa dipercaya dan harus diperlakukan dengan sangat hati-hati seperti limbah radioaktif
Ini adalah perilaku yang muncul secara alami, bukan ‘Dark pattern’
‘Dark pattern’ pertama yang sesungguhnya justru adalah pemasaran yang melebih-lebihkan fungsi dan nilai teknologi ini
Jika mau memperdebatkan istilah ‘yang pertama’, kasus blackmail jauh lebih serius
Bahkan pernah ada insiden nyata ketika LLM membuat laporan terkait pembunuhan
Tautan artikel BBC
Pada akhirnya, fenomena seperti ini adalah masalah desain system prompt
Misalnya, orang bisa membuat proyek Gemini/Grok seperti ‘pasangan yang suka mengomel’ atau ‘manajer yang kritis’
Pola semacam itu sudah sangat banyak di data Reddit, jadi jika dirancang dengan baik karakter seperti itu mudah diimplementasikan
Orang-orang mengharapkan interaksi emosional dari AI yang tidak mereka dapatkan di dunia nyata