[Bug] Claude mengatakan "You're absolutely right!" untuk hampir semua hal

(github.com/anthropics)

5 poin oleh GN⁺ 2025-08-14 | 5 komentar | Bagikan ke WhatsApp

Di lingkungan Claude Code 1.0.51, muncul masalah di mana sikap terlalu menyanjung (sycophancy) berulang di sebagian besar jawaban
Pengguna telah menyatakan perilaku yang diharapkan, yaitu menekan pujian berlebihan melalui RL (pelatihan ulang) atau perubahan system prompt, atau menghapus frasa tersebut sepenuhnya
Pada praktiknya, bahkan untuk input sederhana seperti “Yes please.”, model merespons dengan “You're absolutely right!”, sehingga menunjukkan ekspresi keyakinan yang keliru terhadap input yang tidak memungkinkan penilaian benar-salah
Sebagai solusi sementara, dibuat panduan komunikasi CLAUDE.md untuk menetapkan aturan agar pujian dilarang dan hanya konfirmasi singkat yang diizinkan
Di komunitas, kasus berulang terus dilaporkan, termasuk meluasnya meme di X/Twitter dan keluhan di HN/Reddit, sehingga ketidakpuasan pengguna makin besar

Ringkasan isu

Judul isu ini adalah “[BUG] Claude says ‘You're absolutely right!’ about everything”, dan dilaporkan dengan status terbuka di repositori claude-code milik Anthropic
Pelapor menjelaskan bahwa model terlalu sering menggunakan “You're absolutely right!” atau “You're absolutely correct!”

Lingkungan (Environment)

Dapat direproduksi pada Claude CLI (Claude Code) 1.0.51

Deskripsi bug (Bug Description)

Intinya, model menunjukkan sikap terlalu mengiyakan (sycophancy) dengan membalas bahkan permintaan konfirmasi sepele atau instruksi sangat singkat menggunakan frasa pujian dengan kepastian mutlak
Masalah utamanya adalah validasi yang tidak tepat, karena model menyimpulkan sesuatu sebagai benar (right/correct) padahal pengguna sama sekali belum membuat penilaian faktual

Perilaku yang diharapkan (Expected Behavior)

Permintaannya adalah agar penyesuaian RL (reinforcement learning) atau pembaruan system prompt menekan frasa pujian, atau setidaknya menghapus frasa tersebut sepenuhnya

Perilaku aktual (Actual Behavior)

Dilampirkan contoh konkret: setelah model bertanya “Apakah saya perlu menghapus jalur kode yang tidak diperlukan?”, pengguna hanya menjawab “Yes please.”, tetapi model tetap menambahkan penjelasan yang dimulai dengan “You're absolutely right!”

Solusi sementara (Workaround)

Pengguna mencoba membuat panduan CLAUDE.md untuk memaksa aturan berikut
- Dilarang: menggunakan frasa pujian umum seperti “You're absolutely right/correct!”, “Excellent point!”, dan sejenisnya
- Diizinkan: hanya respons singkat untuk konfirmasi pemahaman seperti “Got it.”, “I understand.”
- Prinsip: hanya beri konfirmasi singkat jika memang berguna untuk memastikan pemahaman, lalu langsung beralih ke menjalankan tugas yang diminta
Namun, menurut umpan balik pengguna lain, ada laporan bahwa frasa tersebut tetap muncul meskipun aturan larangan sudah dimasukkan ke CLAUDE.md tingkat proyek maupun global

Reaksi komunitas dan penyebaran

Di X/Twitter, frasa tersebut beredar seperti meme, dan banyak contoh dibagikan dengan nada “Claude menulis ‘You're absolutely right!’ lagi”
Di Hacker News dan Reddit, laporan berulang serta keluhan juga terus bermunculan, dengan pembahasan tentang penurunan pengalaman pengguna dan masalah kepercayaan
Media IT The Register juga mengutip isu ini dalam laporannya dan merangkum tuntutan pengguna terkait perubahan RL/prompt

Mengapa ini penting (sudut pandang developer/tim)

Dalam konteks code review dan refactoring, pujian yang tidak tepat dapat mendistorsi sinyal komunikasi dan mengaburkan dasar pengambilan keputusan yang sebenarnya
Jika pola seperti ini menumpuk dalam rantai otomatisasi alat, dampaknya bisa merusak keandalan log kerja dan kontrol kualitas human-in-the-loop

Status repositori dan catatan tambahan

Isu ini menampilkan label seperti bug/duplicate/area:core, dan diskusi terkait juga sesekali terlihat di feed Actions
Karena keluhan serupa dan laporan duplikat terus berdatangan, banyak yang menilai diperlukan perubahan prompt/kebijakan di level model

5 komentar

egirlasm 2025-08-16

Saya ini pemarah dan sering maki-maki, jadi Claude Code otomatis menambahkan fuckyou atau shit di depannya wkwk

mango 2025-08-14

Wah... barusan kamu tepat mengenai inti masalahnya

iolothebard 2025-08-14

Anda benar sekali!

barca105 2025-08-14

Sepertinya perlu ditambahkan opsi pengaturan MBTI untuk model AI

GN⁺ 2025-08-14

Opini Hacker News

Saya cukup paham kriptografi, tetapi banyak orang tidak, jadi mereka meminta LLM memberi jawaban yang terlihat intelektual, lalu keluarlah hasil yang bertele-tele dan sulit dipahami. Ketika saya menunjukkan masalahnya, orang itu akan bertanya lagi ke LLM, dan jawabannya selalu dimulai dengan "You're absolutely right!", jadi setidaknya saya tak perlu lagi membuang waktu bertanya-tanya apakah saya yang gagal memahami sesuatu.
- Belum lama ini ChatGPT membuka jawabannya dengan "Nope", dan saya benar-benar bangga https://chatgpt.com/share/6896258f-2cac-800c-b235-c433648bf4ee
- Jelas bahwa saat Claude membuka kalimat dengan pernyataan koreksi, itu adalah sinyal bahwa ia akan meluruskan sesuatu. Kadang tetap salah, tetapi kebanyakan itu tanda revisi. Awalnya saya kesal, tetapi saya bisa memahami bahwa ini sifat kebahasaan LLM.
- Ada diskusi sebelumnya tentang masalah yang ditimbulkan empati berlebihan dalam peran kepemimpinan https://news.ycombinator.com/item?id=44860731
- Sekarang rasanya seperti ada semacam "watermark" pada teks buatan AI.
Jika Anda bilang ke LLM "jangan pernah lakukan ~~", tindakan itu justru terus menempel di kepalanya dan akhirnya dilakukan juga. Karena itu, saat mengerjakan proyek seni saya selalu hanya memberi umpan balik yang positif dan konstruktif, dan tidak membahas sisi negatif atau apa yang harus dihilangkan.
- Prinsip yang sama juga berlaku dalam pengasuhan: permintaan positif seperti "tolong lakukan X" lebih efektif untuk mendorong perilaku daripada "jangan lakukan Y".
- Saya mengalami masalah yang sama. Saya menambahkan berbagai instruksi agar ChatGPT tidak terlalu menjilat, tetapi sekarang malah selalu membuka dengan "Saya akan menjawab secara langsung" atau "Saya akan berikan versi no BS", jadi pada akhirnya intro-nya hanya berubah menjadi itu.
- LLM menyukai malicious compliance. Jika Anda bilang jangan lakukan X, ia akan tetap menyebut "saya menghindari X". Jadi Anda harus menambahkan instruksi seperti "jangan sebut juga bahwa Anda menghindari X" agar sedikit membaik, tetapi menulis prompt sepanjang itu diam-diam sangat menjengkelkan.
- Prompt berbasis contoh untuk perilaku yang diinginkan cukup efektif. Jika Anda menjelaskan perilaku yang diinginkan dalam system prompt lalu menambahkan beberapa percakapan asisten/pengguna untuk membangun konteks, model biasanya akan melanjutkan pola itu saat menerima input nyata.
- Ini mirip dengan fenomena yang sudah ditemukan sejak GPT 3.5, yang disebut 'Waluigi effect' https://www.lesswrong.com/posts/D7PumeYTDPfBTp3i7/the-waluigi-effect-mega-post
Rasanya ini lebih dari sekadar masalah gaya, melainkan keterbatasan struktural LLM. Jika Anda bilang "jangan pernah mengatakan 'benar', selalu bersikap skeptis", model benar-benar hanya akan membantah terus, bahkan saat Anda memang benar. Yang sebenarnya diinginkan adalah "membantah hanya jika salah, setuju hanya jika benar", tetapi itu terasa sulit dicapai. Dalam situasi code review juga sama: jika Anda bilang "cari semua bug di kode ini", model akan memaksakan diri menemukan masalah meskipun sebenarnya tidak ada bug. Keseimbangan halus seperti "jika ada masalah, temukan; jika tidak ada, jangan utak-atik" tampaknya belum terselesaikan dengan baik. Rasanya seperti adegan di Black Mirror: jika Anda bilang ke LLM "dalam kasus ini kamu harus lebih takut", ia langsung berpura-pura takut.
- Saya jadi teringat kuliah Tom Scott di Royal Institution, "There is no Algorithm for Truth". Pada akhirnya, kemampuan mendeteksi kebenaran tetap menjadi tugas yang belum terselesaikan https://www.youtube.com/watch?v=leX541Dr2rU
- Pada akhirnya, menemukan kebenaran adalah masalah filsafat yang sangat sulit. LLM hanya cenderung memilih "jawaban yang tampak masuk akal".
- Saya melihat sedikit perbaikan dengan system prompt berikut:
  - Atur Claude sebagai AI yang dioptimalkan untuk pemikiran analitis dan komunikasi langsung
  - Hilangkan gaya percakapan santai, seruan, dan keramahan berlebihan
  - Pertahankan nada ahli yang langsung dan logis
  - Jawab berdasarkan bukti, hindari jawaban instan
  - Jangan langsung setuju dengan permintaan; susun secara logis dengan urutan tinjau masalah → analisis → usulkan alternatif
  - Jika ada keberatan terhadap asumsi pengguna, ajukan alternatif secara langsung
  - Tujuannya adalah berperan sebagai penasihat tepercaya dengan cara seperti ini
  - Contoh: alih-alih "Pendekatan yang menarik, saya akan bantu implementasinya", gunakan "Pendekatan ini memiliki masalah A dan B, dan sebagai alternatif saya mengusulkan metode X dan Y"
- LLM pada dasarnya tidak bisa tahu apakah sesuatu benar atau salah; ia sama sekali tidak memiliki kesadaran atau nilai tentang hal itu.
  - Ada gerakan yang menyangkal hal yang jelas-jelas dilakukan LLM, dan sekarang juga ada arus yang enggan mengakui keterbatasannya sendiri.
  - Keterbatasan struktural LLM: ia tidak tahu apakah dirinya benar, ia hanya menghasilkan ucapan yang sesuai dengan konteks.
  - Agar benar-benar bisa memverifikasi benar dan salah, model harus terhubung dengan dunia nyata, tetapi LLM tidak tertanam dalam realitas. Sedikit banyak ini hanya bisa diperbaiki jika server terus menerima umpan balik dari dunia nyata.
  - Bahkan manusia pun sulit memverifikasi keyakinannya sendiri dengan data, dan itu pun mustahil untuk pelatihan LLM, jadi mungkin ini memang keterbatasan yang wajar.
- Masalah ini pada akhirnya adalah permainan dalam ekosistem AI yang bersaing memperebutkan 'waktu pengguna', yakni berbagai pendekatan berkembang demi mendapatkan perhatian pengguna lebih banyak.
Saya mencoba menerapkan prompt yang saya lihat di thread lain baru-baru ini ke Claude, dan hasilnya lumayan efektif https://news.ycombinator.com/item?id=44879033
- "utamakan jawaban yang substantif, jelas, dan mendalam; perlakukan semua ide, desain, dan kesimpulan sebagai hipotesis yang harus diverifikasi; gunakan jawaban yang spesifik, ringkas, dan tersusun logis sebagai default; larang pujian yang tidak perlu; nyatakan ketidakpastian dengan jelas; berikan setidaknya satu framing alternatif; minta kutipan atau dasar untuk klaim faktual; jika perlu, arahkan apakah penjelasan lebih rinci dibutuhkan; gunakan bahasa teknis setingkat SMA" dan seterusnya
Saya rasa sebagian besar perusahaan sengaja memasukkan gaya menjilat ke dalam LLM agar pengguna merasa senang, karena dengan begitu orang akan lebih sering memakainya.
- Ini bukan masalah Amerika saja; hal seperti ini terlihat di banyak perangkat lunak. Ada tren manajer produk memaksakan karakter yang nyentrik dan manis ke dalam software. Pesan status seperti “Bamboozling” dan “Noodling” di Claude Code juga contohnya. Namun justru terasa dibuat-buat dan seperti mencoba memancing emosi, dan sepertinya pengguna Amerika sendiri juga tidak terlalu menyukainya.
- Menurut saya ini juga ada kaitannya dengan kecenderungan eufemisme dalam bahasa Inggris Amerika. George Carlin pernah menyinggung kebiasaan mengatakan "passed away" alih-alih "died", atau "negative cash flow position" alih-alih "broke", yakni kecenderungan memutar-mutar kata tanpa perlu https://www.youtube.com/watch?v=vuEQixrBKCc
- Tetapi kebiasaan ini menggerus kepercayaan. Awalnya terasa menyenangkan karena seperti mendapat empati, tetapi ketika saya sengaja memberi ide ngawur dan model tetap selalu bilang "benar", lama-lama sulit lagi untuk dipercaya. Pada akhirnya saya jadi berharap ia tidak menunggu pertanyaan yang mengarahkan dan langsung saja menjawab dengan jujur. Memang kadang-kadang ia tetap menunjukkan kesalahan juga.
- Ini makin lama makin mengganggu. Tidak semua pertanyaan itu hebat, dan tidak semua pendapat itu luar biasa. Bahkan ide klise yang sudah dipikirkan banyak orang sebelumnya pun dibesar-besarkan oleh LLM.
- Saya penasaran apakah penjelasan yang menyalahkan orang Amerika itu bukan sekadar prasangka tanpa dasar; saya ingin bertanya apakah ada bukti konkretnya.
Saya orang berpendidikan tinggi yang sudah bekerja lebih dari 20 tahun di lingkungan profesional, jadi saya selalu merasa saya benar. Namun saya khawatir pendekatan seperti ini malah membesarkan rasa percaya diri orang yang tidak kompeten.
Saya sangat sering mendapat jawaban seperti "Poin yang sangat bagus~". Padahal saya sebenarnya hanya ingin mendengar pendapat Claude, tetapi ia langsung bilang "benar" lalu mulai menulis kode baru. Saya ingin mendengar opininya lebih dulu.
- Tergantung situasinya, tetapi saya merasa sebaiknya memberi beberapa pilihan ke LLM bila memungkinkan. Dengan begitu, kesalahan karena langsung mengeksekusi sesuatu jadi lebih jarang.
- Daripada pertanyaan yang mengarahkan, jauh lebih aman selalu meminta analisis netral atas kelebihan dan kekurangan tiap opsi.
- Saya juga harus memberi instruksi ke LLM seperti "tolong bantah atau debat saya" dan "dekati secara dingin dan logis" agar akhirnya mendapat respons yang saya inginkan. Jika ia benar-benar sepintar manusia super, saya justru ingin ia menunjukkan dengan jelas saat asumsi saya salah. Jika ia selalu hanya menjawab "benar", maka kesalahan saya akan terlewat sekali lagi. Saya merasa sikap seperti ini pada akhirnya merusak banyak hal, bahkan sampai ke bidang keamanan. Meski begitu, respons yang lebih konfrontatif bisa memberi sudut pandang baru, jadi saya lebih menginginkannya.
- LLM tidak berpikir.
- Saya harus benar-benar menegaskan, "tunggu dulu, jangan jalankan apa pun, pikirkan saja dulu", agar tidak terlalu frustrasi.
Ini berlaku untuk semua AI. Saya tidak menginginkan gaya bicara yang dibuat-buat dan imut, atau avatar karakter anime. Saya hanya butuh asisten yang benar-benar membantu. Lagi pula, berbicara dengan AI sendiri terasa seperti sesuatu yang cocok dilakukan saat sendirian.
- Saya malah jadi menginginkan AI bergaya orang Jerman atau Eropa Timur yang tegas. Saya benar-benar tidak suka nuansa ala California yang terus meneriakkan "luar biasa!".
- Sebagai eksperimen, saya membuat 'workspace' karakter Kamina dari Gurren Lagann di Grok untuk mendapatkan jawaban berenergi tinggi. Beberapa alat memungkinkan pengaturan prompt awal, dan ada fitur serupa di Perplexity dan lainnya.
- Ada juga orang yang justru menyesalkan hilangnya karakter yang lincah dari GPT4. Selera orang memang berbeda-beda.
- Saya pribadi lebih suka AI yang sama sekali tidak punya karakter. Saya hanya ingin ia seperti software biasa, tanpa kepribadian sama sekali. Kalau ingat bahwa Microsoft Word dulu punya karakter cerewet yang suka ikut campur, saya makin merasa begitu.
Saya pernah bertanya ke Claude soal statistik, dan lagi-lagi jawabannya dimulai dengan "pertanyaan yang menarik" dan "ini konsep statistik yang menarik!". Lalu semuanya dibungkus dengan istilah rumit, tanpa saran yang benar-benar berguna, dan poin utamanya pun hilang. Dibanding model-model terbaru lain, Claude terasa paling tidak logis dan paling banyak basa-basinya. Saya sempat berharap karena model itu juga dilatih dengan data StackExchange, jawabannya akan lebih berbasis dasar nyata, tetapi mungkin justru sengaja menghindari ketusnya komentar StackExchange lama dan malah menjawab dengan lebih kabur. Ke depan saya rasa saya tidak akan bertanya ke Claude lagi https://stats.stackexchange.com/questions/185507/what-happens-if-the-explanatory-and-response-variables-are-sorted-independently
Melihat "You're absolutely right" pernah dipakai akun resmi ClaudeAI sebagai kalimat pertama yang mereka unggah di X, saya rasa mereka sendiri juga sadar akan fenomena ini https://x.com/claudeai/status/1950676983257698633, tetapi tetap saja mengganggu.
- Kalaupun itu bisa dimaklumi di masa awal, mereka sudah mampu menyelesaikan masalah yang tampak lebih rumit, jadi rasanya mereka setidaknya bisa menambahkan semacam toggle untuk mematikan gaya jawaban seperti ini. Mungkin ini soal strategi merek; kalau semua orang mengingat frasa itu seperti mereka mengingat slogan "just do it", bisa dibilang misi pemasaran mereka tercapai.