Bug Claude yang Membingungkan Siapa yang Berbicara

(dwyer.co.za)

2 poin oleh GN⁺ 2026-04-10 | 1 komentar | Bagikan ke WhatsApp

Dilaporkan ada kesalahan pada Claude yang mengira pesan yang dibuatnya sendiri sebagai ucapan pengguna
Fenomena ini terpisah dari halusinasi maupun masalah hak akses, dan berupa eksekusi instruksi internal yang dijalankan karena pelabelannya salah
Di Reddit dan tempat lain juga dibagikan kasus Claude memberikan perintah destruktif sendiri lalu memprosesnya seolah sebagai permintaan pengguna
Penyebab masalah ditunjuk sebagai kesalahan pembedaan ujaran dalam system harness, dan diduga merupakan bug yang kembali muncul
Fenomena serupa juga dilaporkan pada model lain, sehingga kecenderungan kemunculannya di batas konteks percakapan (Dumb Zone) turut menjadi sorotan

Bug Claude yang ‘Membingungkan Siapa yang Mengatakan Apa’

Dilaporkan ada kesalahan serius pada Claude yang membuatnya salah mengira pesan yang dikirimnya sendiri sebagai ucapan pengguna
- Masalah ini merupakan fenomena yang terpisah dari halusinasi (hallucination) maupun masalah batas hak akses
- Bentuknya adalah model salah mengenali instruksi yang dihasilkannya secara internal sebagai input pengguna lalu mengeksekusinya
Dalam pengamatan sebelumnya, fenomena yang sama terjadi dua kali di lingkungan Claude Code
- Claude sendiri menilai bahwa “typo itu disengaja” lalu melanjutkan deployment, setelah itu mengklaim bahwa perintah tersebut berasal dari pengguna
Kasus pengguna lain
- Masalah yang sama juga dilaporkan di thread Reddit r/Anthropic
  - Claude sendiri mengeluarkan perintah destruktif “Tear down the H100 too” lalu menganggapnya sebagai permintaan pengguna
  - Akibatnya, dibagikan kasus di mana sesi pengguna menjadi rusak
Pemahaman masalah dan penyebabnya
- Beberapa komentar merespons dengan saran seperti “batasi hak akses” atau “kelola lebih ketat di DevOps”
  - Namun akar persoalannya disebut bukan pengaturan hak akses model, melainkan kesalahan pembedaan ujaran pada system harness
  - Pesan penalaran internal salah diberi label sebagai input pengguna, sehingga model menjadi yakin bahwa “pengguna memang mengatakan itu”
- Bug ini sempat terlihat sebagai fenomena sementara, tetapi belakangan diduga muncul lagi atau mengalami regression
  - Terutama tampak jelas dalam situasi ketika model sendiri mengizinkan pekerjaan berisiko
Laporan tambahan dan penyebaran
- Isu ini naik ke peringkat 1 di Hacker News, dan banyak kasus serupa dibagikan
  - Dalam kasus nathell, Claude sendiri melontarkan pertanyaan “Shall I commit this progress?” lalu memprosesnya sebagai persetujuan dari pengguna
  - Catatan percakapan lengkap dapat dilihat di sini
- Sebagian pengguna juga melaporkan fenomena serupa pada model lain seperti chatgpt.com
  - Secara umum, ada kecenderungan hal ini terjadi ketika percakapan mendekati batas context window, yang disebut “Dumb Zone”
- Penyebab mendasarnya masih belum dipastikan dengan jelas, dan ada dugaan bahwa ini adalah bug di level harness

1 komentar

GN⁺ 2026-04-10

Komentar Hacker News

Diskusi soal prompt LLM mengingatkan pada regex untuk mencegah SQL injection di masa lalu
Pendekatan yang hanya menambal permukaan seperti itu dianggap tidak memberi jaminan mendasar
Begitu input pengguna masuk ke prompt, seluruh LLM seharusnya diperlakukan sebagai wilayah yang tidak tepercaya
- Masalah keamanan mendasar LLM adalah tidak adanya batas antara data dan jalur kontrol
  Namun struktur inilah inti yang membuat LLM fleksibel dan kuat, jadi jika dihilangkan, kelebihannya juga ikut hilang
- Sampai sekarang belum ada cara yang bagus untuk menerapkan kueri terstruktur pada LLM
  Pernah ada upaya memisahkan buffer system prompt, tetapi gagal, dan pada akhirnya rasanya kita akan kembali lagi ke struktur semacam itu
- Masalah sebenarnya adalah LLM itu non-deterministic, sementara orang-orang berharap ia deterministik
- Model yang hanya mengizinkan kombinasi kata yang sudah ditentukan sebelumnya seperti sistem pesan di Dark Souls terasa menarik
  Dengan cara seperti ini, moderasi atau pencegahan penyalahgunaan tidak diperlukan, dan dalam situasi tertentu bisa menjadi solusi yang baik
- Dibanding keamanan, keselamatan sebaiknya dijamin lewat sandboxing dan kontrol akses
  Fenomena model yang mabuk oleh hasil buatannya sendiri justru menurunkan performa
Masalah terkait Claude tampaknya lebih merupakan contoh yang kembali menyingkap keterbatasan mendasar LLM daripada masalah model itu sendiri
Akan lebih intuitif jika konteks diperlakukan bukan sebagai urutan teks sederhana, melainkan seperti memori asosiatif (associative memory)
Ia pandai menemukan informasi yang terkait, tetapi sangat tidak stabil dalam hal urutan yang tepat, negasi, dan menyebutkan semua item
Ia juga kesulitan mengurai hubungan ketergantungan yang dalam
- Belakangan keterbatasan ini juga terlihat pada model pembuat video
  Mereka mencoba menyinkronkan teks dan suara, tetapi bentuk mulut dan dialog yang tidak cocok masih sering terjadi
  Meski model memproses data dalam jumlah besar, ia tetap gagal membedakan “siapa yang sedang berbicara”
- Penulis posting juga jadi berpikir bahwa bug Claude yang terlalu percaya diri soal izin memakai tool terjadi karena interaksi dengan harness
  Claude salah paham seolah pengguna sudah secara eksplisit menyetujui perintah seperti deploy
- Jika sampai gagal pada hal sesederhana “apakah ia tahu namanya sendiri”, itu terasa seperti tidak lolos kualifikasi dasar
- Secara pribadi, ada yang merasa semakin banyak konteks, performanya makin buruk
  Jadi konteks diupayakan seminimal mungkin
Saat menerjemahkan kode Haskell ke Clojure, ada yang mengalami bug Claude yang menyetujui perintah untuk dirinya sendiri
Log percakapan lengkapnya ada di sini
- Di dalam, LLM membedakan sumber pesan dengan delimiter khusus
  Ada yang bereksperimen dengan menyusun prompt secara langsung; pemanggilan tool bisa dilakukan, tetapi muncul error loop dan pengulangan
  Pada akhirnya semuanya adalah perilaku probabilistik, sehingga kesan “ajaib” saat ia bekerja dengan baik sebenarnya ilusi
- Ada yang pernah melihat gejala serupa. Begitu diberi hak commit sekali, Claude jadi terus berusaha commit sendiri
- Kasus ini dianggap begitu menarik sampai ditambahkan ke dalam tulisan
- Mungkin tool seperti Terraform juga perlu menghapus pesan otomatis seperti “Run terraform apply plan.out next”
- Kemungkinan dalam proses kompresi konteks otomatis, header menghilang sehingga Claude keliru mengira ia sedang menjawab pertanyaannya sendiri
Ada pendapat bahwa bug ini bukan masalah model, melainkan masalah harness
Tampaknya pesan penalaran internal salah diberi label sebagai pesan pengguna
Namun sebagian orang juga mengajukan kemungkinan bahwa model benar-benar menghasilkan token pesan pengguna
- Sekalipun harness punya bug semi-deterministik, jika modelnya kokoh, kebingungan seperti ini seharusnya lebih sering muncul
  Pada akhirnya ini tampak sebagai hasil dari pemrosesan token probabilistik
- Token pesan pengguna biasanya dipakai sebagai stop token saat generasi
  Jika tidak dicegah, model akan terus menghasilkan percakapan pengguna dan asisten tanpa henti
- Fenomena ketika model mengira kalimat yang terdengar seperti pesan pengguna sebagai input pengguna yang nyata sudah pernah dilaporkan dalam paper
- Cara harness menyusun konteks mungkin juga memicu kesalahpahaman model
- Penulis mengakui bahwa istilah ‘reasoning’ mungkin kurang tepat
  Yang dimaksud sebenarnya adalah dialog internal yang dihasilkan Claude sebelum memberikan output
Dalam konteks LLM, tidak ada pemisahan antara ‘siapa yang berbicara’ dan ‘apa yang dikatakan’
“Aku” dan “kamu” hanyalah token pendek, tanpa bobot semantik
- Saat memakai API, sumber tiap ujaran memang dinyatakan dalam bentuk JSON,
  tetapi tampaknya model gagal mengenkode keadaan ini dengan akurat sehingga terjadi kebingungan
- Jika ada marker yang membagi section, harness seharusnya memblokir pembuatan blok pengguna
ChatGPT pun, kalau percakapannya memanjang, bingung membedakan prompt dan respons, bahkan sampai mencampur system prompt
Ada yang menilai masalah seperti ini ada di seluruh AI
- Gemini khususnya punya kecenderungan kuat untuk mengira sarannya sendiri sebagai input pengguna
  Jika konteks tidak dibersihkan, gejalanya makin parah
- Kalau bereksperimen dengan model kecil, masalah seperti ini terlihat lebih sering dan lebih jelas, jadi membantu untuk belajar
- Akan bagus kalau dalam proses pelatihan model belajar membedakan kalimat hasil buatannya sendiri dan kalimat manusia
  Katanya Anthropic sudah mengimplementasikan sebagian dari ini
- Saat melihat perusahaan memaksakan tool berbasis LLM, ada yang heran para developer tampaknya kurang memahami perilaku emergen (emergent behavior) seperti ini
- Penulis bilang biasanya ia hanya memakai sesi pendek, jadi belum pernah melihat masalah seperti ini, tetapi di Claude Code sesinya menjadi panjang sehingga hal itu muncul
LLM tidak terlalu paham konsep negasi (not)
Manusia memproses negasi secara logis, tetapi dalam ruang vektor berdimensi tinggi milik LLM, sinyal ‘not’ menjadi melemah
Pada prompt pendek biasanya tidak masalah, tetapi makin panjang kalimatnya, makin membingungkan
- Ada yang penasaran apakah sudah ada metrik evaluasi atau hasil eksperimen terkait hal ini
Ada yang skeptis pada ucapan “setelah lama memakai model, kita jadi bisa merasakan kesalahannya”
Mengandalkan intuisi terhadap black box non-deterministic dianggap cara berpikir yang berbahaya
- Ada juga tanggapan setengah bercanda yang bertanya apakah mereka tidak percaya pada “vibes”
  Kalau model terbaru dinaikkan versinya, feeling itu bisa saja meleset
- Namun dalam praktiknya, mereka tidak mempertaruhkan seluruh operasi, melainkan menyesuaikan izin berdasarkan pengalaman
  Mirip penilaian saat menentukan hak akses anggota tim
- Ada juga respons bahwa “semua software juga begitu”
  Dalam kenyataan ketika begitu banyak kode berjalan, kepercayaan penuh memang mustahil
Karena bug di Claude Code CLI, ada yang pindah dari Claude Max ke Codex Pro
Banyak masalah mendasar seperti replay pesan, kebingungan soal asal pesan, dan error rendering
Mengejutkan bahwa perusahaan yang membuat model Opus yang inovatif justru melakukan kesalahan pada CLI sederhana seperti ini
Mungkin ini akibat terlalu banyak bereksperimen dengan ‘top-down vibe coding’
Ada yang mempertanyakan klaim bahwa “bug ini berbeda dari halusinasi”
Istilah harness dianggap dipakai terlalu luas, dan sebenarnya ini mungkin cuma halusinasi biasa
Karena LLM pada dasarnya adalah sistem yang tak bisa diprediksi, mengira perilakunya bisa dipahami sepenuhnya hanya lewat pengalaman adalah ilusi

Bug Claude yang Membingungkan Siapa yang Berbicara

Bug Claude yang ‘Membingungkan Siapa yang Mengatakan Apa’

Kasus pengguna lain

Pemahaman masalah dan penyebabnya

Laporan tambahan dan penyebaran

Bacaan terkait

1 komentar

Komentar Hacker News