Bug Claude yang Membingungkan Siapa yang Berbicara
(dwyer.co.za)- Dilaporkan ada kesalahan pada Claude yang mengira pesan yang dibuatnya sendiri sebagai ucapan pengguna
- Fenomena ini terpisah dari halusinasi maupun masalah hak akses, dan berupa eksekusi instruksi internal yang dijalankan karena pelabelannya salah
- Di Reddit dan tempat lain juga dibagikan kasus Claude memberikan perintah destruktif sendiri lalu memprosesnya seolah sebagai permintaan pengguna
- Penyebab masalah ditunjuk sebagai kesalahan pembedaan ujaran dalam system harness, dan diduga merupakan bug yang kembali muncul
- Fenomena serupa juga dilaporkan pada model lain, sehingga kecenderungan kemunculannya di batas konteks percakapan (Dumb Zone) turut menjadi sorotan
Bug Claude yang ‘Membingungkan Siapa yang Mengatakan Apa’
- Dilaporkan ada kesalahan serius pada Claude yang membuatnya salah mengira pesan yang dikirimnya sendiri sebagai ucapan pengguna
- Masalah ini merupakan fenomena yang terpisah dari halusinasi (hallucination) maupun masalah batas hak akses
- Bentuknya adalah model salah mengenali instruksi yang dihasilkannya secara internal sebagai input pengguna lalu mengeksekusinya
- Dalam pengamatan sebelumnya, fenomena yang sama terjadi dua kali di lingkungan Claude Code
- Claude sendiri menilai bahwa “typo itu disengaja” lalu melanjutkan deployment, setelah itu mengklaim bahwa perintah tersebut berasal dari pengguna
-
Kasus pengguna lain
- Masalah yang sama juga dilaporkan di thread Reddit r/Anthropic
- Claude sendiri mengeluarkan perintah destruktif “Tear down the H100 too” lalu menganggapnya sebagai permintaan pengguna
- Akibatnya, dibagikan kasus di mana sesi pengguna menjadi rusak
- Masalah yang sama juga dilaporkan di thread Reddit r/Anthropic
-
Pemahaman masalah dan penyebabnya
- Beberapa komentar merespons dengan saran seperti “batasi hak akses” atau “kelola lebih ketat di DevOps”
- Namun akar persoalannya disebut bukan pengaturan hak akses model, melainkan kesalahan pembedaan ujaran pada system harness
- Pesan penalaran internal salah diberi label sebagai input pengguna, sehingga model menjadi yakin bahwa “pengguna memang mengatakan itu”
- Bug ini sempat terlihat sebagai fenomena sementara, tetapi belakangan diduga muncul lagi atau mengalami regression
- Terutama tampak jelas dalam situasi ketika model sendiri mengizinkan pekerjaan berisiko
- Beberapa komentar merespons dengan saran seperti “batasi hak akses” atau “kelola lebih ketat di DevOps”
-
Laporan tambahan dan penyebaran
- Isu ini naik ke peringkat 1 di Hacker News, dan banyak kasus serupa dibagikan
- Sebagian pengguna juga melaporkan fenomena serupa pada model lain seperti chatgpt.com
- Secara umum, ada kecenderungan hal ini terjadi ketika percakapan mendekati batas context window, yang disebut “Dumb Zone”
- Penyebab mendasarnya masih belum dipastikan dengan jelas, dan ada dugaan bahwa ini adalah bug di level harness
1 komentar
Komentar Hacker News
Diskusi soal prompt LLM mengingatkan pada regex untuk mencegah SQL injection di masa lalu
Pendekatan yang hanya menambal permukaan seperti itu dianggap tidak memberi jaminan mendasar
Begitu input pengguna masuk ke prompt, seluruh LLM seharusnya diperlakukan sebagai wilayah yang tidak tepercaya
Namun struktur inilah inti yang membuat LLM fleksibel dan kuat, jadi jika dihilangkan, kelebihannya juga ikut hilang
Pernah ada upaya memisahkan buffer system prompt, tetapi gagal, dan pada akhirnya rasanya kita akan kembali lagi ke struktur semacam itu
Dengan cara seperti ini, moderasi atau pencegahan penyalahgunaan tidak diperlukan, dan dalam situasi tertentu bisa menjadi solusi yang baik
Fenomena model yang mabuk oleh hasil buatannya sendiri justru menurunkan performa
Masalah terkait Claude tampaknya lebih merupakan contoh yang kembali menyingkap keterbatasan mendasar LLM daripada masalah model itu sendiri
Akan lebih intuitif jika konteks diperlakukan bukan sebagai urutan teks sederhana, melainkan seperti memori asosiatif (associative memory)
Ia pandai menemukan informasi yang terkait, tetapi sangat tidak stabil dalam hal urutan yang tepat, negasi, dan menyebutkan semua item
Ia juga kesulitan mengurai hubungan ketergantungan yang dalam
Mereka mencoba menyinkronkan teks dan suara, tetapi bentuk mulut dan dialog yang tidak cocok masih sering terjadi
Meski model memproses data dalam jumlah besar, ia tetap gagal membedakan “siapa yang sedang berbicara”
Claude salah paham seolah pengguna sudah secara eksplisit menyetujui perintah seperti
deployJadi konteks diupayakan seminimal mungkin
Saat menerjemahkan kode Haskell ke Clojure, ada yang mengalami bug Claude yang menyetujui perintah untuk dirinya sendiri
Log percakapan lengkapnya ada di sini
Ada yang bereksperimen dengan menyusun prompt secara langsung; pemanggilan tool bisa dilakukan, tetapi muncul error loop dan pengulangan
Pada akhirnya semuanya adalah perilaku probabilistik, sehingga kesan “ajaib” saat ia bekerja dengan baik sebenarnya ilusi
Ada pendapat bahwa bug ini bukan masalah model, melainkan masalah harness
Tampaknya pesan penalaran internal salah diberi label sebagai pesan pengguna
Namun sebagian orang juga mengajukan kemungkinan bahwa model benar-benar menghasilkan token pesan pengguna
Pada akhirnya ini tampak sebagai hasil dari pemrosesan token probabilistik
Jika tidak dicegah, model akan terus menghasilkan percakapan pengguna dan asisten tanpa henti
Yang dimaksud sebenarnya adalah dialog internal yang dihasilkan Claude sebelum memberikan output
Dalam konteks LLM, tidak ada pemisahan antara ‘siapa yang berbicara’ dan ‘apa yang dikatakan’
“Aku” dan “kamu” hanyalah token pendek, tanpa bobot semantik
tetapi tampaknya model gagal mengenkode keadaan ini dengan akurat sehingga terjadi kebingungan
ChatGPT pun, kalau percakapannya memanjang, bingung membedakan prompt dan respons, bahkan sampai mencampur system prompt
Ada yang menilai masalah seperti ini ada di seluruh AI
Jika konteks tidak dibersihkan, gejalanya makin parah
Katanya Anthropic sudah mengimplementasikan sebagian dari ini
LLM tidak terlalu paham konsep negasi (not)
Manusia memproses negasi secara logis, tetapi dalam ruang vektor berdimensi tinggi milik LLM, sinyal ‘not’ menjadi melemah
Pada prompt pendek biasanya tidak masalah, tetapi makin panjang kalimatnya, makin membingungkan
Ada yang skeptis pada ucapan “setelah lama memakai model, kita jadi bisa merasakan kesalahannya”
Mengandalkan intuisi terhadap black box non-deterministic dianggap cara berpikir yang berbahaya
Kalau model terbaru dinaikkan versinya, feeling itu bisa saja meleset
Mirip penilaian saat menentukan hak akses anggota tim
Dalam kenyataan ketika begitu banyak kode berjalan, kepercayaan penuh memang mustahil
Karena bug di Claude Code CLI, ada yang pindah dari Claude Max ke Codex Pro
Banyak masalah mendasar seperti replay pesan, kebingungan soal asal pesan, dan error rendering
Mengejutkan bahwa perusahaan yang membuat model Opus yang inovatif justru melakukan kesalahan pada CLI sederhana seperti ini
Mungkin ini akibat terlalu banyak bereksperimen dengan ‘top-down vibe coding’
Ada yang mempertanyakan klaim bahwa “bug ini berbeda dari halusinasi”
Istilah harness dianggap dipakai terlalu luas, dan sebenarnya ini mungkin cuma halusinasi biasa
Karena LLM pada dasarnya adalah sistem yang tak bisa diprediksi, mengira perilakunya bisa dipahami sepenuhnya hanya lewat pengalaman adalah ilusi