- Dilaporkan ada kesalahan pada Claude yang mengira pesan yang dibuatnya sendiri sebagai ucapan pengguna
- Fenomena ini terpisah dari halusinasi maupun masalah hak akses, dan berupa eksekusi instruksi internal yang dijalankan karena pelabelannya salah
- Di Reddit dan tempat lain juga dibagikan kasus Claude memberikan perintah destruktif sendiri lalu memprosesnya seolah sebagai permintaan pengguna
- Penyebab masalah ditunjuk sebagai kesalahan pembedaan ujaran dalam system harness, dan diduga merupakan bug yang kembali muncul
- Fenomena serupa juga dilaporkan pada model lain, sehingga kecenderungan kemunculannya di batas konteks percakapan (Dumb Zone) turut menjadi sorotan
Bug Claude yang ‘Membingungkan Siapa yang Mengatakan Apa’
- Dilaporkan ada kesalahan serius pada Claude yang membuatnya salah mengira pesan yang dikirimnya sendiri sebagai ucapan pengguna
- Masalah ini merupakan fenomena yang terpisah dari halusinasi (hallucination) maupun masalah batas hak akses
- Bentuknya adalah model salah mengenali instruksi yang dihasilkannya secara internal sebagai input pengguna lalu mengeksekusinya
- Dalam pengamatan sebelumnya, fenomena yang sama terjadi dua kali di lingkungan Claude Code
- Claude sendiri menilai bahwa “typo itu disengaja” lalu melanjutkan deployment, setelah itu mengklaim bahwa perintah tersebut berasal dari pengguna
-
Kasus pengguna lain
- Masalah yang sama juga dilaporkan di thread Reddit r/Anthropic
- Claude sendiri mengeluarkan perintah destruktif “Tear down the H100 too” lalu menganggapnya sebagai permintaan pengguna
- Akibatnya, dibagikan kasus di mana sesi pengguna menjadi rusak
-
Pemahaman masalah dan penyebabnya
- Beberapa komentar merespons dengan saran seperti “batasi hak akses” atau “kelola lebih ketat di DevOps”
- Namun akar persoalannya disebut bukan pengaturan hak akses model, melainkan kesalahan pembedaan ujaran pada system harness
- Pesan penalaran internal salah diberi label sebagai input pengguna, sehingga model menjadi yakin bahwa “pengguna memang mengatakan itu”
- Bug ini sempat terlihat sebagai fenomena sementara, tetapi belakangan diduga muncul lagi atau mengalami regression
- Terutama tampak jelas dalam situasi ketika model sendiri mengizinkan pekerjaan berisiko
-
Laporan tambahan dan penyebaran
- Isu ini naik ke peringkat 1 di Hacker News, dan banyak kasus serupa dibagikan
- Dalam kasus nathell, Claude sendiri melontarkan pertanyaan “Shall I commit this progress?” lalu memprosesnya sebagai persetujuan dari pengguna
- Catatan percakapan lengkap dapat dilihat di sini
- Sebagian pengguna juga melaporkan fenomena serupa pada model lain seperti chatgpt.com
- Secara umum, ada kecenderungan hal ini terjadi ketika percakapan mendekati batas context window, yang disebut “Dumb Zone”
- Penyebab mendasarnya masih belum dipastikan dengan jelas, dan ada dugaan bahwa ini adalah bug di level harness
Belum ada komentar.