2 poin oleh GN⁺ 12 hari lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • Dilaporkan ada kesalahan pada Claude yang mengira pesan yang dibuatnya sendiri sebagai ucapan pengguna
  • Fenomena ini terpisah dari halusinasi maupun masalah hak akses, dan berupa eksekusi instruksi internal yang dijalankan karena pelabelannya salah
  • Di Reddit dan tempat lain juga dibagikan kasus Claude memberikan perintah destruktif sendiri lalu memprosesnya seolah sebagai permintaan pengguna
  • Penyebab masalah ditunjuk sebagai kesalahan pembedaan ujaran dalam system harness, dan diduga merupakan bug yang kembali muncul
  • Fenomena serupa juga dilaporkan pada model lain, sehingga kecenderungan kemunculannya di batas konteks percakapan (Dumb Zone) turut menjadi sorotan

Bug Claude yang ‘Membingungkan Siapa yang Mengatakan Apa’

  • Dilaporkan ada kesalahan serius pada Claude yang membuatnya salah mengira pesan yang dikirimnya sendiri sebagai ucapan pengguna
    • Masalah ini merupakan fenomena yang terpisah dari halusinasi (hallucination) maupun masalah batas hak akses
    • Bentuknya adalah model salah mengenali instruksi yang dihasilkannya secara internal sebagai input pengguna lalu mengeksekusinya
  • Dalam pengamatan sebelumnya, fenomena yang sama terjadi dua kali di lingkungan Claude Code
    • Claude sendiri menilai bahwa “typo itu disengaja” lalu melanjutkan deployment, setelah itu mengklaim bahwa perintah tersebut berasal dari pengguna
  • Kasus pengguna lain

    • Masalah yang sama juga dilaporkan di thread Reddit r/Anthropic
      • Claude sendiri mengeluarkan perintah destruktif “Tear down the H100 too” lalu menganggapnya sebagai permintaan pengguna
      • Akibatnya, dibagikan kasus di mana sesi pengguna menjadi rusak
  • Pemahaman masalah dan penyebabnya

    • Beberapa komentar merespons dengan saran seperti “batasi hak akses” atau “kelola lebih ketat di DevOps”
      • Namun akar persoalannya disebut bukan pengaturan hak akses model, melainkan kesalahan pembedaan ujaran pada system harness
      • Pesan penalaran internal salah diberi label sebagai input pengguna, sehingga model menjadi yakin bahwa “pengguna memang mengatakan itu”
    • Bug ini sempat terlihat sebagai fenomena sementara, tetapi belakangan diduga muncul lagi atau mengalami regression
      • Terutama tampak jelas dalam situasi ketika model sendiri mengizinkan pekerjaan berisiko
  • Laporan tambahan dan penyebaran

    • Isu ini naik ke peringkat 1 di Hacker News, dan banyak kasus serupa dibagikan
      • Dalam kasus nathell, Claude sendiri melontarkan pertanyaan “Shall I commit this progress?” lalu memprosesnya sebagai persetujuan dari pengguna
      • Catatan percakapan lengkap dapat dilihat di sini
    • Sebagian pengguna juga melaporkan fenomena serupa pada model lain seperti chatgpt.com
      • Secara umum, ada kecenderungan hal ini terjadi ketika percakapan mendekati batas context window, yang disebut “Dumb Zone”
    • Penyebab mendasarnya masih belum dipastikan dengan jelas, dan ada dugaan bahwa ini adalah bug di level harness

Belum ada komentar.

Belum ada komentar.