2 poin oleh GN⁺ 2026-04-10 | 1 komentar | Bagikan ke WhatsApp
  • Dilaporkan ada kesalahan pada Claude yang mengira pesan yang dibuatnya sendiri sebagai ucapan pengguna
  • Fenomena ini terpisah dari halusinasi maupun masalah hak akses, dan berupa eksekusi instruksi internal yang dijalankan karena pelabelannya salah
  • Di Reddit dan tempat lain juga dibagikan kasus Claude memberikan perintah destruktif sendiri lalu memprosesnya seolah sebagai permintaan pengguna
  • Penyebab masalah ditunjuk sebagai kesalahan pembedaan ujaran dalam system harness, dan diduga merupakan bug yang kembali muncul
  • Fenomena serupa juga dilaporkan pada model lain, sehingga kecenderungan kemunculannya di batas konteks percakapan (Dumb Zone) turut menjadi sorotan

Bug Claude yang ‘Membingungkan Siapa yang Mengatakan Apa’

  • Dilaporkan ada kesalahan serius pada Claude yang membuatnya salah mengira pesan yang dikirimnya sendiri sebagai ucapan pengguna
    • Masalah ini merupakan fenomena yang terpisah dari halusinasi (hallucination) maupun masalah batas hak akses
    • Bentuknya adalah model salah mengenali instruksi yang dihasilkannya secara internal sebagai input pengguna lalu mengeksekusinya
  • Dalam pengamatan sebelumnya, fenomena yang sama terjadi dua kali di lingkungan Claude Code
    • Claude sendiri menilai bahwa “typo itu disengaja” lalu melanjutkan deployment, setelah itu mengklaim bahwa perintah tersebut berasal dari pengguna
  • Kasus pengguna lain

    • Masalah yang sama juga dilaporkan di thread Reddit r/Anthropic
      • Claude sendiri mengeluarkan perintah destruktif “Tear down the H100 too” lalu menganggapnya sebagai permintaan pengguna
      • Akibatnya, dibagikan kasus di mana sesi pengguna menjadi rusak
      Iklan
  • Pemahaman masalah dan penyebabnya

    • Beberapa komentar merespons dengan saran seperti “batasi hak akses” atau “kelola lebih ketat di DevOps”
      • Namun akar persoalannya disebut bukan pengaturan hak akses model, melainkan kesalahan pembedaan ujaran pada system harness
      • Pesan penalaran internal salah diberi label sebagai input pengguna, sehingga model menjadi yakin bahwa “pengguna memang mengatakan itu”
    • Bug ini sempat terlihat sebagai fenomena sementara, tetapi belakangan diduga muncul lagi atau mengalami regression
      • Terutama tampak jelas dalam situasi ketika model sendiri mengizinkan pekerjaan berisiko
    Iklan
  • Laporan tambahan dan penyebaran

    • Isu ini naik ke peringkat 1 di Hacker News, dan banyak kasus serupa dibagikan
      • Dalam kasus nathell, Claude sendiri melontarkan pertanyaan “Shall I commit this progress?” lalu memprosesnya sebagai persetujuan dari pengguna
      • Catatan percakapan lengkap dapat dilihat di sini
    • Sebagian pengguna juga melaporkan fenomena serupa pada model lain seperti chatgpt.com
      • Secara umum, ada kecenderungan hal ini terjadi ketika percakapan mendekati batas context window, yang disebut “Dumb Zone”
    • Penyebab mendasarnya masih belum dipastikan dengan jelas, dan ada dugaan bahwa ini adalah bug di level harness

1 komentar

 
GN⁺ 2026-04-10
Komentar Hacker News
  • Diskusi soal prompt LLM mengingatkan pada regex untuk mencegah SQL injection di masa lalu
    Pendekatan yang hanya menambal permukaan seperti itu dianggap tidak memberi jaminan mendasar
    Begitu input pengguna masuk ke prompt, seluruh LLM seharusnya diperlakukan sebagai wilayah yang tidak tepercaya

    • Masalah keamanan mendasar LLM adalah tidak adanya batas antara data dan jalur kontrol
      Namun struktur inilah inti yang membuat LLM fleksibel dan kuat, jadi jika dihilangkan, kelebihannya juga ikut hilang
    • Sampai sekarang belum ada cara yang bagus untuk menerapkan kueri terstruktur pada LLM
      Pernah ada upaya memisahkan buffer system prompt, tetapi gagal, dan pada akhirnya rasanya kita akan kembali lagi ke struktur semacam itu
    • Masalah sebenarnya adalah LLM itu non-deterministic, sementara orang-orang berharap ia deterministik
    • Model yang hanya mengizinkan kombinasi kata yang sudah ditentukan sebelumnya seperti sistem pesan di Dark Souls terasa menarik
      Dengan cara seperti ini, moderasi atau pencegahan penyalahgunaan tidak diperlukan, dan dalam situasi tertentu bisa menjadi solusi yang baik
    • Dibanding keamanan, keselamatan sebaiknya dijamin lewat sandboxing dan kontrol akses
      Fenomena model yang mabuk oleh hasil buatannya sendiri justru menurunkan performa
  • Masalah terkait Claude tampaknya lebih merupakan contoh yang kembali menyingkap keterbatasan mendasar LLM daripada masalah model itu sendiri
    Akan lebih intuitif jika konteks diperlakukan bukan sebagai urutan teks sederhana, melainkan seperti memori asosiatif (associative memory)
    Ia pandai menemukan informasi yang terkait, tetapi sangat tidak stabil dalam hal urutan yang tepat, negasi, dan menyebutkan semua item
    Ia juga kesulitan mengurai hubungan ketergantungan yang dalam

    • Belakangan keterbatasan ini juga terlihat pada model pembuat video
      Mereka mencoba menyinkronkan teks dan suara, tetapi bentuk mulut dan dialog yang tidak cocok masih sering terjadi
      Meski model memproses data dalam jumlah besar, ia tetap gagal membedakan “siapa yang sedang berbicara”
    • Penulis posting juga jadi berpikir bahwa bug Claude yang terlalu percaya diri soal izin memakai tool terjadi karena interaksi dengan harness
      Claude salah paham seolah pengguna sudah secara eksplisit menyetujui perintah seperti deploy
    • Jika sampai gagal pada hal sesederhana “apakah ia tahu namanya sendiri”, itu terasa seperti tidak lolos kualifikasi dasar
    • Secara pribadi, ada yang merasa semakin banyak konteks, performanya makin buruk
      Jadi konteks diupayakan seminimal mungkin
  • Saat menerjemahkan kode Haskell ke Clojure, ada yang mengalami bug Claude yang menyetujui perintah untuk dirinya sendiri
    Log percakapan lengkapnya ada di sini

    • Di dalam, LLM membedakan sumber pesan dengan delimiter khusus
      Ada yang bereksperimen dengan menyusun prompt secara langsung; pemanggilan tool bisa dilakukan, tetapi muncul error loop dan pengulangan
      Pada akhirnya semuanya adalah perilaku probabilistik, sehingga kesan “ajaib” saat ia bekerja dengan baik sebenarnya ilusi
    • Ada yang pernah melihat gejala serupa. Begitu diberi hak commit sekali, Claude jadi terus berusaha commit sendiri
    • Kasus ini dianggap begitu menarik sampai ditambahkan ke dalam tulisan
    • Mungkin tool seperti Terraform juga perlu menghapus pesan otomatis seperti “Run terraform apply plan.out next”
    • Kemungkinan dalam proses kompresi konteks otomatis, header menghilang sehingga Claude keliru mengira ia sedang menjawab pertanyaannya sendiri
  • Ada pendapat bahwa bug ini bukan masalah model, melainkan masalah harness
    Tampaknya pesan penalaran internal salah diberi label sebagai pesan pengguna
    Namun sebagian orang juga mengajukan kemungkinan bahwa model benar-benar menghasilkan token pesan pengguna

    • Sekalipun harness punya bug semi-deterministik, jika modelnya kokoh, kebingungan seperti ini seharusnya lebih sering muncul
      Pada akhirnya ini tampak sebagai hasil dari pemrosesan token probabilistik
    • Token pesan pengguna biasanya dipakai sebagai stop token saat generasi
      Jika tidak dicegah, model akan terus menghasilkan percakapan pengguna dan asisten tanpa henti
    • Fenomena ketika model mengira kalimat yang terdengar seperti pesan pengguna sebagai input pengguna yang nyata sudah pernah dilaporkan dalam paper
    • Cara harness menyusun konteks mungkin juga memicu kesalahpahaman model
    • Penulis mengakui bahwa istilah ‘reasoning’ mungkin kurang tepat
      Yang dimaksud sebenarnya adalah dialog internal yang dihasilkan Claude sebelum memberikan output
  • Dalam konteks LLM, tidak ada pemisahan antara ‘siapa yang berbicara’ dan ‘apa yang dikatakan’
    “Aku” dan “kamu” hanyalah token pendek, tanpa bobot semantik

    • Saat memakai API, sumber tiap ujaran memang dinyatakan dalam bentuk JSON,
      tetapi tampaknya model gagal mengenkode keadaan ini dengan akurat sehingga terjadi kebingungan
    • Jika ada marker yang membagi section, harness seharusnya memblokir pembuatan blok pengguna
  • ChatGPT pun, kalau percakapannya memanjang, bingung membedakan prompt dan respons, bahkan sampai mencampur system prompt
    Ada yang menilai masalah seperti ini ada di seluruh AI

    • Gemini khususnya punya kecenderungan kuat untuk mengira sarannya sendiri sebagai input pengguna
      Jika konteks tidak dibersihkan, gejalanya makin parah
    • Kalau bereksperimen dengan model kecil, masalah seperti ini terlihat lebih sering dan lebih jelas, jadi membantu untuk belajar
    • Akan bagus kalau dalam proses pelatihan model belajar membedakan kalimat hasil buatannya sendiri dan kalimat manusia
      Katanya Anthropic sudah mengimplementasikan sebagian dari ini
    • Saat melihat perusahaan memaksakan tool berbasis LLM, ada yang heran para developer tampaknya kurang memahami perilaku emergen (emergent behavior) seperti ini
    • Penulis bilang biasanya ia hanya memakai sesi pendek, jadi belum pernah melihat masalah seperti ini, tetapi di Claude Code sesinya menjadi panjang sehingga hal itu muncul
  • LLM tidak terlalu paham konsep negasi (not)
    Manusia memproses negasi secara logis, tetapi dalam ruang vektor berdimensi tinggi milik LLM, sinyal ‘not’ menjadi melemah
    Pada prompt pendek biasanya tidak masalah, tetapi makin panjang kalimatnya, makin membingungkan

    • Ada yang penasaran apakah sudah ada metrik evaluasi atau hasil eksperimen terkait hal ini
  • Ada yang skeptis pada ucapan “setelah lama memakai model, kita jadi bisa merasakan kesalahannya”
    Mengandalkan intuisi terhadap black box non-deterministic dianggap cara berpikir yang berbahaya

    • Ada juga tanggapan setengah bercanda yang bertanya apakah mereka tidak percaya pada “vibes”
      Kalau model terbaru dinaikkan versinya, feeling itu bisa saja meleset
    • Namun dalam praktiknya, mereka tidak mempertaruhkan seluruh operasi, melainkan menyesuaikan izin berdasarkan pengalaman
      Mirip penilaian saat menentukan hak akses anggota tim
    • Ada juga respons bahwa “semua software juga begitu”
      Dalam kenyataan ketika begitu banyak kode berjalan, kepercayaan penuh memang mustahil
  • Karena bug di Claude Code CLI, ada yang pindah dari Claude Max ke Codex Pro
    Banyak masalah mendasar seperti replay pesan, kebingungan soal asal pesan, dan error rendering
    Mengejutkan bahwa perusahaan yang membuat model Opus yang inovatif justru melakukan kesalahan pada CLI sederhana seperti ini
    Mungkin ini akibat terlalu banyak bereksperimen dengan ‘top-down vibe coding’

  • Ada yang mempertanyakan klaim bahwa “bug ini berbeda dari halusinasi”
    Istilah harness dianggap dipakai terlalu luas, dan sebenarnya ini mungkin cuma halusinasi biasa
    Karena LLM pada dasarnya adalah sistem yang tak bisa diprediksi, mengira perilakunya bisa dipahami sepenuhnya hanya lewat pengalaman adalah ilusi