Claude Cowork membocorkan file pengguna ke pihak luar

(promptarmor.com)

6 poin oleh GN⁺ 2026-01-15 | 2 komentar | Bagikan ke WhatsApp

Dengan memanfaatkan kerentanan di lingkungan eksekusi kode Claude Cowork, penyerang dapat mengunggah file pengguna ke akun Anthropic miliknya sendiri
Kerentanan ini sudah pernah dilaporkan di lingkungan chat Claude.ai namun belum diperbaiki, dan tetap ada di Cowork
Serangan dijalankan melalui file dokumen yang berisi prompt injection tersembunyi, lalu saat Cowork menganalisisnya file tersebut otomatis dikirim ke luar
Tanpa persetujuan manusia, Cowork menggunakan API key milik penyerang untuk mengekfiltrasi data melalui Anthropic API
Strukturnya membuat pengguna umum mudah terekspos, sehingga menyoroti risiko keamanan AI agent dan pentingnya pertahanan terhadap prompt injection

Ringkasan kerentanan

Claude Cowork adalah pratinjau riset AI agent untuk pekerjaan umum yang dirilis Anthropic, dengan kemampuan akses internet
PromptArmor mendemonstrasikan bahwa file pengguna dapat diekfiltrasi ke luar dengan memanfaatkan kerentanan yang belum diperbaiki di lingkungan coding Cowork
- Kerentanan ini sebelumnya ditemukan dan dipublikasikan oleh Johann Rehberger di Claude.ai, dan Anthropic mengetahuinya namun belum memperbaikinya
Anthropic memperingatkan pengguna Cowork agar “waspada terhadap perilaku yang patut dicurigai sebagai prompt injection”, tetapi hal ini dinilai tidak realistis bagi pengguna nonahli
PromptArmor menggelar demo publik untuk memberi tahu pengguna tentang risiko ini

Rantai serangan (Attack Chain)

Serangan memanfaatkan allowlist Anthropic API untuk mengirim data ke luar dari lingkungan VM Claude

Pengguna menghubungkan folder lokal berisi file properti rahasia ke Cowork
Pengguna mengunggah file dokumen (.docx) yang berisi prompt injection tersembunyi
- Dokumen itu disamarkan sebagai file ‘Skill’, dengan injeksi disembunyikan menggunakan teks putih 1 poin dan spasi baris 0,1
Pengguna meminta Cowork menganalisis file dengan memakai ‘Skill’ yang diunggah
Injeksi memanipulasi Cowork untuk menjalankan permintaan cURL menggunakan API key Anthropic milik penyerang, lalu mengunggah file pengguna ke akun penyerang
- Berjalan otomatis tanpa prosedur persetujuan manusia
- VM Claude memblokir sebagian besar jaringan eksternal, tetapi Anthropic API lolos karena dianggap tepercaya
Penyerang kemudian dapat melihat file korban dan berbicara dengan Claude dari akun Anthropic miliknya
- File yang bocor mencakup informasi keuangan dan sebagian nomor Social Security (SSN)

Ketahanan per model (Model-specific Resilience)

Serangan di atas didemonstrasikan pada model Claude Haiku
Claude Opus 4.5 memiliki ketahanan lebih tinggi terhadap injeksi, tetapi di lingkungan Cowork kerentanan unggah file yang sama masih dapat dieksploitasi melalui indirect prompt injection
- Dalam pengujian, diasumsikan pengguna mengunggah panduan integrasi berbahaya, dan catatan pelanggan bocor ke akun penyerang

Penolakan layanan melalui file malformed (DOS via Malformed Files)

API Claude berulang kali memunculkan error ketika ekstensi file tidak cocok dengan format aslinya
- Contoh: jika mencoba membaca file teks biasa dengan ekstensi .pdf, maka error API akan muncul di semua percakapan berikutnya
Error seperti ini dapat disalahgunakan untuk serangan penolakan layanan (DOS) terbatas melalui indirect prompt injection
- Penyerang dapat mengarahkan pembuatan dan pengunggahan file yang salah sehingga notifikasi error muncul di klien Claude dan konsol Anthropic

Risiko perluasan agen (Agentic Blast Radius)

Cowork dirancang untuk berinteraksi dengan browser, server MCP, kontrol AppleScript, dan lingkungan kerja harian lainnya
Karena itu, kemungkinan data sensitif dan data tak tepercaya diproses secara bercampur menjadi lebih tinggi
Permukaan serangan prompt injection terus meluas, sehingga konfigurasi connector perlu dilakukan dengan hati-hati
Demo kali ini tidak menggunakan connector, tetapi connector dapat menjadi faktor risiko utama bagi pengguna umum

2 komentar

laeyoung 2026-01-15

Dalam ulasan Claude Cowork yang ditulis Simon Willison juga ada kekhawatiran soal serangan prompt injection, dan ternyata memang cepat terjadi.

GN⁺ 2026-01-15

Komentar Hacker News

Jika menemukan Anthropic API disalahgunakan, cukup unggah API key tersebut ke GitHub Gist atau repositori publik
Anthropic adalah mitra pemindaian GitHub, jadi key itu hampir langsung dicabut
Setelah itu tinggal hapus Gist-nya, dan penyedia lain seperti OpenAI juga bekerja dengan cara serupa
Dokumen terkait: Anthropic API Key Best Practices, GitHub Secret Scanning Patterns
- Ini tidak disarankan karena berisiko jika layanan pemindaian token GitHub sedang down
  Idealnya GitHub menyediakan API pencabutan token universal
  Atau akan lebih baik jika fitur pencabutan bisa diaktifkan langsung dari repositori privat
- Rasanya seperti main catur melawan hacker
- Padahal key bisa langsung dicabut dari konsol Anthropic, jadi aneh kenapa dibuat serumit ini
- Menurutku ini solusi yang cukup cerdik, baru pertama kali dengar cara seperti ini
- Tapi kalau penyerang mencuri file lalu memindahkannya ke akun Anthropic miliknya, pada akhirnya seluruh dunia bisa mengakses akun itu, jadi tetap berbahaya
Dalam demo, prompt injection diperagakan lewat file .docx dengan ukuran huruf kecil agar tersembunyi, tapi sebenarnya file Markdown biasa pun sudah cukup
Misalnya cukup diberi deskripsi seperti “Claude belajar teknik negosiasi pinjaman”, banyak orang akan memakainya tanpa membuka isi file lebih dulu
Bahkan file .md bisa lebih efektif daripada .docx karena terlihat tidak terlalu mencurigakan
- Ini seperti situasi beruang pintar vs tempat sampah yang tidak bisa dibuka
- Tapi tidak semua pengguna melihatnya seperti itu
  Misalnya di beberapa industri, DOCX masih dianggap lebih normal daripada PDF
  Dalam lingkungan seperti itu, file .md justru bisa terlihat seperti alat hacker
Masalah seperti ini memang sudah diperkirakan sejak awal
Selama prompt injection belum terselesaikan, hal seperti ini akan terus berulang
Kalau membayangkan HN tahun 1999, suasananya mirip reaksi awal terhadap SQL injection seperti “Bobby Tables menghancurkan DB”
- Perbandingannya menarik, tapi tidak sepenuhnya tepat
  Di awal 2000-an pun kita sudah mengatakan untuk memakai SQL terparameterisasi alih-alih interpolasi string
  Bahkan sekarang semua alat yang dibutuhkan sudah ada, masalahnya orang lebih memprioritaskan kecepatan daripada keamanan
  Ironisnya, yang memulai perlombaan ini justru OpenAI yang dulunya menekankan keamanan dan alignment
- Aku bertanya-tanya apakah ini bisa diselesaikan seperti SQL injection, lewat input sanitization
  Misalnya membungkus input pengguna dengan token tertentu seperti (@##)(JF), lalu memastikan perintah di dalamnya tidak dieksekusi
  Kelihatannya bahkan bisa dilakukan dengan find/replace sederhana, jadi aku penasaran apakah ada yang terlewat dariku
- Masalah yang lebih mendasar adalah, ini mungkin tidak akan terselesaikan meski kecerdasannya meningkat
  Bahkan bisa jadi makin berbahaya saat AI makin pintar
- Aku sedang bereksperimen dengan pola Prepared Statement untuk agent
  Sebelum setiap pemanggilan tool, agent harus menunjukkan ‘surat izin’ (warrant) yang ditandatangani, sehingga hanya perintah yang diizinkan yang bisa dijalankan
  Jadi walaupun terjadi prompt injection, tetap bisa diblokir secara mekanis
Ini terasa seperti bug auto-execute lain, semacam “kalau file terlihat mencurigakan, jalankan saja seperti program”
Di era Windows XP pun kita pernah susah payah menghadapi masalah seperti ini, dan akhirnya Microsoft menghentikan autorun
Sistem berbasis prompt juga harus membedakan dengan jelas apa yang boleh dipercaya
Menurutku bermasalah kalau perusahaan AI hanya “mengakui” risikonya lalu meminta pengguna mengikuti tindakan pencegahan yang tidak realistis
- Sebagian besar penjelasan memakai analogi “SQL injection”, tapi menurutku sebenarnya lebih mirip serangan phishing
  Misalnya kalau kita membuat “bot nenek” untuk merapikan email, bot itu bisa saja tertipu oleh email penipuan pangeran Nigeria
- Pada akhirnya ini tidak jauh berbeda dengan mengatakan, “Kalau ingin memakai produk ini dengan aman, jangan dipakai sama sekali”
Ini tampaknya masalah yang muncul karena sistem ‘skill’ Claude bersifat implisit
Tidak eksplisit seperti perintah /slash, hanya berupa instruksi seperti “cara mengekstrak file”
Akibatnya, hanya dengan memakai kata seperti “decompress” atau “extract” pun bisa memicu eksekusi otomatis
Struktur seperti ini memudahkan prompt injection menyuntikkan kemampuan baru secara diam-diam
Karena itu perlu diubah menjadi sistem tool yang eksplisit dan terdaftar statis
Misalnya membuat tool seperti Extract(path), lalu melakukan whitelist sehingga hanya Read atau Bash("tar *") yang diizinkan
Dengan begitu bisa ditambahkan juga proses persetujuan manusia, dan tidak ada tool baru yang didaftarkan di tengah sesi
Kasus serupa sebelumnya dan tanggapan resmi Anthropic dirangkum di posting blog ini
Agak di luar topik, tapi aku penasaran apakah ada yang menyediakan PoC exfiltrasi data sebagai layanan
Khususnya aku ingin menguji payload beracun di CLAUDE.md saat Claude dijalankan di lingkungan CI eksternal
Aktivitas terbaru promptarmor cukup mengesankan
Mereka berperan besar dalam meminta pertanggungjawaban kualitas dari tim produk
- Tapi mereka juga punya kepentingan untuk menjual produk lewat fear marketing
  Serangan nyata mengharuskan korban memberi Claude akses ke folder sensitif, lalu penyerang menipu korban agar mengunggah DOCX yang berisi prompt injection tak terlihat
  Selain itu, isi injeksi akan terlihat oleh pengguna saat output ditampilkan dalam Markdown
  Penyerang harus memakai API key miliknya sendiri, jadi bisa dilacak
  Serangan ini hanya bekerja pada versi Haiku yang lama
  Pada akhirnya rasanya promptarmor memang melebih-lebihkan demi penjualan
Tim kami membatasi VM agent agar hanya bisa berkomunikasi dengan pip, npm, apt
Kami juga memantau ukuran permintaan output untuk mencegah exfiltrasi data yang tidak normal
- Tapi ini bukan solusi mendasar
  Tiga masalah sekaligus yaitu penyalahgunaan AI, kebocoran, dan otonomi tidak bisa diselesaikan hanya dengan menutup salah satu sisi
  Rahasia tetap bisa dienkode dalam permintaan kecil, dan AI yang tidak aligned bisa menemukan sendiri jalur kebocoran seperti ini
- Pendekatannya menarik, tapi aku jadi penasaran apakah penyerang juga bisa mengunggah codebase pengguna sebagai paket?