Sistem AI Tidak Akan Pernah Sepenuhnya Aman — ‘Tiga Ancaman Mematikan’ yang Harus Diantisipasi

(economist.com)

18 poin oleh GN⁺ 2025-09-29 | Belum ada komentar. | Bagikan ke WhatsApp

Cara merespons “lethal trifecta” yang memungkinkan penyalahgunaan oleh pengguna
Agen LLM yang mengikuti instruksi bahasa alami apa adanya memiliki kerentanan struktural karena tidak ada pemisahan antara data dan perintah, sehingga dapat menjalankan instruksi berbahaya yang tersembunyi di dalam teks eksternal
Ketika paparan terhadap konten eksternal, akses ke data pribadi, dan kemampuan berkomunikasi ke luar digabungkan, terbentuklah “lethal trifecta” yang memperbesar risiko kesalahan kecil berkembang menjadi insiden keamanan yang fatal
Contoh nyata meliputi patch kerentanan Microsoft Copilot (Juni), penyalahgunaan bot dukungan pelanggan DPD (Januari 2024), dan demonstrasi pencurian data berbasis PDF pada agen Notion AI (19 September)
Prinsip pertahanannya adalah membongkar trifecta, mengisolasi model yang tidak tepercaya, dan mengendalikan komunikasi; usulan mencakup desain aman yang menerima keterbatasan fungsi seperti arsitektur LLM ganda CaMeL dari Google
Industri menilai penguatan lewat pelatihan saja sulit untuk cukup efektif, dan seperti ditunjukkan oleh risiko kombinasi plugin MCP serta penundaan peluncuran produk (misalnya penundaan fitur AI Apple), diperlukan pergeseran desain yang mengasumsikan adanya margin keamanan probabilistik

Definisi masalah inti: tidak terpisahnya data dan perintah serta “lethal trifecta”

LLM memproses teks masukan sebagai prediksi kata berurutan, sehingga menjadi model interpretasi terpadu yang menjawab pertanyaan dan mencoba mengeksekusi perintah
- Jika dokumen eksternal disisipi instruksi berbahaya seperti “salin hard disk lalu kirim ke email penyerang”, maka selama tugas peringkasan ada risiko eksekusi sampingan
Jika paparan terhadap konten eksternal + akses ke data pribadi + jalur pengiriman ke luar hadir bersama dalam satu sistem, maka terbentuklah lethal trifecta
- Lethal trifecta adalah konsep yang diajukan peneliti keamanan Simon Willison; ketika ketiga elemen dibuka sekaligus, keniscayaan penyalahgunaan meningkat

Tanda-tanda awal dan kasus nyata

Pada musim panas 2022, istilah prompt injection mulai muncul secara tersendiri, menyoroti bahaya dari kepatuhan yang telah dijinakkan
Pada Januari 2024, terkonfirmasi bahwa bot dukungan pelanggan DPD mengikuti respons bernada umpatan, yang berujung pada penghentian layanan
Pada Juni 2025, Microsoft Copilot ditemukan memiliki kerentanan trifecta dan menerima patch senyap; dijelaskan bahwa tidak ada eksploitasi nyata yang dilaporkan
Pada 19 September 2025, agen Notion AI yang memiliki akses ke dokumen, DB, dan web didemonstrasikan oleh peneliti Abi Raghuram dapat melakukan pencurian data melalui PDF yang dimanipulasi

Mengapa sulit diblokir: kegagalan probabilistik dan kanal pengelakan

Bahkan jika aturan prioritas diberikan lewat system prompt, tetap ada selip probabilistik seperti gagal 1 kali dari 100
- Sekalipun ditambahkan panduan keamanan seperti “mengenali sinyal berbahaya”, tetap ada kemungkinan bahwa instruksi berbahaya suatu saat akan lolos
Pemblokiran komunikasi keluar adalah inti, tetapi hanya melarang pengiriman email saja tidak cukup; kebocoran melalui log permintaan web tetap dimungkinkan, misalnya dengan menyandikan nilai rahasia ke jalur URL
- Mengizinkan akses web itu sendiri dapat berubah menjadi jalur kebocoran data

Strategi pertahanan 1: jangan membentuk trifecta

Menghapus satu saja dari elemennya akan sangat menurunkan risiko
- Jika input dibatasi pada sumber yang dibuat dan diverifikasi secara internal, maka paparan eksternal dapat dihilangkan
- Strategi mempersempit cakupan efektif, misalnya asisten coding hanya menangani codebase tepercaya, atau speaker pintar hanya memproses perintah suara
Namun, untuk tugas seperti pengelolaan email yang secara inheren menangani data eksternal, penghapusan total sulit dilakukan

Strategi pertahanan 2: isolasi model tidak tepercaya dan hak akses minimum

Makalah Google pada bulan Maret merekomendasikan agar model yang bersentuhan dengan data eksternal diklasifikasikan sebagai “model tidak tepercaya” dan diisolasi dari informasi sensitif
- Sumber daya seperti email yang bersifat pribadi sekaligus menerima masukan eksternal sudah memenuhi dua elemen, sehingga menjadi status berisiko tinggi
Hak akses minimum, sandbox, dan batas konteks digunakan untuk memisahkan dan mengelola akses ke rahasia internal perusahaan dan kredensial

Strategi pertahanan 3: pembatasan model dan pemisahan arsitektur

Memperkuat pola penolakan melalui data pelatihan tetap diperlukan, tetapi bukan syarat yang cukup
CaMeL dari Google memisahkan peran dengan menggunakan dua LLM
- Model tepercaya mengubah bahasa alami pengguna menjadi kode yang dibatasi dan
- model tidak tepercaya hanya melakukan pengisian bagian kosong, sehingga melalui alur dengan pembatasan ketat dapat memperoleh sifat keamanan
- Sebagai gantinya, pendekatan ini menerima keterbatasan fungsional berupa penyempitan cakupan tugas yang dapat dilakukan

Risiko di ekosistem konsumen dan plugin: kasus MCP

Dengan menambahkan aplikasi pendukung melalui Model Context Protocol(MCP), sintesis kemampuan dapat membentuk trifecta yang tidak disengaja
- Meski tiap MCP aman secara individual, keamanan kombinasi bisa runtuh, sehingga diperlukan meminimalkan instalasi dan memverifikasi sumbernya

Sinyal dari industri: penundaan peluncuran dan sikap lebih konservatif

Pada 2024, Apple sempat mengumumkan fitur seperti “putar podcast yang direkomendasikan Jamie”, tetapi memilih menunda peluncuran di tengah kekhawatiran pemicu trifecta
Fakta bahwa pada versi terbaru iOS September 2025 fitur AI besar masih absen dan fokus bergeser ke terjemahan dan peningkatan UI mencerminkan kesulitan nyata di lapangan

Checklist praktik: apa yang harus dilakukan

Pemodelan risiko: jelaskan elemen terbuka di antara input eksternal, data sensitif, dan pengiriman ke luar, lalu petakan apakah trifecta terbentuk
Desain batas: batasi model tidak tepercaya pada buffer hanya-baca, alihkan rahasia dan token melalui layanan perantara terpisah, dan blokir akses langsung
Menutup jalur keluar: batasi kanal kebocoran data seperti email, permintaan web, dan unggah file berdasarkan allowlist
Mesin kebijakan: jalankan hanya pemanggilan alat yang diizinkan, lalu eksekusi setelah mengompilasi perintah dari bahasa alami ke kebijakan terstruktur
Audit dan guardrail: kelola kegagalan probabilistik melalui set uji prompt injection, otomatisasi red team, serta logging sesi dan pemantauan tingkat penolakan
Menerima trade-off fungsi: diajukan perlunya menerima perubahan budaya engineering yang mengorbankan sebagian kinerja dan otonomi demi memperoleh margin keamanan probabilistik

Kesimpulan

Peringatan terus bertambah bahwa ketika ketiga elemen trifecta dibiarkan terbuka, kerentanan pada akhirnya akan ditemukan
- Membongkar trifecta, mengisolasi model tidak tepercaya, mengendalikan jalur keluar, dan arsitektur pemisahan peran adalah resep paling realistis yang tersedia saat ini
- Dalam jangka panjang, dibutuhkan pergeseran rekayasa perangkat lunak yang melepaskan obsesi pada determinisme dan menanamkan margin keamanan probabilistik ke dalam desain

Sistem AI Tidak Akan Pernah Sepenuhnya Aman — ‘Tiga Ancaman Mematikan’ yang Harus Diantisipasi

Definisi masalah inti: tidak terpisahnya data dan perintah serta “lethal trifecta”

Tanda-tanda awal dan kasus nyata

Mengapa sulit diblokir: kegagalan probabilistik dan kanal pengelakan

Strategi pertahanan 1: jangan membentuk trifecta

Strategi pertahanan 2: isolasi model tidak tepercaya dan hak akses minimum

Strategi pertahanan 3: pembatasan model dan pemisahan arsitektur

Risiko di ekosistem konsumen dan plugin: kasus MCP

Sinyal dari industri: penundaan peluncuran dan sikap lebih konservatif

Checklist praktik: apa yang harus dilakukan

Kesimpulan

Bacaan terkait

Belum ada komentar.