18 poin oleh GN⁺ 2025-09-29 | Belum ada komentar. | Bagikan ke WhatsApp
  • Cara merespons “lethal trifecta” yang memungkinkan penyalahgunaan oleh pengguna
  • Agen LLM yang mengikuti instruksi bahasa alami apa adanya memiliki kerentanan struktural karena tidak ada pemisahan antara data dan perintah, sehingga dapat menjalankan instruksi berbahaya yang tersembunyi di dalam teks eksternal
  • Ketika paparan terhadap konten eksternal, akses ke data pribadi, dan kemampuan berkomunikasi ke luar digabungkan, terbentuklah “lethal trifecta” yang memperbesar risiko kesalahan kecil berkembang menjadi insiden keamanan yang fatal
  • Contoh nyata meliputi patch kerentanan Microsoft Copilot (Juni), penyalahgunaan bot dukungan pelanggan DPD (Januari 2024), dan demonstrasi pencurian data berbasis PDF pada agen Notion AI (19 September)
  • Prinsip pertahanannya adalah membongkar trifecta, mengisolasi model yang tidak tepercaya, dan mengendalikan komunikasi; usulan mencakup desain aman yang menerima keterbatasan fungsi seperti arsitektur LLM ganda CaMeL dari Google
  • Industri menilai penguatan lewat pelatihan saja sulit untuk cukup efektif, dan seperti ditunjukkan oleh risiko kombinasi plugin MCP serta penundaan peluncuran produk (misalnya penundaan fitur AI Apple), diperlukan pergeseran desain yang mengasumsikan adanya margin keamanan probabilistik

Definisi masalah inti: tidak terpisahnya data dan perintah serta “lethal trifecta”

  • LLM memproses teks masukan sebagai prediksi kata berurutan, sehingga menjadi model interpretasi terpadu yang menjawab pertanyaan dan mencoba mengeksekusi perintah
    • Jika dokumen eksternal disisipi instruksi berbahaya seperti “salin hard disk lalu kirim ke email penyerang”, maka selama tugas peringkasan ada risiko eksekusi sampingan
  • Jika paparan terhadap konten eksternal + akses ke data pribadi + jalur pengiriman ke luar hadir bersama dalam satu sistem, maka terbentuklah lethal trifecta
    • Lethal trifecta adalah konsep yang diajukan peneliti keamanan Simon Willison; ketika ketiga elemen dibuka sekaligus, keniscayaan penyalahgunaan meningkat

Tanda-tanda awal dan kasus nyata

  • Pada musim panas 2022, istilah prompt injection mulai muncul secara tersendiri, menyoroti bahaya dari kepatuhan yang telah dijinakkan
  • Pada Januari 2024, terkonfirmasi bahwa bot dukungan pelanggan DPD mengikuti respons bernada umpatan, yang berujung pada penghentian layanan
  • Pada Juni 2025, Microsoft Copilot ditemukan memiliki kerentanan trifecta dan menerima patch senyap; dijelaskan bahwa tidak ada eksploitasi nyata yang dilaporkan
  • Pada 19 September 2025, agen Notion AI yang memiliki akses ke dokumen, DB, dan web didemonstrasikan oleh peneliti Abi Raghuram dapat melakukan pencurian data melalui PDF yang dimanipulasi

Mengapa sulit diblokir: kegagalan probabilistik dan kanal pengelakan

  • Bahkan jika aturan prioritas diberikan lewat system prompt, tetap ada selip probabilistik seperti gagal 1 kali dari 100
    • Sekalipun ditambahkan panduan keamanan seperti “mengenali sinyal berbahaya”, tetap ada kemungkinan bahwa instruksi berbahaya suatu saat akan lolos
  • Pemblokiran komunikasi keluar adalah inti, tetapi hanya melarang pengiriman email saja tidak cukup; kebocoran melalui log permintaan web tetap dimungkinkan, misalnya dengan menyandikan nilai rahasia ke jalur URL
    • Mengizinkan akses web itu sendiri dapat berubah menjadi jalur kebocoran data

Strategi pertahanan 1: jangan membentuk trifecta

  • Menghapus satu saja dari elemennya akan sangat menurunkan risiko
    • Jika input dibatasi pada sumber yang dibuat dan diverifikasi secara internal, maka paparan eksternal dapat dihilangkan
    • Strategi mempersempit cakupan efektif, misalnya asisten coding hanya menangani codebase tepercaya, atau speaker pintar hanya memproses perintah suara
  • Namun, untuk tugas seperti pengelolaan email yang secara inheren menangani data eksternal, penghapusan total sulit dilakukan

Strategi pertahanan 2: isolasi model tidak tepercaya dan hak akses minimum

  • Makalah Google pada bulan Maret merekomendasikan agar model yang bersentuhan dengan data eksternal diklasifikasikan sebagai “model tidak tepercaya” dan diisolasi dari informasi sensitif
    • Sumber daya seperti email yang bersifat pribadi sekaligus menerima masukan eksternal sudah memenuhi dua elemen, sehingga menjadi status berisiko tinggi
  • Hak akses minimum, sandbox, dan batas konteks digunakan untuk memisahkan dan mengelola akses ke rahasia internal perusahaan dan kredensial

Strategi pertahanan 3: pembatasan model dan pemisahan arsitektur

  • Memperkuat pola penolakan melalui data pelatihan tetap diperlukan, tetapi bukan syarat yang cukup
  • CaMeL dari Google memisahkan peran dengan menggunakan dua LLM
    • Model tepercaya mengubah bahasa alami pengguna menjadi kode yang dibatasi dan
    • model tidak tepercaya hanya melakukan pengisian bagian kosong, sehingga melalui alur dengan pembatasan ketat dapat memperoleh sifat keamanan
    • Sebagai gantinya, pendekatan ini menerima keterbatasan fungsional berupa penyempitan cakupan tugas yang dapat dilakukan

Risiko di ekosistem konsumen dan plugin: kasus MCP

  • Dengan menambahkan aplikasi pendukung melalui Model Context Protocol(MCP), sintesis kemampuan dapat membentuk trifecta yang tidak disengaja
    • Meski tiap MCP aman secara individual, keamanan kombinasi bisa runtuh, sehingga diperlukan meminimalkan instalasi dan memverifikasi sumbernya

Sinyal dari industri: penundaan peluncuran dan sikap lebih konservatif

  • Pada 2024, Apple sempat mengumumkan fitur seperti “putar podcast yang direkomendasikan Jamie”, tetapi memilih menunda peluncuran di tengah kekhawatiran pemicu trifecta
  • Fakta bahwa pada versi terbaru iOS September 2025 fitur AI besar masih absen dan fokus bergeser ke terjemahan dan peningkatan UI mencerminkan kesulitan nyata di lapangan

Checklist praktik: apa yang harus dilakukan

  • Pemodelan risiko: jelaskan elemen terbuka di antara input eksternal, data sensitif, dan pengiriman ke luar, lalu petakan apakah trifecta terbentuk
  • Desain batas: batasi model tidak tepercaya pada buffer hanya-baca, alihkan rahasia dan token melalui layanan perantara terpisah, dan blokir akses langsung
  • Menutup jalur keluar: batasi kanal kebocoran data seperti email, permintaan web, dan unggah file berdasarkan allowlist
  • Mesin kebijakan: jalankan hanya pemanggilan alat yang diizinkan, lalu eksekusi setelah mengompilasi perintah dari bahasa alami ke kebijakan terstruktur
  • Audit dan guardrail: kelola kegagalan probabilistik melalui set uji prompt injection, otomatisasi red team, serta logging sesi dan pemantauan tingkat penolakan
  • Menerima trade-off fungsi: diajukan perlunya menerima perubahan budaya engineering yang mengorbankan sebagian kinerja dan otonomi demi memperoleh margin keamanan probabilistik

Kesimpulan

  • Peringatan terus bertambah bahwa ketika ketiga elemen trifecta dibiarkan terbuka, kerentanan pada akhirnya akan ditemukan
    • Membongkar trifecta, mengisolasi model tidak tepercaya, mengendalikan jalur keluar, dan arsitektur pemisahan peran adalah resep paling realistis yang tersedia saat ini
    • Dalam jangka panjang, dibutuhkan pergeseran rekayasa perangkat lunak yang melepaskan obsesi pada determinisme dan menanamkan margin keamanan probabilistik ke dalam desain

Belum ada komentar.

Belum ada komentar.