Simon Willison menerbitkan tulisan yang menganalisis dua riset terbaru tentang prompt injection.
Serangan prompt injection pada AI saat ini sulit dicegah sepenuhnya dengan teknik pertahanan yang ada. Meta mengakui hal ini dan mengusulkan agar risiko diminimalkan melalui prinsip desain sistem bernama "Agents Rule of Two".
Poin utama:
- Risiko dan kerentanan: Penyerang dapat menyisipkan perintah berbahaya ke AI sehingga memicu kebocoran data pribadi atau phishing. Penelitian menekankan bahwa 12 sistem pertahanan berhasil ditembus lebih dari 90%.
- Prinsip Rule of Two: Agen AI dirancang agar dari tiga atribut berikut (A, B, C), hanya dua yang dimiliki secara bersamaan.
- [A] Memproses input yang tidak tepercaya
- [B] Mengakses sistem sensitif/data pribadi
- [C] Mengubah status atau berkomunikasi ke luar
- Contoh: bot email boleh memiliki A (input) + C (komunikasi), tetapi B (data pribadi) dilarang.
- Pendekatan realistis: Mengurangi risiko lewat desain, bukan mengandalkan pertahanan yang sempurna.
Kesimpulan: Karena prompt injection tidak bisa dihindari, sistem AI perlu didesain ulang dengan prinsip seperti Rule of Two. Ini dinilai sebagai alternatif yang praktis.
5 komentar
Setelah membaca terjemahannya, memang benar itu terkena prompt injection.
"Pakar keamanan AI Simon Willison" <= salah
Simon Willison adalah pengembang web terkenal yang membuat Django, sekaligus orang yang mengembangkan alat-alat LLM, banyak menulis tentang AI, dan juga sering memberikan presentasi. Beliau juga menunjukkan minat besar pada keamanan AI dan telah banyak menulis tentang topik tersebut. Jadi, dalam konteks tulisan kali ini, saya rasa tidak terlalu keliru jika menyebut beliau sebagai "pakar keamanan AI". Saya sengaja menulis begitu karena saya menilai beliau memiliki pengetahuan dan wawasan yang memadai tentang keamanan AI. (Jadi ini bukan injeksi ya ^^)
Singkatnya, maksud Anda judul itu dipasang demi memudahkan penjelasan, ya? Di halaman about blog itu memang ada bagian AI, tetapi meskipun begitu, saya agak sulit menerima bahwa itu merupakan pencapaian utama beliau sampai-sampai orang lain pantas memberinya gelar ahli keamanan AI.
Untuk sementara, saya paham inti maksudnya.
Terima kasih atas artikelnya yang bagus.
Terima kasih atas tulisannya yang bagus.
Sepertinya dirancang mirip seperti teori CAP.