- Simon Willison merilis video, slide, dan transkrip presentasinya
- Prompt Injection = "serangan terhadap aplikasi yang dibangun berbasis model AI" "bukan serangan terhadap model AI itu sendiri"
- Demo contoh injeksi terjemahan dan halaman yang menyerang Bing yang berjalan di Edge Sidebar
- Bagaimana jika asisten AI saya mendengarkan perintah orang lain? (contohnya menjelaskan prompt yang menyuruh email reset kata sandi diteruskan ke suatu tempat)
- Ada beberapa solusi untuk ini seperti prompt begging, tetapi tidak terlalu berhasil
- Usulan saya... tidak terlalu bagus, tetapi sepertinya bisa sedikit membantu dengan pola Dual Language Model
- Menyusun asisten AI dengan 2 LLM berbeda: Privileged LLM dan Quarantined LLM
- Privileged LLM
- Dapat mengakses alat
- Hanya memproses input yang tepercaya
- Memberi instruksi ke Quarantined LLM, tetapi tidak melihat input maupun outputnya
- Hanya memproses dalam bentuk token, "Summarize text $VAR1"
- "Display $SUMMARY2 to the User"
- Quarantined LLM
- Menangani tugas untuk input yang tidak tepercaya (seperti peringkasan)
- Tidak bisa mengakses apa pun yang lain
- Semua input dan output diasumsikan terkontaminasi - tidak mengirimkan apa pun secara langsung ke Privileged LLM
- Prompt injection adalah kerentanan keamanan yang sangat buruk; jika tidak memahaminya, mustahil menerapkan cara penanganannya
- Semua aplikasi yang dibangun di atas model bahasa pada dasarnya rentan terhadap masalah ini
- Karena tidak ada solusi untuk prompt injection, jika aplikasi tidak bisa dikembangkan dengan aman, kadang kita harus mengatakan "No"
- Sebagai developer saya benar-benar tidak suka menjadi orang yang berkata "itu tidak mungkin", tetapi dalam kasus ini saya rasa itu sangat penting
Belum ada komentar.