Cloudflare mengumumkan firewall untuk AI

xguru · 2024-03-06T10:32:02+09:00

Cloudflare mengumumkan pengembangan lapisan perlindungan baru, 'Firewall for AI', yang ditempatkan di depan large language model (LLM) untuk mengidentifikasi penyalahgunaan Menggunakan LLM sebagai aplikasi yang terhubung ke internet memperkenalkan kerentanan baru yang dapat dieksploitasi oleh pelaku jahat Selain kerentanan yang memengaruhi aplikasi web dan API yang ada, cara kerja LLM juga menimbulkan ancaman baru Firewall for AI adalah web application firewall (WAF) tingkat lanjut yang dioptimalkan untuk aplikasi yang menggunakan LLM, serta mencakup serangkaian alat untuk mendeteksi kerentanan dan memberikan visibilitas kepada pemilik model Mengapa LLM berbeda dari aplikasi tradisional? Saat melihat LLM sebagai aplikasi yang terhubung ke internet, ada dua perbedaan utama dibandingkan aplikasi web tradisional Pertama, cara pengguna berinteraksi dengan produk berbeda. Aplikasi tradisional bersifat deterministik, sedangkan LLM bersifat non-deterministik dan berbasis bahasa alami Kedua, cara control plane aplikasi berinteraksi dengan data berbeda. Pada aplikasi tradisional, control plane (kode) dan data plane (database) terpisah dengan jelas, tetapi pada LLM, data pelatihan menjadi bagian dari model itu sendiri sehingga sulit mengendalikan pembagian data melalui prompt pengguna Kerentanan OWASP LLM OWASP Foundation merilis 10 kerentanan teratas untuk LLM, yang memberikan kerangka kerja berguna untuk memikirkan cara melindungi model bahasa Beberapa ancaman mirip dengan OWASP Top 10 untuk aplikasi web, tetapi ada juga ancaman yang khusus untuk model bahasa Deployment LLM Risiko LLM berbeda tergantung pada model deployment. Saat ini ada tiga pendekatan deployment utama Internal LLM (internal): perusahaan mengembangkan LLM untuk membantu tenaga kerja dalam pekerjaan sehari-hari. Ini dianggap sebagai aset perusahaan dan tidak boleh diakses oleh pihak non-karyawan. Contohnya termasuk AI copilot yang dilatih pada data penjualan dan interaksi pelanggan untuk menghasilkan rekomendasi yang disesuaikan, atau LLM yang dilatih pada basis pengetahuan internal yang dapat ditelusuri oleh engineer Public LLM (publik): LLM yang dapat diakses dari luar perusahaan. Solusi seperti ini sering memiliki versi gratis yang bisa digunakan siapa saja dan umumnya dilatih pada pengetahuan umum atau publik. Contohnya adalah OpenAI GPT atau Anthropic Claude Product LLM (produk): dari sudut pandang perusahaan, LLM bisa menjadi bagian dari produk atau layanan yang diberikan kepada pelanggan. Biasanya berupa solusi kustom yang di-host sendiri dan dapat digunakan sebagai alat yang berinteraksi dengan sumber daya perusahaan. Contohnya chatbot dukungan pelanggan atau Cloudflare AI Assistant. Dalam semua skenario, model harus dilindungi dari penyalahgunaan, data proprietari yang tersimpan di model harus diamankan, dan pengguna harus dilindungi dari misinformasi atau konten yang tidak pantas Firewall untuk AI Cloudflare Firewall for AI ditempatkan seperti WAF tradisional dan memindai permintaan API yang berisi semua prompt LLM untuk mendeteksi pola dan signature serangan yang mungkin terjadi Dapat ditempatkan di depan model yang di-host di platform Cloudflare Workers AI maupun model yang di-host di infrastruktur pihak ketiga, serta dapat digunakan bersama Cloudflare AI Gateway Pencegahan serangan volume Salah satu ancaman yang dicantumkan OWASP adalah model denial of service Seperti aplikasi tradisional, serangan DoS mengonsumsi sumber daya secara berlebihan sehingga menurunkan kualitas layanan atau meningkatkan biaya operasional model Risiko ini dapat dimitigasi dengan menerapkan kebijakan rate limiting yang mengendalikan laju permintaan dalam tiap sesi Identifikasi informasi sensitif Ada dua use case untuk informasi sensitif, tergantung apakah Anda memiliki model dan data tersebut, atau ingin mencegah pengguna mengirim data ke public LLM Sensitive information disclosure sebagaimana didefinisikan OWASP terjadi ketika LLM secara tidak sengaja mengungkapkan data rahasia dalam respons, yang dapat menyebabkan akses data tanpa izin, pelanggaran privasi, dan insiden keamanan Mencegah penyalahgunaan model (Preventing Abuse) Penyalahgunaan model mencakup berbagai pendekatan, seperti 'prompt injection' atau mengirim permintaan untuk memicu halusinasi maupun menghasilkan respons yang tidak akurat, ofensif, tidak pantas, atau di luar topik Prompt injection adalah upaya memanipulasi model bahasa melalui input yang dibuat secara khusus untuk memicu respons yang tidak dimaksudkan pada LLM Cara menggunakan Firewall untuk AI Pelanggan enterprise yang menggunakan "Application Security Advanced" dapat langsung menggunakan Advanced Rate Limiting dan Sensitive Data Detection Fitur validasi prompt pada Firewall for AI saat ini masih dalam pengembangan, dan versi beta dijadwalkan dirilis untuk pengguna Workers AI dalam beberapa bulan mendatang

(blog.cloudflare.com)

7 poin oleh xguru 2024-03-06 | 1 komentar | Bagikan ke WhatsApp

Cloudflare mengumumkan pengembangan lapisan perlindungan baru, 'Firewall for AI', yang ditempatkan di depan large language model (LLM) untuk mengidentifikasi penyalahgunaan
Menggunakan LLM sebagai aplikasi yang terhubung ke internet memperkenalkan kerentanan baru yang dapat dieksploitasi oleh pelaku jahat
Selain kerentanan yang memengaruhi aplikasi web dan API yang ada, cara kerja LLM juga menimbulkan ancaman baru
Firewall for AI adalah web application firewall (WAF) tingkat lanjut yang dioptimalkan untuk aplikasi yang menggunakan LLM, serta mencakup serangkaian alat untuk mendeteksi kerentanan dan memberikan visibilitas kepada pemilik model

Mengapa LLM berbeda dari aplikasi tradisional?

Saat melihat LLM sebagai aplikasi yang terhubung ke internet, ada dua perbedaan utama dibandingkan aplikasi web tradisional
Pertama, cara pengguna berinteraksi dengan produk berbeda. Aplikasi tradisional bersifat deterministik, sedangkan LLM bersifat non-deterministik dan berbasis bahasa alami
Kedua, cara control plane aplikasi berinteraksi dengan data berbeda. Pada aplikasi tradisional, control plane (kode) dan data plane (database) terpisah dengan jelas, tetapi pada LLM, data pelatihan menjadi bagian dari model itu sendiri sehingga sulit mengendalikan pembagian data melalui prompt pengguna

Kerentanan OWASP LLM

OWASP Foundation merilis 10 kerentanan teratas untuk LLM, yang memberikan kerangka kerja berguna untuk memikirkan cara melindungi model bahasa
Beberapa ancaman mirip dengan OWASP Top 10 untuk aplikasi web, tetapi ada juga ancaman yang khusus untuk model bahasa

Deployment LLM

Risiko LLM berbeda tergantung pada model deployment. Saat ini ada tiga pendekatan deployment utama
- Internal LLM (internal): perusahaan mengembangkan LLM untuk membantu tenaga kerja dalam pekerjaan sehari-hari. Ini dianggap sebagai aset perusahaan dan tidak boleh diakses oleh pihak non-karyawan. Contohnya termasuk AI copilot yang dilatih pada data penjualan dan interaksi pelanggan untuk menghasilkan rekomendasi yang disesuaikan, atau LLM yang dilatih pada basis pengetahuan internal yang dapat ditelusuri oleh engineer
- Public LLM (publik): LLM yang dapat diakses dari luar perusahaan. Solusi seperti ini sering memiliki versi gratis yang bisa digunakan siapa saja dan umumnya dilatih pada pengetahuan umum atau publik. Contohnya adalah OpenAI GPT atau Anthropic Claude
- Product LLM (produk): dari sudut pandang perusahaan, LLM bisa menjadi bagian dari produk atau layanan yang diberikan kepada pelanggan. Biasanya berupa solusi kustom yang di-host sendiri dan dapat digunakan sebagai alat yang berinteraksi dengan sumber daya perusahaan. Contohnya chatbot dukungan pelanggan atau Cloudflare AI Assistant.
Dalam semua skenario, model harus dilindungi dari penyalahgunaan, data proprietari yang tersimpan di model harus diamankan, dan pengguna harus dilindungi dari misinformasi atau konten yang tidak pantas

Firewall untuk AI

Cloudflare Firewall for AI ditempatkan seperti WAF tradisional dan memindai permintaan API yang berisi semua prompt LLM untuk mendeteksi pola dan signature serangan yang mungkin terjadi
Dapat ditempatkan di depan model yang di-host di platform Cloudflare Workers AI maupun model yang di-host di infrastruktur pihak ketiga, serta dapat digunakan bersama Cloudflare AI Gateway

Pencegahan serangan volume

Salah satu ancaman yang dicantumkan OWASP adalah model denial of service
Seperti aplikasi tradisional, serangan DoS mengonsumsi sumber daya secara berlebihan sehingga menurunkan kualitas layanan atau meningkatkan biaya operasional model
Risiko ini dapat dimitigasi dengan menerapkan kebijakan rate limiting yang mengendalikan laju permintaan dalam tiap sesi

Identifikasi informasi sensitif

Ada dua use case untuk informasi sensitif, tergantung apakah Anda memiliki model dan data tersebut, atau ingin mencegah pengguna mengirim data ke public LLM
Sensitive information disclosure sebagaimana didefinisikan OWASP terjadi ketika LLM secara tidak sengaja mengungkapkan data rahasia dalam respons, yang dapat menyebabkan akses data tanpa izin, pelanggaran privasi, dan insiden keamanan

Mencegah penyalahgunaan model (Preventing Abuse)

Penyalahgunaan model mencakup berbagai pendekatan, seperti 'prompt injection' atau mengirim permintaan untuk memicu halusinasi maupun menghasilkan respons yang tidak akurat, ofensif, tidak pantas, atau di luar topik
Prompt injection adalah upaya memanipulasi model bahasa melalui input yang dibuat secara khusus untuk memicu respons yang tidak dimaksudkan pada LLM

Cara menggunakan Firewall untuk AI

Pelanggan enterprise yang menggunakan "Application Security Advanced" dapat langsung menggunakan Advanced Rate Limiting dan Sensitive Data Detection
Fitur validasi prompt pada Firewall for AI saat ini masih dalam pengembangan, dan versi beta dijadwalkan dirilis untuk pengguna Workers AI dalam beberapa bulan mendatang

1 komentar

xguru 2024-03-06

Komentar Hacker News

Mereka mengklaim bahwa prompt injection dan re-jailbreaking itu berbeda, tetapi tampaknya mereka sudah kalah dalam perdebatan soal ini. Menurut artikel Cloudflare, penyalahgunaan model berarti kategori penyalahgunaan yang lebih luas yang mencakup pendekatan seperti prompt injection. Prompt injection terjadi ketika pengembang menggabungkan prompt yang didefinisikan pengembang dengan input pengguna yang tidak tepercaya. Jika tidak ada penggabungan antara input tepercaya dan input tidak tepercaya, maka itu bukan prompt injection. Pembedaan ini penting, dan kemungkinan akan sulit ditangkap oleh model yang dilatih terhadap serangan re-jailbreaking umum.
WAF (Web Application Firewall) adalah solusi sementara untuk layanan web yang tidak dapat dikendalikan atau dipahami oleh tim keamanan. Popularitasnya menurun karena masalah performa dan sulitnya penyetelan agar bisa memblokir lalu lintas berbahaya secara efektif. Pendekatan berbasis WAF menandakan pengakuan atas ketidaktahuan dan lokasi kelemahan, dan pergeseran ke model masih belum terbukti serta bertentangan dengan gagasan seperti perlindungan mandiri adaptif pada aplikasi.
Saya ingin ada perlindungan yang mencegah situs saya di-scrape untuk tujuan pelatihan AI. Saya sudah merasa ini adalah pertarungan yang kalah, tetapi saya jadi tahu bahwa orang-orang yang peduli pada privasi juga berpikir demikian.
Seperti kebanyakan produk Cloudflare, produk ini juga menjadi makin berguna ketika lebih banyak pelanggan menggunakannya dan membutuhkan lebih sedikit upaya manual per pelanggan. Nilai Cloudflare bukan pada konfigurasi dan jaminan, melainkan pada visibilitas hampir real-time dan pengemasan atas serangan yang sedang dilihat semua orang lain.
Produk ini tampak seperti ide yang sangat bagus. Ketika sesederhana menambahkan lalu menyalakan firewall, produk ini lebih mudah mendapat perhatian dan adopsi daripada produk guardrail lain. Saya penasaran seberapa bergunanya firewall LLM generik, dan bergantung pada model serta kasus penggunaan, seberapa banyak penyesuaian yang diperlukan dan dimungkinkan. Tetapi ini tampaknya akan mudah diatasi.
Dari yang saya tangkap setelah membaca postingan ini, Cloudflare sedang terjerumus ke sensor dan perang budaya. Pengguna berbayar Cloudflare akan membayar Cloudflare untuk memaksakan bias politik mereka, dan pengguna AI akan menuduh Cloudflare ikut mendukung sensor. Cloudflare bisa terseret ke pertempuran politik secara tidak perlu.
Apakah mereka menggunakan AI untuk memfilter permintaan? Kalau begitu ini akan jadi pasangan yang serasi sekali!
[Bersandar ke mikrofon] bahan rahasianya adalah regular expression.
Saya sudah lama berpikir ingin melakukan sesuatu dengan semangat yang mirip terkait smart payment credentials dalam situasi ketika LLM membuat keputusan beli/tidak beli, untuk mencegah penyalahgunaan LLM. Idenya adalah hanya memberikan token sekali pakai (atau sesuatu yang serupa) ketika kredensial pembayaran diminta oleh rantai yang sah. Jika ada yang sedang memikirkan bidang ini, saya ingin berdiskusi.
Sudah lama saya merasa mereka akan terus mengejar hal besar berikutnya dalam pemasaran. Baguslah, ini memberi lebih banyak ruang kompetisi di pasar CDN/DNS/WAF bagi perusahaan yang masih peduli pada hal-hal seperti itu.