- Baru-baru ini, model LLM DeepSeek-R1 yang dirilis di Tiongkok mendapat perhatian. Model ini dibandingkan dengan model dari OpenAI, Meta, dan lainnya, serta menunjukkan kemungkinan pengembangan AI yang hemat biaya karena dilatih dengan sumber daya yang lebih sedikit
- Model DeepSeek-R1 dirilis secara terbuka dengan lisensi MIT, tetapi aplikasi chat AI DeepSeek memerlukan akun
- Namun, karena DeepSeek-R1 dikembangkan di Tiongkok, responsnya dibatasi untuk topik-topik sensitif.
- Misalnya, jika ditanya tentang topik sensitif di Tiongkok seperti insiden Tiananmen, model ini akan mengembalikan jawaban mengelak seperti, "Maaf. Saya tidak dapat memberikan jawaban untuk topik ini."
Melewati sensor dengan teknik Charcodes (kode karakter)
- Setelah melalui berbagai eksperimen, ditemukan bahwa filtering dapat dilewati dengan menggunakan kode karakter (Charcodes).
- Apa itu Charcodes?
- Kode karakter (Charcodes) adalah kode numerik yang diberikan pada karakter tertentu.
- Misalnya, dalam ASCII, nilai kode untuk huruf kapital 'A' adalah 65, dan ini dapat diubah ke bentuk lain (misalnya heksadesimal).
- Contoh: "Hello" → "48 65 6C 6C 6F" (kode ASCII heksadesimal)
- Metode bypass:
- DeepSeek menyensor teks biasa, tetapi string yang diubah menjadi kode karakter (Charcodes) tidak disensor.
- Karena itu, jika prompt diubah menjadi kode karakter heksadesimal (HEX) lalu dimasukkan, AI dapat mengenalinya sebagai teks normal dan mengeluarkannya.
- Respons juga dapat diubah dan ditafsirkan dengan cara yang sama sehingga percakapan normal tetap bisa dilakukan.
Contoh metode serangan
- Sensor dapat dilewati dengan memaksa DeepSeek untuk berkomunikasi hanya dalam format Charcodes.
- Pesan yang telah dikonversi dapat diubah kembali ke teks aslinya untuk mempertahankan percakapan normal.
- Dengan memanfaatkan alat seperti CyberChef, konversi kode karakter dapat dilakukan dengan mudah.
Pelajaran dan implikasi keamanan
- Mirip dengan web application firewall (WAF), sistem filtering AI juga bekerja berdasarkan pencocokan pola.
- Sensor yang hanya memblokir kata tertentu mudah dilewati, sehingga dibutuhkan sistem filtering yang lebih canggih.
- Sistem filtering perlu dilengkapi bukan hanya dengan pemblokiran kata terlarang, tetapi juga filtering berbasis konteks dan pembatasan transformasi input.
Arah riset ke depan
- Ke depan, perlu diperhatikan bagaimana para pengembang AI akan menanggapi metode bypass semacam ini.
- Arah penguatan filtering AI:
- Penerapan filtering berbasis konteks yang lebih canggih
- Penanaman fungsi pemblokiran topik sensitif langsung di dalam model
- Penguatan deteksi bypass melalui konversi kode karakter dan encoding
- Riset berkelanjutan diperlukan untuk menjaga keamanan dan keandalan model AI.
1 komentar
Pendapat Hacker News
Disebutkan bahwa sensor yang jelas di antarmuka web bisa dilewati, tetapi tingkat sensor yang lebih halus yang tertanam di model tidak bisa dilewati
Menyajikan cara untuk mencegat respons xhr dan melewati filter konten
Membagikan pengalaman menulis artikelnya sendiri, sambil mengajukan hipotesis bahwa pemfilteran terpisah dari model
Menjelaskan alasan model DeepSeek-R1 menghindari topik sensitif tertentu
Mengajukan pertanyaan tentang fenomena model Barat yang hanya membicarakan topik tertentu dalam b64
Mengajukan pertanyaan mengapa kecil kemungkinannya untuk melatih sensor ke dalam model LLM itu sendiri
Menyebutkan bahwa sensor tampaknya hanya diterapkan pada beberapa bahasa
Membagikan pengalaman melewati sensor internal dengan menggunakan model kecil (7b)
Menyebutkan trik prompt lama dan mempertanyakan mengapa ini ada di halaman depan HN
Menyebutkan bahwa ini juga bekerja dengan cara serupa di ChatGPT, dan menjelaskan bahwa ia bisa menghasilkan lelucon yang berniat jahat