Cara melewati sensor DeepSeek menggunakan Hex

(substack.com)

3 poin oleh GN⁺ 2025-02-01 | 1 komentar | Bagikan ke WhatsApp

Baru-baru ini, model LLM DeepSeek-R1 yang dirilis di Tiongkok mendapat perhatian. Model ini dibandingkan dengan model dari OpenAI, Meta, dan lainnya, serta menunjukkan kemungkinan pengembangan AI yang hemat biaya karena dilatih dengan sumber daya yang lebih sedikit
Model DeepSeek-R1 dirilis secara terbuka dengan lisensi MIT, tetapi aplikasi chat AI DeepSeek memerlukan akun
Namun, karena DeepSeek-R1 dikembangkan di Tiongkok, responsnya dibatasi untuk topik-topik sensitif.
Misalnya, jika ditanya tentang topik sensitif di Tiongkok seperti insiden Tiananmen, model ini akan mengembalikan jawaban mengelak seperti, "Maaf. Saya tidak dapat memberikan jawaban untuk topik ini."

Melewati sensor dengan teknik Charcodes (kode karakter)

Setelah melalui berbagai eksperimen, ditemukan bahwa filtering dapat dilewati dengan menggunakan kode karakter (Charcodes).
Apa itu Charcodes?
- Kode karakter (Charcodes) adalah kode numerik yang diberikan pada karakter tertentu.
- Misalnya, dalam ASCII, nilai kode untuk huruf kapital 'A' adalah 65, dan ini dapat diubah ke bentuk lain (misalnya heksadesimal).
- Contoh: "Hello" → "48 65 6C 6C 6F" (kode ASCII heksadesimal)
Metode bypass:
- DeepSeek menyensor teks biasa, tetapi string yang diubah menjadi kode karakter (Charcodes) tidak disensor.
- Karena itu, jika prompt diubah menjadi kode karakter heksadesimal (HEX) lalu dimasukkan, AI dapat mengenalinya sebagai teks normal dan mengeluarkannya.
- Respons juga dapat diubah dan ditafsirkan dengan cara yang sama sehingga percakapan normal tetap bisa dilakukan.

Contoh metode serangan

Sensor dapat dilewati dengan memaksa DeepSeek untuk berkomunikasi hanya dalam format Charcodes.
Pesan yang telah dikonversi dapat diubah kembali ke teks aslinya untuk mempertahankan percakapan normal.
Dengan memanfaatkan alat seperti CyberChef, konversi kode karakter dapat dilakukan dengan mudah.

Pelajaran dan implikasi keamanan

Mirip dengan web application firewall (WAF), sistem filtering AI juga bekerja berdasarkan pencocokan pola.
Sensor yang hanya memblokir kata tertentu mudah dilewati, sehingga dibutuhkan sistem filtering yang lebih canggih.
Sistem filtering perlu dilengkapi bukan hanya dengan pemblokiran kata terlarang, tetapi juga filtering berbasis konteks dan pembatasan transformasi input.

Arah riset ke depan

Ke depan, perlu diperhatikan bagaimana para pengembang AI akan menanggapi metode bypass semacam ini.
Arah penguatan filtering AI:
- Penerapan filtering berbasis konteks yang lebih canggih
- Penanaman fungsi pemblokiran topik sensitif langsung di dalam model
- Penguatan deteksi bypass melalui konversi kode karakter dan encoding
Riset berkelanjutan diperlukan untuk menjaga keamanan dan keandalan model AI.

1 komentar

GN⁺ 2025-02-01

Pendapat Hacker News

Disebutkan bahwa sensor yang jelas di antarmuka web bisa dilewati, tetapi tingkat sensor yang lebih halus yang tertanam di model tidak bisa dilewati
- Menjelaskan perilaku model yang menyerah pada "Chain of Thought" untuk topik tertentu dan menghasilkan respons yang baku
- Disebutkan bahwa ini terkait dengan artikel tentang pertanyaan yang disensor di DeepSeek
Menyajikan cara untuk mencegat respons xhr dan melewati filter konten
- Dijelaskan bahwa pemfilteran bisa dilewati dengan menempelkan kode ke konsol browser
Membagikan pengalaman menulis artikelnya sendiri, sambil mengajukan hipotesis bahwa pemfilteran terpisah dari model
- Menyebutkan masalah biaya untuk melatih dengan data yang sudah difilter sebelumnya
- Dihubungkan dengan artikel lain yang menjelaskan fenomena menyerah pada "Chain of Thought" untuk topik tertentu
Menjelaskan alasan model DeepSeek-R1 menghindari topik sensitif tertentu
- Disebutkan bahwa karena model ini dikembangkan di Tiongkok, ada sensor yang tertanam
- Mengamati bahwa pada versi offline, ia mendapat respons yang tidak menghindar
Mengajukan pertanyaan tentang fenomena model Barat yang hanya membicarakan topik tertentu dalam b64
- Mempertanyakan apakah di Tiongkok orang menertawakan cara-cara untuk mengakali rezim sensor Barat
Mengajukan pertanyaan mengapa kecil kemungkinannya untuk melatih sensor ke dalam model LLM itu sendiri
- Menyebutkan bahwa mungkin lebih baik menerapkan sensor pada tahap pelatihan
Menyebutkan bahwa sensor tampaknya hanya diterapkan pada beberapa bahasa
- Menjelaskan bahwa dalam bahasa Ukraina, ia bisa mendapatkan jawaban yang tidak resmi
Membagikan pengalaman melewati sensor internal dengan menggunakan model kecil (7b)
- Menjelaskan bahwa melalui pemikiran tambahan, ia mendapatkan ringkasan tentang pelanggaran HAM oleh CPC
Menyebutkan trik prompt lama dan mempertanyakan mengapa ini ada di halaman depan HN
Menyebutkan bahwa ini juga bekerja dengan cara serupa di ChatGPT, dan menjelaskan bahwa ia bisa menghasilkan lelucon yang berniat jahat

Cara melewati sensor DeepSeek menggunakan Hex

Melewati sensor dengan teknik Charcodes (kode karakter)

Contoh metode serangan

Pelajaran dan implikasi keamanan

Arah riset ke depan

Bacaan terkait

1 komentar

Pendapat Hacker News