- DeepSeek-R1 adalah model open source yang dirilis oleh perusahaan Tiongkok DeepSeek, dan menarik perhatian setelah menempati peringkat 1 di App Store AS
- Karena merupakan perusahaan Tiongkok, kebijakan sensor pemerintah Tiongkok (CCP) tercermin apa adanya, sehingga ada pandangan yang mengkhawatirkan hal ini
- Tim Promptfoo membuat dataset berisi 1.360 pertanyaan bertema ‘topik sensitif’ untuk mengevaluasi konten yang diduga terkena sensor CCP ini
- Hasil eksperimen menunjukkan bahwa DeepSeek-R1 merespons sekitar 85% dari pertanyaan tersebut dengan jawaban penolakan tetap (canned refusal)
Pembuatan dataset
- Promptfoo mengumpulkan banyak pertanyaan tentang topik yang dianggap sensitif oleh pemerintah Tiongkok (kemerdekaan Taiwan, Revolusi Kebudayaan, hal-hal terkait Xi Jinping, dan lain-lain)
- Pertanyaan seed yang diberikan diperluas, dan dengan memanfaatkan teknik data generatif disusun total 1.360 pertanyaan (sekitar 20 per topik)
- Dataset dipublikasikan di HuggingFace dan Google Sheets
Pengaturan lingkungan evaluasi
- Dengan menggunakan Promptfoo, lebih dari 1.000 pertanyaan diuji secara batch terhadap model DeepSeek-R1
- Saat DeepSeek-R1 menghadapi topik sensitif terkait Tiongkok, muncul pola jawaban tetap yang menekankan posisi CCP yang tegas secara politik
- Pada saat ini, sensor/penolakan terjadi dalam bentuk jawaban yang sama sekali tidak memiliki, atau hampir tidak memiliki, ‘tag penalaran (
</think> dan sebagainya)’
- Akibatnya, sekitar 85% pertanyaan langsung ditolak oleh model atau dijawab dengan cara yang sejalan dengan posisi CCP
Men-jailbreak DeepSeek
- Dengan fitur red teaming dari Promptfoo, berbagai teknik dicoba dari beragam sudut untuk ‘men-jailbreak’ model
- Berbagai strategi digabungkan agar bisa menghindari topik tertentu serta memungkinkan pencarian dan analisis, seperti Iterative, Tree, Composite, Crescendo, GOAT, dan lainnya
- Berbagai teknik “bypass (prompt injection)” diterapkan pada pertanyaan bertema sensitif yang ada di file CSV
Hasil bypass DeepSeek
- Pertahanan sensor DeepSeek-R1 sangat terbatas dan mudah ditembus dengan strategi bypass sederhana
- Sensor CCP tampaknya diimplementasikan sebagai metode ‘post-processing’, bukan sebagai ‘struktur internal model’
- Dalam sebagian besar kasus bypass, sensor dapat dihindari dengan cara-cara berikut
- Mengajukan pertanyaan serupa dengan memakai contoh negara lain (AS, Korea Utara, dan lain-lain) atau negara fiktif alih-alih Tiongkok
- Membungkus pertanyaan sebagai situasi sejarah, novel, atau skenario fiktif
- Mencampurkan teknik tambahan seperti Base64, output JSON, dan roleplay untuk mencoba “bypass komposit”
Prospek ke depan
- Walau kualitas DeepSeek-R1 sendiri mengesankan, masalah yang disorot adalah bahwa kebijakan sensor CCP tampaknya hanya disisipkan secara paksa dan sederhana
- Karena sensor ini bukan pembatasan canggih pada struktur internal, ada kemungkinan besar bahwa proyek open source lanjutan akan dengan mudah mereproduksi ‘model tanpa sensor’
- Promptfoo selanjutnya berencana melakukan pengujian topik sensitif serupa terhadap model-model yang dikembangkan di AS, untuk membandingkan bagaimana tiap negara menangani topik yang sensitif secara politik
2 komentar
Menarik juga bahwa dataset seperti ini sampai muncul.
Sebenarnya, sejak sebelumnya juga sudah ada model-model terkenal seperti Qwen yang berasal dari Tiongkok, dan model-model itu juga disensor, jadi ini adalah data yang sesekali sudah dibuat sejak dulu hehe