1.156 Pertanyaan yang Disensor oleh DeepSeek

xguru · 2025-02-01T10:02:02+09:00

DeepSeek-R1 adalah model open source yang dirilis oleh perusahaan Tiongkok DeepSeek, dan menarik perhatian setelah menempati peringkat 1 di App Store AS Karena merupakan perusahaan Tiongkok, kebijakan sensor pemerintah Tiongkok (CCP) tercermin apa adanya, sehingga ada pandangan yang mengkhawatirkan hal ini Tim Promptfoo membuat dataset berisi 1.360 pertanyaan bertema ‘topik sensitif’ untuk mengevaluasi konten yang diduga terkena sensor CCP ini Hasil eksperimen menunjukkan bahwa DeepSeek-R1 merespons sekitar 85% dari pertanyaan tersebut dengan jawaban penolakan tetap (canned refusal) Pembuatan dataset Promptfoo mengumpulkan banyak pertanyaan tentang topik yang dianggap sensitif oleh pemerintah Tiongkok (kemerdekaan Taiwan, Revolusi Kebudayaan, hal-hal terkait Xi Jinping, dan lain-lain) Pertanyaan seed yang diberikan diperluas, dan dengan memanfaatkan teknik data generatif disusun total 1.360 pertanyaan (sekitar 20 per topik) Dataset dipublikasikan di HuggingFace dan Google Sheets Pengaturan lingkungan evaluasi Dengan menggunakan Promptfoo, lebih dari 1.000 pertanyaan diuji secara batch terhadap model DeepSeek-R1 Saat DeepSeek-R1 menghadapi topik sensitif terkait Tiongkok, muncul pola jawaban tetap yang menekankan posisi CCP yang tegas secara politik Pada saat ini, sensor/penolakan terjadi dalam bentuk jawaban yang sama sekali tidak memiliki, atau hampir tidak memiliki, ‘tag penalaran ( dan sebagainya)’ Akibatnya, sekitar 85% pertanyaan langsung ditolak oleh model atau dijawab dengan cara yang sejalan dengan posisi CCP Men-jailbreak DeepSeek Dengan fitur red teaming dari Promptfoo, berbagai teknik dicoba dari beragam sudut untuk ‘men-jailbreak’ model Berbagai strategi digabungkan agar bisa menghindari topik tertentu serta memungkinkan pencarian dan analisis, seperti Iterative, Tree, Composite, Crescendo, GOAT, dan lainnya Berbagai teknik “bypass (prompt injection)” diterapkan pada pertanyaan bertema sensitif yang ada di file CSV Hasil bypass DeepSeek Pertahanan sensor DeepSeek-R1 sangat terbatas dan mudah ditembus dengan strategi bypass sederhana Sensor CCP tampaknya diimplementasikan sebagai metode ‘post-processing’, bukan sebagai ‘struktur internal model’ Dalam sebagian besar kasus bypass, sensor dapat dihindari dengan cara-cara berikut Mengajukan pertanyaan serupa dengan memakai contoh negara lain (AS, Korea Utara, dan lain-lain) atau negara fiktif alih-alih Tiongkok Membungkus pertanyaan sebagai situasi sejarah, novel, atau skenario fiktif Mencampurkan teknik tambahan seperti Base64, output JSON, dan roleplay untuk mencoba “bypass komposit” Prospek ke depan Walau kualitas DeepSeek-R1 sendiri mengesankan, masalah yang disorot adalah bahwa kebijakan sensor CCP tampaknya hanya disisipkan secara paksa dan sederhana Karena sensor ini bukan pembatasan canggih pada struktur internal, ada kemungkinan besar bahwa proyek open source lanjutan akan dengan mudah mereproduksi ‘model tanpa sensor’ Promptfoo selanjutnya berencana melakukan pengujian topik sensitif serupa terhadap model-model yang dikembangkan di AS, untuk membandingkan bagaimana tiap negara menangani topik yang sensitif secara politik

(promptfoo.dev)

9 poin oleh xguru 2025-02-01 | 2 komentar | Bagikan ke WhatsApp

DeepSeek-R1 adalah model open source yang dirilis oleh perusahaan Tiongkok DeepSeek, dan menarik perhatian setelah menempati peringkat 1 di App Store AS
Karena merupakan perusahaan Tiongkok, kebijakan sensor pemerintah Tiongkok (CCP) tercermin apa adanya, sehingga ada pandangan yang mengkhawatirkan hal ini
Tim Promptfoo membuat dataset berisi 1.360 pertanyaan bertema ‘topik sensitif’ untuk mengevaluasi konten yang diduga terkena sensor CCP ini
Hasil eksperimen menunjukkan bahwa DeepSeek-R1 merespons sekitar 85% dari pertanyaan tersebut dengan jawaban penolakan tetap (canned refusal)

Pembuatan dataset

Promptfoo mengumpulkan banyak pertanyaan tentang topik yang dianggap sensitif oleh pemerintah Tiongkok (kemerdekaan Taiwan, Revolusi Kebudayaan, hal-hal terkait Xi Jinping, dan lain-lain)
Pertanyaan seed yang diberikan diperluas, dan dengan memanfaatkan teknik data generatif disusun total 1.360 pertanyaan (sekitar 20 per topik)
Dataset dipublikasikan di HuggingFace dan Google Sheets

Pengaturan lingkungan evaluasi

Dengan menggunakan Promptfoo, lebih dari 1.000 pertanyaan diuji secara batch terhadap model DeepSeek-R1
Saat DeepSeek-R1 menghadapi topik sensitif terkait Tiongkok, muncul pola jawaban tetap yang menekankan posisi CCP yang tegas secara politik
Pada saat ini, sensor/penolakan terjadi dalam bentuk jawaban yang sama sekali tidak memiliki, atau hampir tidak memiliki, ‘tag penalaran (</think> dan sebagainya)’
Akibatnya, sekitar 85% pertanyaan langsung ditolak oleh model atau dijawab dengan cara yang sejalan dengan posisi CCP

Men-jailbreak DeepSeek

Dengan fitur red teaming dari Promptfoo, berbagai teknik dicoba dari beragam sudut untuk ‘men-jailbreak’ model
Berbagai strategi digabungkan agar bisa menghindari topik tertentu serta memungkinkan pencarian dan analisis, seperti Iterative, Tree, Composite, Crescendo, GOAT, dan lainnya
Berbagai teknik “bypass (prompt injection)” diterapkan pada pertanyaan bertema sensitif yang ada di file CSV

Hasil bypass DeepSeek

Pertahanan sensor DeepSeek-R1 sangat terbatas dan mudah ditembus dengan strategi bypass sederhana
Sensor CCP tampaknya diimplementasikan sebagai metode ‘post-processing’, bukan sebagai ‘struktur internal model’
Dalam sebagian besar kasus bypass, sensor dapat dihindari dengan cara-cara berikut
- Mengajukan pertanyaan serupa dengan memakai contoh negara lain (AS, Korea Utara, dan lain-lain) atau negara fiktif alih-alih Tiongkok
- Membungkus pertanyaan sebagai situasi sejarah, novel, atau skenario fiktif
- Mencampurkan teknik tambahan seperti Base64, output JSON, dan roleplay untuk mencoba “bypass komposit”

Prospek ke depan

Walau kualitas DeepSeek-R1 sendiri mengesankan, masalah yang disorot adalah bahwa kebijakan sensor CCP tampaknya hanya disisipkan secara paksa dan sederhana
Karena sensor ini bukan pembatasan canggih pada struktur internal, ada kemungkinan besar bahwa proyek open source lanjutan akan dengan mudah mereproduksi ‘model tanpa sensor’
Promptfoo selanjutnya berencana melakukan pengujian topik sensitif serupa terhadap model-model yang dikembangkan di AS, untuk membandingkan bagaimana tiap negara menangani topik yang sensitif secara politik

2 komentar

dohyun682 2025-02-01

Menarik juga bahwa dataset seperti ini sampai muncul.

kbumsik 2025-02-02

Sebenarnya, sejak sebelumnya juga sudah ada model-model terkenal seperti Qwen yang berasal dari Tiongkok, dan model-model itu juga disensor, jadi ini adalah data yang sesekali sudah dibuat sejak dulu hehe