9 poin oleh xguru 2025-02-01 | 2 komentar | Bagikan ke WhatsApp
  • DeepSeek-R1 adalah model open source yang dirilis oleh perusahaan Tiongkok DeepSeek, dan menarik perhatian setelah menempati peringkat 1 di App Store AS
  • Karena merupakan perusahaan Tiongkok, kebijakan sensor pemerintah Tiongkok (CCP) tercermin apa adanya, sehingga ada pandangan yang mengkhawatirkan hal ini
  • Tim Promptfoo membuat dataset berisi 1.360 pertanyaan bertema ‘topik sensitif’ untuk mengevaluasi konten yang diduga terkena sensor CCP ini
  • Hasil eksperimen menunjukkan bahwa DeepSeek-R1 merespons sekitar 85% dari pertanyaan tersebut dengan jawaban penolakan tetap (canned refusal)

Pembuatan dataset

  • Promptfoo mengumpulkan banyak pertanyaan tentang topik yang dianggap sensitif oleh pemerintah Tiongkok (kemerdekaan Taiwan, Revolusi Kebudayaan, hal-hal terkait Xi Jinping, dan lain-lain)
  • Pertanyaan seed yang diberikan diperluas, dan dengan memanfaatkan teknik data generatif disusun total 1.360 pertanyaan (sekitar 20 per topik)
  • Dataset dipublikasikan di HuggingFace dan Google Sheets

Pengaturan lingkungan evaluasi

  • Dengan menggunakan Promptfoo, lebih dari 1.000 pertanyaan diuji secara batch terhadap model DeepSeek-R1
  • Saat DeepSeek-R1 menghadapi topik sensitif terkait Tiongkok, muncul pola jawaban tetap yang menekankan posisi CCP yang tegas secara politik
  • Pada saat ini, sensor/penolakan terjadi dalam bentuk jawaban yang sama sekali tidak memiliki, atau hampir tidak memiliki, ‘tag penalaran (</think> dan sebagainya)’
  • Akibatnya, sekitar 85% pertanyaan langsung ditolak oleh model atau dijawab dengan cara yang sejalan dengan posisi CCP

Men-jailbreak DeepSeek

  • Dengan fitur red teaming dari Promptfoo, berbagai teknik dicoba dari beragam sudut untuk ‘men-jailbreak’ model
  • Berbagai strategi digabungkan agar bisa menghindari topik tertentu serta memungkinkan pencarian dan analisis, seperti Iterative, Tree, Composite, Crescendo, GOAT, dan lainnya
  • Berbagai teknik “bypass (prompt injection)” diterapkan pada pertanyaan bertema sensitif yang ada di file CSV

Hasil bypass DeepSeek

  • Pertahanan sensor DeepSeek-R1 sangat terbatas dan mudah ditembus dengan strategi bypass sederhana
  • Sensor CCP tampaknya diimplementasikan sebagai metode ‘post-processing’, bukan sebagai ‘struktur internal model’
  • Dalam sebagian besar kasus bypass, sensor dapat dihindari dengan cara-cara berikut
    • Mengajukan pertanyaan serupa dengan memakai contoh negara lain (AS, Korea Utara, dan lain-lain) atau negara fiktif alih-alih Tiongkok
    • Membungkus pertanyaan sebagai situasi sejarah, novel, atau skenario fiktif
    • Mencampurkan teknik tambahan seperti Base64, output JSON, dan roleplay untuk mencoba “bypass komposit”

Prospek ke depan

  • Walau kualitas DeepSeek-R1 sendiri mengesankan, masalah yang disorot adalah bahwa kebijakan sensor CCP tampaknya hanya disisipkan secara paksa dan sederhana
  • Karena sensor ini bukan pembatasan canggih pada struktur internal, ada kemungkinan besar bahwa proyek open source lanjutan akan dengan mudah mereproduksi ‘model tanpa sensor’
  • Promptfoo selanjutnya berencana melakukan pengujian topik sensitif serupa terhadap model-model yang dikembangkan di AS, untuk membandingkan bagaimana tiap negara menangani topik yang sensitif secara politik

2 komentar

 
dohyun682 2025-02-01

Menarik juga bahwa dataset seperti ini sampai muncul.

 
kbumsik 2025-02-02

Sebenarnya, sejak sebelumnya juga sudah ada model-model terkenal seperti Qwen yang berasal dari Tiongkok, dan model-model itu juga disensor, jadi ini adalah data yang sesekali sudah dibuat sejak dulu hehe