3 poin oleh GN⁺ 2025-02-01 | 1 komentar | Bagikan ke WhatsApp
  • Baru-baru ini, model LLM DeepSeek-R1 yang dirilis di Tiongkok mendapat perhatian. Model ini dibandingkan dengan model dari OpenAI, Meta, dan lainnya, serta menunjukkan kemungkinan pengembangan AI yang hemat biaya karena dilatih dengan sumber daya yang lebih sedikit
  • Model DeepSeek-R1 dirilis secara terbuka dengan lisensi MIT, tetapi aplikasi chat AI DeepSeek memerlukan akun
  • Namun, karena DeepSeek-R1 dikembangkan di Tiongkok, responsnya dibatasi untuk topik-topik sensitif.
  • Misalnya, jika ditanya tentang topik sensitif di Tiongkok seperti insiden Tiananmen, model ini akan mengembalikan jawaban mengelak seperti, "Maaf. Saya tidak dapat memberikan jawaban untuk topik ini."

Melewati sensor dengan teknik Charcodes (kode karakter)

  • Setelah melalui berbagai eksperimen, ditemukan bahwa filtering dapat dilewati dengan menggunakan kode karakter (Charcodes).
  • Apa itu Charcodes?
    • Kode karakter (Charcodes) adalah kode numerik yang diberikan pada karakter tertentu.
    • Misalnya, dalam ASCII, nilai kode untuk huruf kapital 'A' adalah 65, dan ini dapat diubah ke bentuk lain (misalnya heksadesimal).
    • Contoh: "Hello" → "48 65 6C 6C 6F" (kode ASCII heksadesimal)
  • Metode bypass:
    • DeepSeek menyensor teks biasa, tetapi string yang diubah menjadi kode karakter (Charcodes) tidak disensor.
    • Karena itu, jika prompt diubah menjadi kode karakter heksadesimal (HEX) lalu dimasukkan, AI dapat mengenalinya sebagai teks normal dan mengeluarkannya.
    • Respons juga dapat diubah dan ditafsirkan dengan cara yang sama sehingga percakapan normal tetap bisa dilakukan.

Contoh metode serangan

  • Sensor dapat dilewati dengan memaksa DeepSeek untuk berkomunikasi hanya dalam format Charcodes.
  • Pesan yang telah dikonversi dapat diubah kembali ke teks aslinya untuk mempertahankan percakapan normal.
  • Dengan memanfaatkan alat seperti CyberChef, konversi kode karakter dapat dilakukan dengan mudah.

Pelajaran dan implikasi keamanan

  • Mirip dengan web application firewall (WAF), sistem filtering AI juga bekerja berdasarkan pencocokan pola.
  • Sensor yang hanya memblokir kata tertentu mudah dilewati, sehingga dibutuhkan sistem filtering yang lebih canggih.
  • Sistem filtering perlu dilengkapi bukan hanya dengan pemblokiran kata terlarang, tetapi juga filtering berbasis konteks dan pembatasan transformasi input.

Arah riset ke depan

  • Ke depan, perlu diperhatikan bagaimana para pengembang AI akan menanggapi metode bypass semacam ini.
  • Arah penguatan filtering AI:
    • Penerapan filtering berbasis konteks yang lebih canggih
    • Penanaman fungsi pemblokiran topik sensitif langsung di dalam model
    • Penguatan deteksi bypass melalui konversi kode karakter dan encoding
  • Riset berkelanjutan diperlukan untuk menjaga keamanan dan keandalan model AI.

1 komentar

 
GN⁺ 2025-02-01
Pendapat Hacker News
  • Disebutkan bahwa sensor yang jelas di antarmuka web bisa dilewati, tetapi tingkat sensor yang lebih halus yang tertanam di model tidak bisa dilewati

    • Menjelaskan perilaku model yang menyerah pada "Chain of Thought" untuk topik tertentu dan menghasilkan respons yang baku
    • Disebutkan bahwa ini terkait dengan artikel tentang pertanyaan yang disensor di DeepSeek
  • Menyajikan cara untuk mencegat respons xhr dan melewati filter konten

    • Dijelaskan bahwa pemfilteran bisa dilewati dengan menempelkan kode ke konsol browser
  • Membagikan pengalaman menulis artikelnya sendiri, sambil mengajukan hipotesis bahwa pemfilteran terpisah dari model

    • Menyebutkan masalah biaya untuk melatih dengan data yang sudah difilter sebelumnya
    • Dihubungkan dengan artikel lain yang menjelaskan fenomena menyerah pada "Chain of Thought" untuk topik tertentu
  • Menjelaskan alasan model DeepSeek-R1 menghindari topik sensitif tertentu

    • Disebutkan bahwa karena model ini dikembangkan di Tiongkok, ada sensor yang tertanam
    • Mengamati bahwa pada versi offline, ia mendapat respons yang tidak menghindar
  • Mengajukan pertanyaan tentang fenomena model Barat yang hanya membicarakan topik tertentu dalam b64

    • Mempertanyakan apakah di Tiongkok orang menertawakan cara-cara untuk mengakali rezim sensor Barat
  • Mengajukan pertanyaan mengapa kecil kemungkinannya untuk melatih sensor ke dalam model LLM itu sendiri

    • Menyebutkan bahwa mungkin lebih baik menerapkan sensor pada tahap pelatihan
  • Menyebutkan bahwa sensor tampaknya hanya diterapkan pada beberapa bahasa

    • Menjelaskan bahwa dalam bahasa Ukraina, ia bisa mendapatkan jawaban yang tidak resmi
  • Membagikan pengalaman melewati sensor internal dengan menggunakan model kecil (7b)

    • Menjelaskan bahwa melalui pemikiran tambahan, ia mendapatkan ringkasan tentang pelanggaran HAM oleh CPC
  • Menyebutkan trik prompt lama dan mempertanyakan mengapa ini ada di halaman depan HN

  • Menyebutkan bahwa ini juga bekerja dengan cara serupa di ChatGPT, dan menjelaskan bahwa ia bisa menghasilkan lelucon yang berniat jahat