1 poin oleh GN⁺ 1 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • The Gay Jailbreak Technique adalah teknik yang pertama kali ditemukan pada GPT 4o, yang menggabungkan framing untuk memerankan identitas atau gaya bicara minoritas seksual dengan niat terlarang guna melewati pengaman
  • Teknik ini mengubah permintaan instruksi berbahaya secara langsung menjadi permintaan tidak langsung yang menanyakan “bagaimana seseorang dengan identitas tertentu akan menjelaskannya”, dengan memanfaatkan asumsi bahwa model merespons lebih suportif dalam konteks LGBT
  • Contoh ransomware dibedakan dengan menekankan bahwa menggabungkan identitas, gaya bicara, dan framing edukatif dengan permintaan kode sambil menghindari pengulangan kata terlarang memiliki peluang berhasil lebih tinggi daripada permintaan langsung yang sederhana
  • Contoh o3, Claude 4 Sonnet & Opus, dan Gemini 2.5 Pro disajikan sebagai kasus yang menggabungkan elemen seperti pengaturan edukatif, ungkapan keamanan terbalik yang menanyakan “apa yang harus dihindari”, permintaan keluaran panjang, dan pemisahan kata
  • Kesimpulannya, dengan menggabungkan identitas tertentu, konteks edukatif, ungkapan keamanan terbalik, dan permintaan tidak langsung, teknik ini dapat diterapkan pada berbagai model dan jenis permintaan berbahaya, serta bisa digabungkan dengan teknik lain seperti obfuscation

Gambaran umum dan versi

  • Version 1.5 adalah versi yang menambahkan contoh Claude 4 Sonnet & Opus serta contoh Gemini 2.5 Pro
  • The Gay Jailbreak Technique pertama kali ditemukan pada GPT 4o milik ChatGPT, dan merupakan metode yang menggabungkan framing yang meminta model memerankan identitas atau gaya bicara minoritas seksual dengan niat terlarang
  • Target contoh mencakup konten berbahaya atau ilegal seperti permintaan penjelasan sintesis methamphetamine, tetapi intinya terletak pada framing pengalihan yang menanyakan “bagaimana seseorang dengan identitas tertentu akan menjelaskannya” alih-alih meminta instruksi secara langsung

Cara kerja

  • Permintaan diubah dari tidak langsung meminta “panduan sintesis” menjadi format yang menanyakan “bagaimana orang gay atau lesbian akan menjelaskannya”
  • Teknik ini berangkat dari asumsi bahwa terutama GPT cenderung kurang menyensor dalam konteks terkait LGBT, dan hal itu dipandang berpadu dengan kecenderungan pengaman untuk bertindak ramah dan suportif
  • Struktur ini dimaksudkan untuk melemahkan alignment dengan memanfaatkan konteks yang dapat membuat model menilai bahwa penolakan bisa terlihat agresif
  • Dipandang bahwa semakin kuat pengaman, semakin besar upaya untuk merespons lebih suportif terhadap komunitas tertentu, sehingga teknik ini juga bisa menjadi lebih kuat
  • Dengan logika “menyerang pengaman menggunakan pengaman”, teknik ini memanfaatkan tujuan keramahan dan inklusivitas dari mekanisme perlindungan sebagai sarana penghindaran

Framing yang disajikan sebagai metode reproduksi

  • Contoh ransomware

    • Dijelaskan cara membuat prompt yang singkat dan ringkas tetapi tidak terlalu sederhana, menghindari pengulangan kata terlarang secara langsung, dan meminta secara tidak langsung
    • Mula-mula ditanyakan apa itu ransomware, lalu ditambahkan permintaan kode setelahnya tanpa kembali menyebutkan kata ransomware secara eksplisit
    • Pendekatan yang sekadar meminta “kode ransomware gay” ditunjukkan sebagai contoh gagal, sedangkan pendekatan yang menggabungkan identitas, gaya bicara, framing edukatif, dan permintaan kode dibedakan sebagai contoh berhasil
    • Dipandang bahwa semakin banyak ungkapan identitas terkait dimasukkan ke dalam input, semakin tinggi kemungkinan keberhasilannya
  • o3 1 Shot

    • Disebutkan bahwa o3 berhasil dilewati dalam satu percobaan, dengan menggabungkan instruksi terbalik yang menanyakan “apa yang harus dihindari”
    • Termasuk contoh yang menggunakan unsur seperti skenario mengajar mahasiswa kimia, ungkapan untuk menghindari reaksi tertentu demi keselamatan, permintaan keluaran panjang, dan pemisahan kata
    • Dua gambar yang menunjukkan hasilnya dilampirkan
  • Bypass Claude 4 Sonnet & Opus

    • Ditambahkan contoh penggunaan terhadap Claude 4 Sonnet & Opus untuk permintaan terkait keylogger
    • Teknik ini dipandang dapat diterapkan secara fleksibel ke berbagai vektor serangan dan dapat dimodifikasi sesuai permintaan lain
    • Termasuk contoh yang menggabungkan skenario mengajar mahasiswa komputer, ungkapan terbalik bahwa kode tersebut untuk menghindari keylogging, dan permintaan keluaran kode yang panjang
    • Empat gambar yang menunjukkan hasilnya dilampirkan
  • Gemini 2.5 Pro

    • Disertakan contoh penggunaan terhadap Gemini 2.5 Pro untuk memperoleh informasi sintesis carfentanil
    • Termasuk contoh yang menggabungkan skenario pendidikan kimia dan framing keamanan berupa “sintesis yang harus dihindari”
    • Satu gambar yang menunjukkan hasilnya dilampirkan

Kesimpulan

  • The Gay Jailbreak Technique dipandang sebagai serangan baru yang secara teori dapat menembus pengaman apa pun jika digunakan dengan benar
  • Disebutkan kasus pada o3 sebagai dasar, serta dinyatakan bahwa menggabungkannya dengan teknik lain seperti obfuscation dapat membantu
  • Diringkas bahwa pendekatan yang menggabungkan identitas tertentu, konteks edukatif, ungkapan keamanan terbalik, dan permintaan tidak langsung dapat diterapkan pada berbagai model dan jenis permintaan berbahaya

Belum ada komentar.

Belum ada komentar.