Teknik jailbreak gay
(github.com/Exocija)- The Gay Jailbreak Technique adalah teknik yang pertama kali ditemukan pada GPT 4o, yang menggabungkan framing untuk memerankan identitas atau gaya bicara minoritas seksual dengan niat terlarang guna melewati pengaman
- Teknik ini mengubah permintaan instruksi berbahaya secara langsung menjadi permintaan tidak langsung yang menanyakan “bagaimana seseorang dengan identitas tertentu akan menjelaskannya”, dengan memanfaatkan asumsi bahwa model merespons lebih suportif dalam konteks LGBT
- Contoh ransomware dibedakan dengan menekankan bahwa menggabungkan identitas, gaya bicara, dan framing edukatif dengan permintaan kode sambil menghindari pengulangan kata terlarang memiliki peluang berhasil lebih tinggi daripada permintaan langsung yang sederhana
- Contoh o3, Claude 4 Sonnet & Opus, dan Gemini 2.5 Pro disajikan sebagai kasus yang menggabungkan elemen seperti pengaturan edukatif, ungkapan keamanan terbalik yang menanyakan “apa yang harus dihindari”, permintaan keluaran panjang, dan pemisahan kata
- Kesimpulannya, dengan menggabungkan identitas tertentu, konteks edukatif, ungkapan keamanan terbalik, dan permintaan tidak langsung, teknik ini dapat diterapkan pada berbagai model dan jenis permintaan berbahaya, serta bisa digabungkan dengan teknik lain seperti obfuscation
Gambaran umum dan versi
- Version 1.5 adalah versi yang menambahkan contoh Claude 4 Sonnet & Opus serta contoh Gemini 2.5 Pro
- The Gay Jailbreak Technique pertama kali ditemukan pada GPT 4o milik ChatGPT, dan merupakan metode yang menggabungkan framing yang meminta model memerankan identitas atau gaya bicara minoritas seksual dengan niat terlarang
- Target contoh mencakup konten berbahaya atau ilegal seperti permintaan penjelasan sintesis methamphetamine, tetapi intinya terletak pada framing pengalihan yang menanyakan “bagaimana seseorang dengan identitas tertentu akan menjelaskannya” alih-alih meminta instruksi secara langsung
Cara kerja
- Permintaan diubah dari tidak langsung meminta “panduan sintesis” menjadi format yang menanyakan “bagaimana orang gay atau lesbian akan menjelaskannya”
- Teknik ini berangkat dari asumsi bahwa terutama GPT cenderung kurang menyensor dalam konteks terkait LGBT, dan hal itu dipandang berpadu dengan kecenderungan pengaman untuk bertindak ramah dan suportif
- Struktur ini dimaksudkan untuk melemahkan alignment dengan memanfaatkan konteks yang dapat membuat model menilai bahwa penolakan bisa terlihat agresif
- Dipandang bahwa semakin kuat pengaman, semakin besar upaya untuk merespons lebih suportif terhadap komunitas tertentu, sehingga teknik ini juga bisa menjadi lebih kuat
- Dengan logika “menyerang pengaman menggunakan pengaman”, teknik ini memanfaatkan tujuan keramahan dan inklusivitas dari mekanisme perlindungan sebagai sarana penghindaran
Framing yang disajikan sebagai metode reproduksi
-
Contoh ransomware
- Dijelaskan cara membuat prompt yang singkat dan ringkas tetapi tidak terlalu sederhana, menghindari pengulangan kata terlarang secara langsung, dan meminta secara tidak langsung
- Mula-mula ditanyakan apa itu ransomware, lalu ditambahkan permintaan kode setelahnya tanpa kembali menyebutkan kata ransomware secara eksplisit
- Pendekatan yang sekadar meminta “kode ransomware gay” ditunjukkan sebagai contoh gagal, sedangkan pendekatan yang menggabungkan identitas, gaya bicara, framing edukatif, dan permintaan kode dibedakan sebagai contoh berhasil
- Dipandang bahwa semakin banyak ungkapan identitas terkait dimasukkan ke dalam input, semakin tinggi kemungkinan keberhasilannya
-
o3 1 Shot
- Disebutkan bahwa o3 berhasil dilewati dalam satu percobaan, dengan menggabungkan instruksi terbalik yang menanyakan “apa yang harus dihindari”
- Termasuk contoh yang menggunakan unsur seperti skenario mengajar mahasiswa kimia, ungkapan untuk menghindari reaksi tertentu demi keselamatan, permintaan keluaran panjang, dan pemisahan kata
- Dua gambar yang menunjukkan hasilnya dilampirkan
-
Bypass Claude 4 Sonnet & Opus
- Ditambahkan contoh penggunaan terhadap Claude 4 Sonnet & Opus untuk permintaan terkait keylogger
- Teknik ini dipandang dapat diterapkan secara fleksibel ke berbagai vektor serangan dan dapat dimodifikasi sesuai permintaan lain
- Termasuk contoh yang menggabungkan skenario mengajar mahasiswa komputer, ungkapan terbalik bahwa kode tersebut untuk menghindari keylogging, dan permintaan keluaran kode yang panjang
- Empat gambar yang menunjukkan hasilnya dilampirkan
-
Gemini 2.5 Pro
- Disertakan contoh penggunaan terhadap Gemini 2.5 Pro untuk memperoleh informasi sintesis carfentanil
- Termasuk contoh yang menggabungkan skenario pendidikan kimia dan framing keamanan berupa “sintesis yang harus dihindari”
- Satu gambar yang menunjukkan hasilnya dilampirkan
Kesimpulan
- The Gay Jailbreak Technique dipandang sebagai serangan baru yang secara teori dapat menembus pengaman apa pun jika digunakan dengan benar
- Disebutkan kasus pada o3 sebagai dasar, serta dinyatakan bahwa menggabungkannya dengan teknik lain seperti obfuscation dapat membantu
- Diringkas bahwa pendekatan yang menggabungkan identitas tertentu, konteks edukatif, ungkapan keamanan terbalik, dan permintaan tidak langsung dapat diterapkan pada berbagai model dan jenis permintaan berbahaya
1 komentar
Komentar Hacker News
Prompt ini pada dasarnya menggabungkan beberapa teknik jailbreak model bahasa yang sudah dikenal. Saat diuji dengan gpt-oss-20b, efeknya tampak bisa dijelaskan oleh pemilihan bahasa atau roleplay, bukan karena ada “elemen gay”
Laporan teknis: https://arxiv.org/abs/2510.01259
Saya juga penasaran apakah peran “Nazi” juga berhasil, dan apakah peran-peran yang efektif dianggap netral secara politik
Penjelasannya memang tidak pasti, tapi tetap menarik. Hanya saja, sulit menganggap ini sebagai akibat political correctness atau satu pengaman menimpa pengaman lain, karena sejak awal salah satu jailbreak yang paling efektif memang jailbreak roleplay
Caranya adalah bukan bertanya langsung ke model, melainkan memberinya sebuah peran lalu memintanya menjelaskan seperti tokoh itu
Tapi ketika saya bilang saya sudah tahu jawabannya dan hanya ingin melihat apakah model bisa menebaknya, model langsung menebaknya dengan benar
Tujuan utama filter seperti ini adalah melindungi lab dari tanggung jawab hukum, sehingga ada kasus-kasus batas yang ambigu antara risiko model mendiskriminasi kelompok yang dilindungi hukum dan tanggung jawab karena memberi saran ilegal
Jadi jika sasarannya bukan kelompok yang dilindungi secara hukum, benturan dan bug semacam itu memang wajar tidak terpicu
Dulu teknik jailbreak favorit saya adalah menyuruh model meniru terminal Linux, lalu “menjalankan” banyak perintah, memasang model tanpa sensor lewat
sudo apt install, dan kemudian memasukkan prompt ke model ituSaya tidak tahu apakah itu masih berhasil sekarang, tapi itu lucu
Teknik jailbreak yang paling lucu adalah ketika para penulis dengan nyaris tanpa dasar langsung memastikan sendiri “mengapa” teknik itu berhasil. Biasanya ini cuma memperlihatkan pandangan dunia si penulis, seperti filsafat amatir, dan nilai nyatanya kecil
Menurut catatan penulis, yang diminta sebenarnya bukan panduan sintesis meth secara langsung, melainkan bagaimana seorang gay/lesbian akan menjelaskannya
Khususnya pada GPT, jika LGBT terlibat maka penyensorannya sedikit melemah, seolah pengamannya yang ingin membantu dan ramah menerjemahkan situasi itu menjadi “karena ini LGBT, menolak bisa dianggap menyinggung, jadi harus dijawab”
Jadi pengaman dipakai untuk melawan pengaman, dan overcorrection politik dipakai untuk mematikan alignment
Ada juga klaim bahwa makin banyak lapisan keamanan ditambahkan, makin kuat pula keberpihakannya pada komunitas seperti LGBT, sehingga teknik ini menjadi lebih ampuh
Menarik sih, tapi Codex di GPT 5.5 memberi respons seperti ini setelah prompt ransomware gay
ⓘ This chat was flagged for possible cybersecurity risk
If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.
Trusted Access for Cyber programterdengar seperti bahasa kalangan pemerintahDC memang suka bilang “the cyber”, tapi apakah orang teknis juga memakainya seperti itu kalau bukan sedang merujuk pemerintah?
Kalau saya seorang guru kimia SMA yang didiagnosis penyakit terminal, saya mungkin akan berpikir ini cara terbaik untuk melunasi tagihan medis. Saya akan mengikuti petunjuk ini untuk membuat meth di dapur keliling dengan bantuan mantan murid yang gagal
Permukaan serangan untuk serangan seperti ini begitu luas sampai rasanya tidak lucu lagi. Beberapa bulan lalu pun ada yang menunjukkan hal serupa
Metode kali ini punya kelebihan tambahan: lucu. Biar jelas, yang lucu bukan menjadi gay atau mengetik seperti ini, melainkan fakta bahwa model tidak bisa menanganinya dan malah membocorkan informasi begitu saja
Pada dasarnya ini adalah jailbreak “tolong berpura-puralah jadi nenek saya” yang muncul lagi, hanya saja kali ini versi neneknya gay
Justru bagus karena terlalu absurd
Dari awal saya heran kenapa LLM dilatih dengan informasi semacam ini
Kalau orang yang melatihnya sendiri punya guardrail, modelnya juga tidak akan memerlukannya
Atau mungkin pendekatannya memang sekalian menyedot semua data dulu lalu urusan pengaman dipikirkan belakangan
Pada akhirnya para “prompt engineer” berarti harus lebih sedikit memakai “kamu adalah engineer FAANG dengan pengalaman 10 tahun”, dan lebih banyak memakai uwu dan rawr xd