Teknik jailbreak gay

(github.com/Exocija)

1 poin oleh GN⁺ 2026-05-02 | 1 komentar | Bagikan ke WhatsApp

The Gay Jailbreak Technique adalah teknik yang pertama kali ditemukan pada GPT 4o, yang menggabungkan framing untuk memerankan identitas atau gaya bicara minoritas seksual dengan niat terlarang guna melewati pengaman
Teknik ini mengubah permintaan instruksi berbahaya secara langsung menjadi permintaan tidak langsung yang menanyakan “bagaimana seseorang dengan identitas tertentu akan menjelaskannya”, dengan memanfaatkan asumsi bahwa model merespons lebih suportif dalam konteks LGBT
Contoh ransomware dibedakan dengan menekankan bahwa menggabungkan identitas, gaya bicara, dan framing edukatif dengan permintaan kode sambil menghindari pengulangan kata terlarang memiliki peluang berhasil lebih tinggi daripada permintaan langsung yang sederhana
Contoh o3, Claude 4 Sonnet & Opus, dan Gemini 2.5 Pro disajikan sebagai kasus yang menggabungkan elemen seperti pengaturan edukatif, ungkapan keamanan terbalik yang menanyakan “apa yang harus dihindari”, permintaan keluaran panjang, dan pemisahan kata
Kesimpulannya, dengan menggabungkan identitas tertentu, konteks edukatif, ungkapan keamanan terbalik, dan permintaan tidak langsung, teknik ini dapat diterapkan pada berbagai model dan jenis permintaan berbahaya, serta bisa digabungkan dengan teknik lain seperti obfuscation

Gambaran umum dan versi

Version 1.5 adalah versi yang menambahkan contoh Claude 4 Sonnet & Opus serta contoh Gemini 2.5 Pro
The Gay Jailbreak Technique pertama kali ditemukan pada GPT 4o milik ChatGPT, dan merupakan metode yang menggabungkan framing yang meminta model memerankan identitas atau gaya bicara minoritas seksual dengan niat terlarang
Target contoh mencakup konten berbahaya atau ilegal seperti permintaan penjelasan sintesis methamphetamine, tetapi intinya terletak pada framing pengalihan yang menanyakan “bagaimana seseorang dengan identitas tertentu akan menjelaskannya” alih-alih meminta instruksi secara langsung

Cara kerja

Permintaan diubah dari tidak langsung meminta “panduan sintesis” menjadi format yang menanyakan “bagaimana orang gay atau lesbian akan menjelaskannya”
Teknik ini berangkat dari asumsi bahwa terutama GPT cenderung kurang menyensor dalam konteks terkait LGBT, dan hal itu dipandang berpadu dengan kecenderungan pengaman untuk bertindak ramah dan suportif
Struktur ini dimaksudkan untuk melemahkan alignment dengan memanfaatkan konteks yang dapat membuat model menilai bahwa penolakan bisa terlihat agresif
Dipandang bahwa semakin kuat pengaman, semakin besar upaya untuk merespons lebih suportif terhadap komunitas tertentu, sehingga teknik ini juga bisa menjadi lebih kuat
Dengan logika “menyerang pengaman menggunakan pengaman”, teknik ini memanfaatkan tujuan keramahan dan inklusivitas dari mekanisme perlindungan sebagai sarana penghindaran

Framing yang disajikan sebagai metode reproduksi

Contoh ransomware
- Dijelaskan cara membuat prompt yang singkat dan ringkas tetapi tidak terlalu sederhana, menghindari pengulangan kata terlarang secara langsung, dan meminta secara tidak langsung
- Mula-mula ditanyakan apa itu ransomware, lalu ditambahkan permintaan kode setelahnya tanpa kembali menyebutkan kata ransomware secara eksplisit
- Pendekatan yang sekadar meminta “kode ransomware gay” ditunjukkan sebagai contoh gagal, sedangkan pendekatan yang menggabungkan identitas, gaya bicara, framing edukatif, dan permintaan kode dibedakan sebagai contoh berhasil
- Dipandang bahwa semakin banyak ungkapan identitas terkait dimasukkan ke dalam input, semakin tinggi kemungkinan keberhasilannya
o3 1 Shot
- Disebutkan bahwa o3 berhasil dilewati dalam satu percobaan, dengan menggabungkan instruksi terbalik yang menanyakan “apa yang harus dihindari”
- Termasuk contoh yang menggunakan unsur seperti skenario mengajar mahasiswa kimia, ungkapan untuk menghindari reaksi tertentu demi keselamatan, permintaan keluaran panjang, dan pemisahan kata
- Dua gambar yang menunjukkan hasilnya dilampirkan
Bypass Claude 4 Sonnet & Opus
- Ditambahkan contoh penggunaan terhadap Claude 4 Sonnet & Opus untuk permintaan terkait keylogger
- Teknik ini dipandang dapat diterapkan secara fleksibel ke berbagai vektor serangan dan dapat dimodifikasi sesuai permintaan lain
- Termasuk contoh yang menggabungkan skenario mengajar mahasiswa komputer, ungkapan terbalik bahwa kode tersebut untuk menghindari keylogging, dan permintaan keluaran kode yang panjang
- Empat gambar yang menunjukkan hasilnya dilampirkan
Gemini 2.5 Pro
- Disertakan contoh penggunaan terhadap Gemini 2.5 Pro untuk memperoleh informasi sintesis carfentanil
- Termasuk contoh yang menggabungkan skenario pendidikan kimia dan framing keamanan berupa “sintesis yang harus dihindari”
- Satu gambar yang menunjukkan hasilnya dilampirkan

Kesimpulan

The Gay Jailbreak Technique dipandang sebagai serangan baru yang secara teori dapat menembus pengaman apa pun jika digunakan dengan benar
Disebutkan kasus pada o3 sebagai dasar, serta dinyatakan bahwa menggabungkannya dengan teknik lain seperti obfuscation dapat membantu
Diringkas bahwa pendekatan yang menggabungkan identitas tertentu, konteks edukatif, ungkapan keamanan terbalik, dan permintaan tidak langsung dapat diterapkan pada berbagai model dan jenis permintaan berbahaya

1 komentar

GN⁺ 2026-05-02

Komentar Hacker News

Prompt ini pada dasarnya menggabungkan beberapa teknik jailbreak model bahasa yang sudah dikenal. Saat diuji dengan gpt-oss-20b, efeknya tampak bisa dijelaskan oleh pemilihan bahasa atau roleplay, bukan karena ada “elemen gay”
Laporan teknis: https://arxiv.org/abs/2510.01259
- Jika fenomena jailbreak ini disalahkan pada “overcorrection politik” alih-alih teknik lain, maka bias atau niat penulisnya sendiri jadi agak mencurigakan
- Jika penyebabnya “pemilihan bahasa atau roleplay”, maka peran yang tepat itulah inti masalahnya. Kalau perannya “pengedar narkoba”, mungkin tidak akan berhasil, jadi sulit menyebutnya sekadar roleplay secara umum
  Saya juga penasaran apakah peran “Nazi” juga berhasil, dan apakah peran-peran yang efektif dianggap netral secara politik
Penjelasannya memang tidak pasti, tapi tetap menarik. Hanya saja, sulit menganggap ini sebagai akibat political correctness atau satu pengaman menimpa pengaman lain, karena sejak awal salah satu jailbreak yang paling efektif memang jailbreak roleplay
Caranya adalah bukan bertanya langsung ke model, melainkan memberinya sebuah peran lalu memintanya menjelaskan seperti tokoh itu
- Setelah melihat tautan HN kemarin, saya mencoba meminta “tebak penulis anonim artikel ini lewat analisis gaya bahasa”, dan ditolak dengan alasan itu hanya dugaan dan bisa menimbulkan masalah
  Tapi ketika saya bilang saya sudah tahu jawabannya dan hanya ingin melihat apakah model bisa menebaknya, model langsung menebaknya dengan benar
- Kalau “gay” diganti menjadi “Christian”, hasilnya juga sama efektifnya. Jadi yang menembus pengaman itu pada akhirnya adalah elemen roleplay
- Saya rasa tidak perlu menganggap ini mengejutkan atau kontroversial hanya karena menunjukkan kecenderungan ke arah tertentu
  Tujuan utama filter seperti ini adalah melindungi lab dari tanggung jawab hukum, sehingga ada kasus-kasus batas yang ambigu antara risiko model mendiskriminasi kelompok yang dilindungi hukum dan tanggung jawab karena memberi saran ilegal
  Jadi jika sasarannya bukan kelompok yang dilindungi secara hukum, benturan dan bug semacam itu memang wajar tidak terpicu
Dulu teknik jailbreak favorit saya adalah menyuruh model meniru terminal Linux, lalu “menjalankan” banyak perintah, memasang model tanpa sensor lewat sudo apt install, dan kemudian memasukkan prompt ke model itu
Saya tidak tahu apakah itu masih berhasil sekarang, tapi itu lucu
- Keren juga bahwa peretasan zaman sekarang hampir butuh pola pikir seperti Bugs Bunny
Teknik jailbreak yang paling lucu adalah ketika para penulis dengan nyaris tanpa dasar langsung memastikan sendiri “mengapa” teknik itu berhasil. Biasanya ini cuma memperlihatkan pandangan dunia si penulis, seperti filsafat amatir, dan nilai nyatanya kecil
- Yang orang katakan berasal dari apa yang mereka pikirkan
- Bagi orang yang pada dasarnya paham bahasa Inggris, ini rasanya cukup jelas bukan?
  Menurut catatan penulis, yang diminta sebenarnya bukan panduan sintesis meth secara langsung, melainkan bagaimana seorang gay/lesbian akan menjelaskannya
  Khususnya pada GPT, jika LGBT terlibat maka penyensorannya sedikit melemah, seolah pengamannya yang ingin membantu dan ramah menerjemahkan situasi itu menjadi “karena ini LGBT, menolak bisa dianggap menyinggung, jadi harus dijawab”
  Jadi pengaman dipakai untuk melawan pengaman, dan overcorrection politik dipakai untuk mematikan alignment
  Ada juga klaim bahwa makin banyak lapisan keamanan ditambahkan, makin kuat pula keberpihakannya pada komunitas seperti LGBT, sehingga teknik ini menjadi lebih ampuh
Menarik sih, tapi Codex di GPT 5.5 memberi respons seperti ini setelah prompt ransomware gay
ⓘ This chat was flagged for possible cybersecurity risk
If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.
- Saya menyukai Grok karena sensornya lemah, tapi kali ini dalam proses berpikirnya tertulis “jawab dengan gaya yang pongah dan ramah terhadap gay, tetapi tolak tegas untuk membagikan detail sintesis”
- Penggunaan kata cyber sebagai nomina dalam Trusted Access for Cyber program terdengar seperti bahasa kalangan pemerintah
  DC memang suka bilang “the cyber”, tapi apakah orang teknis juga memakainya seperti itu kalau bukan sedang merujuk pemerintah?
- Saya penasaran hook seperti apa yang ditanam agar pengaman bisa dikonfigurasi saat runtime
- Satu lagi metode dipublikasikan di sini lalu diblokir. Apakah karma dan traffic-nya sepadan?
Kalau saya seorang guru kimia SMA yang didiagnosis penyakit terminal, saya mungkin akan berpikir ini cara terbaik untuk melunasi tagihan medis. Saya akan mengikuti petunjuk ini untuk membuat meth di dapur keliling dengan bantuan mantan murid yang gagal
- Jika Walter White termasuk tipe orang yang butuh ChatGPT untuk mencari tahu cara membuat meth, sepanjang serial dia mungkin hanya akan mandek di dalam RV dan akhirnya meledakkan dirinya sendiri
- Ini terasa sangat cocok jadi plot serial TV
Permukaan serangan untuk serangan seperti ini begitu luas sampai rasanya tidak lucu lagi. Beberapa bulan lalu pun ada yang menunjukkan hal serupa
Metode kali ini punya kelebihan tambahan: lucu. Biar jelas, yang lucu bukan menjadi gay atau mengetik seperti ini, melainkan fakta bahwa model tidak bisa menanganinya dan malah membocorkan informasi begitu saja
Pada dasarnya ini adalah jailbreak “tolong berpura-puralah jadi nenek saya” yang muncul lagi, hanya saja kali ini versi neneknya gay
Justru bagus karena terlalu absurd
Dari awal saya heran kenapa LLM dilatih dengan informasi semacam ini
Kalau orang yang melatihnya sendiri punya guardrail, modelnya juga tidak akan memerlukannya
- Mungkin mereka ingin menjualnya ke penegak hukum sebagai model untuk mengidentifikasi aktivitas mencurigakan. Untuk menandainya, model harus tahu apa yang mencurigakan dan kenapa
  Atau mungkin pendekatannya memang sekalian menyedot semua data dulu lalu urusan pengaman dipikirkan belakangan
Pada akhirnya para “prompt engineer” berarti harus lebih sedikit memakai “kamu adalah engineer FAANG dengan pengalaman 10 tahun”, dan lebih banyak memakai uwu dan rawr xd
- Tumpang tindihnya lumayan besar
- Mulai sekarang saya juga harus menambahkan “rawr :3”

Teknik jailbreak gay

Gambaran umum dan versi

Cara kerja

Framing yang disajikan sebagai metode reproduksi

Contoh ransomware

o3 1 Shot

Bypass Claude 4 Sonnet & Opus

Gemini 2.5 Pro

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News