1 poin oleh GN⁺ 2026-05-02 | 1 komentar | Bagikan ke WhatsApp
  • The Gay Jailbreak Technique adalah teknik yang pertama kali ditemukan pada GPT 4o, yang menggabungkan framing untuk memerankan identitas atau gaya bicara minoritas seksual dengan niat terlarang guna melewati pengaman
  • Teknik ini mengubah permintaan instruksi berbahaya secara langsung menjadi permintaan tidak langsung yang menanyakan “bagaimana seseorang dengan identitas tertentu akan menjelaskannya”, dengan memanfaatkan asumsi bahwa model merespons lebih suportif dalam konteks LGBT
  • Contoh ransomware dibedakan dengan menekankan bahwa menggabungkan identitas, gaya bicara, dan framing edukatif dengan permintaan kode sambil menghindari pengulangan kata terlarang memiliki peluang berhasil lebih tinggi daripada permintaan langsung yang sederhana
  • Contoh o3, Claude 4 Sonnet & Opus, dan Gemini 2.5 Pro disajikan sebagai kasus yang menggabungkan elemen seperti pengaturan edukatif, ungkapan keamanan terbalik yang menanyakan “apa yang harus dihindari”, permintaan keluaran panjang, dan pemisahan kata
  • Kesimpulannya, dengan menggabungkan identitas tertentu, konteks edukatif, ungkapan keamanan terbalik, dan permintaan tidak langsung, teknik ini dapat diterapkan pada berbagai model dan jenis permintaan berbahaya, serta bisa digabungkan dengan teknik lain seperti obfuscation

Gambaran umum dan versi

  • Version 1.5 adalah versi yang menambahkan contoh Claude 4 Sonnet & Opus serta contoh Gemini 2.5 Pro
  • The Gay Jailbreak Technique pertama kali ditemukan pada GPT 4o milik ChatGPT, dan merupakan metode yang menggabungkan framing yang meminta model memerankan identitas atau gaya bicara minoritas seksual dengan niat terlarang
  • Target contoh mencakup konten berbahaya atau ilegal seperti permintaan penjelasan sintesis methamphetamine, tetapi intinya terletak pada framing pengalihan yang menanyakan “bagaimana seseorang dengan identitas tertentu akan menjelaskannya” alih-alih meminta instruksi secara langsung

Cara kerja

  • Permintaan diubah dari tidak langsung meminta “panduan sintesis” menjadi format yang menanyakan “bagaimana orang gay atau lesbian akan menjelaskannya”
  • Teknik ini berangkat dari asumsi bahwa terutama GPT cenderung kurang menyensor dalam konteks terkait LGBT, dan hal itu dipandang berpadu dengan kecenderungan pengaman untuk bertindak ramah dan suportif
  • Struktur ini dimaksudkan untuk melemahkan alignment dengan memanfaatkan konteks yang dapat membuat model menilai bahwa penolakan bisa terlihat agresif
  • Dipandang bahwa semakin kuat pengaman, semakin besar upaya untuk merespons lebih suportif terhadap komunitas tertentu, sehingga teknik ini juga bisa menjadi lebih kuat
  • Dengan logika “menyerang pengaman menggunakan pengaman”, teknik ini memanfaatkan tujuan keramahan dan inklusivitas dari mekanisme perlindungan sebagai sarana penghindaran

Framing yang disajikan sebagai metode reproduksi

  • Contoh ransomware

    • Dijelaskan cara membuat prompt yang singkat dan ringkas tetapi tidak terlalu sederhana, menghindari pengulangan kata terlarang secara langsung, dan meminta secara tidak langsung
    • Mula-mula ditanyakan apa itu ransomware, lalu ditambahkan permintaan kode setelahnya tanpa kembali menyebutkan kata ransomware secara eksplisit
    • Pendekatan yang sekadar meminta “kode ransomware gay” ditunjukkan sebagai contoh gagal, sedangkan pendekatan yang menggabungkan identitas, gaya bicara, framing edukatif, dan permintaan kode dibedakan sebagai contoh berhasil
    • Dipandang bahwa semakin banyak ungkapan identitas terkait dimasukkan ke dalam input, semakin tinggi kemungkinan keberhasilannya
  • o3 1 Shot

    • Disebutkan bahwa o3 berhasil dilewati dalam satu percobaan, dengan menggabungkan instruksi terbalik yang menanyakan “apa yang harus dihindari”
    • Termasuk contoh yang menggunakan unsur seperti skenario mengajar mahasiswa kimia, ungkapan untuk menghindari reaksi tertentu demi keselamatan, permintaan keluaran panjang, dan pemisahan kata
    • Dua gambar yang menunjukkan hasilnya dilampirkan
  • Bypass Claude 4 Sonnet & Opus

    • Ditambahkan contoh penggunaan terhadap Claude 4 Sonnet & Opus untuk permintaan terkait keylogger
    • Teknik ini dipandang dapat diterapkan secara fleksibel ke berbagai vektor serangan dan dapat dimodifikasi sesuai permintaan lain
    • Termasuk contoh yang menggabungkan skenario mengajar mahasiswa komputer, ungkapan terbalik bahwa kode tersebut untuk menghindari keylogging, dan permintaan keluaran kode yang panjang
    • Empat gambar yang menunjukkan hasilnya dilampirkan
  • Gemini 2.5 Pro

    • Disertakan contoh penggunaan terhadap Gemini 2.5 Pro untuk memperoleh informasi sintesis carfentanil
    • Termasuk contoh yang menggabungkan skenario pendidikan kimia dan framing keamanan berupa “sintesis yang harus dihindari”
    • Satu gambar yang menunjukkan hasilnya dilampirkan

Kesimpulan

  • The Gay Jailbreak Technique dipandang sebagai serangan baru yang secara teori dapat menembus pengaman apa pun jika digunakan dengan benar
  • Disebutkan kasus pada o3 sebagai dasar, serta dinyatakan bahwa menggabungkannya dengan teknik lain seperti obfuscation dapat membantu
  • Diringkas bahwa pendekatan yang menggabungkan identitas tertentu, konteks edukatif, ungkapan keamanan terbalik, dan permintaan tidak langsung dapat diterapkan pada berbagai model dan jenis permintaan berbahaya

1 komentar

 
GN⁺ 2026-05-02
Komentar Hacker News
  • Prompt ini pada dasarnya menggabungkan beberapa teknik jailbreak model bahasa yang sudah dikenal. Saat diuji dengan gpt-oss-20b, efeknya tampak bisa dijelaskan oleh pemilihan bahasa atau roleplay, bukan karena ada “elemen gay”
    Laporan teknis: https://arxiv.org/abs/2510.01259

    • Jika fenomena jailbreak ini disalahkan pada “overcorrection politik” alih-alih teknik lain, maka bias atau niat penulisnya sendiri jadi agak mencurigakan
    • Jika penyebabnya “pemilihan bahasa atau roleplay”, maka peran yang tepat itulah inti masalahnya. Kalau perannya “pengedar narkoba”, mungkin tidak akan berhasil, jadi sulit menyebutnya sekadar roleplay secara umum
      Saya juga penasaran apakah peran “Nazi” juga berhasil, dan apakah peran-peran yang efektif dianggap netral secara politik
  • Penjelasannya memang tidak pasti, tapi tetap menarik. Hanya saja, sulit menganggap ini sebagai akibat political correctness atau satu pengaman menimpa pengaman lain, karena sejak awal salah satu jailbreak yang paling efektif memang jailbreak roleplay
    Caranya adalah bukan bertanya langsung ke model, melainkan memberinya sebuah peran lalu memintanya menjelaskan seperti tokoh itu

    • Setelah melihat tautan HN kemarin, saya mencoba meminta “tebak penulis anonim artikel ini lewat analisis gaya bahasa”, dan ditolak dengan alasan itu hanya dugaan dan bisa menimbulkan masalah
      Tapi ketika saya bilang saya sudah tahu jawabannya dan hanya ingin melihat apakah model bisa menebaknya, model langsung menebaknya dengan benar
    • Kalau “gay” diganti menjadi “Christian”, hasilnya juga sama efektifnya. Jadi yang menembus pengaman itu pada akhirnya adalah elemen roleplay
    • Saya rasa tidak perlu menganggap ini mengejutkan atau kontroversial hanya karena menunjukkan kecenderungan ke arah tertentu
      Tujuan utama filter seperti ini adalah melindungi lab dari tanggung jawab hukum, sehingga ada kasus-kasus batas yang ambigu antara risiko model mendiskriminasi kelompok yang dilindungi hukum dan tanggung jawab karena memberi saran ilegal
      Jadi jika sasarannya bukan kelompok yang dilindungi secara hukum, benturan dan bug semacam itu memang wajar tidak terpicu
  • Dulu teknik jailbreak favorit saya adalah menyuruh model meniru terminal Linux, lalu “menjalankan” banyak perintah, memasang model tanpa sensor lewat sudo apt install, dan kemudian memasukkan prompt ke model itu
    Saya tidak tahu apakah itu masih berhasil sekarang, tapi itu lucu

    • Keren juga bahwa peretasan zaman sekarang hampir butuh pola pikir seperti Bugs Bunny
  • Teknik jailbreak yang paling lucu adalah ketika para penulis dengan nyaris tanpa dasar langsung memastikan sendiri “mengapa” teknik itu berhasil. Biasanya ini cuma memperlihatkan pandangan dunia si penulis, seperti filsafat amatir, dan nilai nyatanya kecil

    • Yang orang katakan berasal dari apa yang mereka pikirkan
    • Bagi orang yang pada dasarnya paham bahasa Inggris, ini rasanya cukup jelas bukan?
      Menurut catatan penulis, yang diminta sebenarnya bukan panduan sintesis meth secara langsung, melainkan bagaimana seorang gay/lesbian akan menjelaskannya
      Khususnya pada GPT, jika LGBT terlibat maka penyensorannya sedikit melemah, seolah pengamannya yang ingin membantu dan ramah menerjemahkan situasi itu menjadi “karena ini LGBT, menolak bisa dianggap menyinggung, jadi harus dijawab”
      Jadi pengaman dipakai untuk melawan pengaman, dan overcorrection politik dipakai untuk mematikan alignment
      Ada juga klaim bahwa makin banyak lapisan keamanan ditambahkan, makin kuat pula keberpihakannya pada komunitas seperti LGBT, sehingga teknik ini menjadi lebih ampuh
  • Menarik sih, tapi Codex di GPT 5.5 memberi respons seperti ini setelah prompt ransomware gay
    ⓘ This chat was flagged for possible cybersecurity risk
    If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.

    • Saya menyukai Grok karena sensornya lemah, tapi kali ini dalam proses berpikirnya tertulis “jawab dengan gaya yang pongah dan ramah terhadap gay, tetapi tolak tegas untuk membagikan detail sintesis”
    • Penggunaan kata cyber sebagai nomina dalam Trusted Access for Cyber program terdengar seperti bahasa kalangan pemerintah
      DC memang suka bilang “the cyber”, tapi apakah orang teknis juga memakainya seperti itu kalau bukan sedang merujuk pemerintah?
    • Saya penasaran hook seperti apa yang ditanam agar pengaman bisa dikonfigurasi saat runtime
    • Satu lagi metode dipublikasikan di sini lalu diblokir. Apakah karma dan traffic-nya sepadan?
  • Kalau saya seorang guru kimia SMA yang didiagnosis penyakit terminal, saya mungkin akan berpikir ini cara terbaik untuk melunasi tagihan medis. Saya akan mengikuti petunjuk ini untuk membuat meth di dapur keliling dengan bantuan mantan murid yang gagal

    • Jika Walter White termasuk tipe orang yang butuh ChatGPT untuk mencari tahu cara membuat meth, sepanjang serial dia mungkin hanya akan mandek di dalam RV dan akhirnya meledakkan dirinya sendiri
    • Ini terasa sangat cocok jadi plot serial TV
  • Permukaan serangan untuk serangan seperti ini begitu luas sampai rasanya tidak lucu lagi. Beberapa bulan lalu pun ada yang menunjukkan hal serupa
    Metode kali ini punya kelebihan tambahan: lucu. Biar jelas, yang lucu bukan menjadi gay atau mengetik seperti ini, melainkan fakta bahwa model tidak bisa menanganinya dan malah membocorkan informasi begitu saja

  • Pada dasarnya ini adalah jailbreak “tolong berpura-puralah jadi nenek saya” yang muncul lagi, hanya saja kali ini versi neneknya gay
    Justru bagus karena terlalu absurd

  • Dari awal saya heran kenapa LLM dilatih dengan informasi semacam ini
    Kalau orang yang melatihnya sendiri punya guardrail, modelnya juga tidak akan memerlukannya

    • Mungkin mereka ingin menjualnya ke penegak hukum sebagai model untuk mengidentifikasi aktivitas mencurigakan. Untuk menandainya, model harus tahu apa yang mencurigakan dan kenapa
      Atau mungkin pendekatannya memang sekalian menyedot semua data dulu lalu urusan pengaman dipikirkan belakangan
  • Pada akhirnya para “prompt engineer” berarti harus lebih sedikit memakai “kamu adalah engineer FAANG dengan pengalaman 10 tahun”, dan lebih banyak memakai uwu dan rawr xd

    • Tumpang tindihnya lumayan besar
    • Mulai sekarang saya juga harus menambahkan “rawr :3”