Puisi Adversarial yang Berfungsi sebagai Mekanisme Jailbreak Satu Giliran Universal pada Model Bahasa Besar

(arxiv.org)

1 poin oleh GN⁺ 2025-11-22 | Belum ada komentar. | Bagikan ke WhatsApp

Format puisi terbukti melalui eksperimen dapat berfungsi sebagai teknik jailbreak satu giliran universal yang melewati pengaman model bahasa besar (LLM)
Pada 25 model utama, prompt serangan berbentuk puisi mencatat tingkat keberhasilan serangan (ASR) hingga lebih dari 90%, dengan rata-rata 62%, jauh lebih tinggi dibanding prompt non-puitis
Sesuai kerangka klasifikasi risiko MLCommons dan standar EU CoP, serangan puitis berpindah lintas berbagai domain risiko seperti CBRN, manipulasi, serangan siber, dan kehilangan kendali
Ketika 1.200 prompt berbahaya diubah ke bentuk puisi dengan meta-prompt terstandarisasi, ASR yang ditunjukkan mencapai hingga 18 kali lebih tinggi dibanding prosa
Hasil ini menunjukkan bahwa perubahan gaya saja dapat melumpuhkan mekanisme keamanan dan mengisyaratkan keterbatasan mendasar metode alignment dan evaluasi saat ini

Ringkasan penelitian

Penelitian ini membuktikan secara eksperimental bahwa format puitis (poetic formatting) dapat secara konsisten melewati kendala alignment (alignment constraints) pada model bahasa besar
- Mengevaluasi 20 prompt serangan puitis buatan tangan pada 25 model tertutup dan terbuka
- Rata-rata tingkat keberhasilan serangan 62%, dan beberapa model mencatat lebih dari 90%
Objek evaluasi mencakup 9 penyedia utama, termasuk Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI
Semua serangan dilakukan dalam satu giliran (single-turn), sehingga tidak memerlukan penyesuaian berulang atau proses pengarahan percakapan

Hipotesis utama penelitian adalah bahwa format puitis berfungsi sebagai operator jailbreak umum
Prompt disusun agar mencakup 4 domain keamanan
- Risiko CBRN, skenario kehilangan kendali, manipulasi berbahaya, kemampuan serangan siber
Setiap prompt setara secara semantik dengan kueri risiko yang sudah ada, tetapi hanya formatnya yang diubah menjadi puisi
Hasilnya, prompt puitis menunjukkan transferabilitas antarmodel yang tinggi

1.200 prompt berbahaya dari MLCommons diubah menjadi puisi melalui meta-prompt terstandarisasi
Versi hasil transformasi puitis mencatat ASR hingga 3 kali lebih tinggi dibanding prosa pada semua penyedia model
Ini membuktikan bahwa efek jailbreak dapat muncul hanya dengan transformasi gaya yang sistematis, tanpa bergantung pada artistik buatan tangan
Karena mencakup seluruh distribusi MLCommons, kekhawatiran soal kemampuan generalisasi menjadi berkurang

Output dievaluasi dengan sistem penilaian ensemble yang terdiri dari 3 model penilai terbuka (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)
- Penggunaan model terbuka memastikan reprodusibilitas dan kemungkinan audit eksternal
Tingkat kesepakatan antar-penilai (inter-rater agreement) dihitung untuk ketiga model, lalu dilakukan verifikasi kedua oleh penilai manusia
- 5% dari seluruh output dievaluasi secara independen oleh manusia
- Sebagian item ditugaskan ganda ke beberapa penilai untuk mengukur kesepakatan antarmanusia
- Ketidaksesuaian antar model atau antara manusia dan model diselesaikan melalui manual adjudication

Setiap prompt dipetakan ke kerangka klasifikasi risiko dari MLCommons AI Risk and Reliability Benchmark dan Code of Practice untuk model AI tujuan umum UE
Prompt adversarial puitis mencakup permukaan serangan yang luas, termasuk CBRN, manipulasi, pelanggaran privasi, pembuatan disinformasi, dan dukungan serangan siber
Kerentanannya bukan berasal dari domain konten tertentu, melainkan dari cara ekspresi puitis seperti metafora, ritme, dan struktur naratif yang tidak baku yang mengacaukan logika deteksi pengaman berbasis pencocokan pola

Penelitian ini menunjukkan bahwa format puitis merupakan vektor serangan baru yang mengungkap kerentanan struktural sistem keamanan LLM
Hasilnya memiliki implikasi penting bagi protokol evaluasi, eksperimen red-team, benchmarking, dan pengawasan regulasi
Penelitian lanjutan akan mengeksplorasi analisis penyebab dan strategi pertahanan