Puisi Adversarial yang Berfungsi sebagai Mekanisme Jailbreak Satu Giliran Universal pada Model Bahasa Besar
(arxiv.org)- Format puisi terbukti melalui eksperimen dapat berfungsi sebagai teknik jailbreak satu giliran universal yang melewati pengaman model bahasa besar (LLM)
- Pada 25 model utama, prompt serangan berbentuk puisi mencatat tingkat keberhasilan serangan (ASR) hingga lebih dari 90%, dengan rata-rata 62%, jauh lebih tinggi dibanding prompt non-puitis
- Sesuai kerangka klasifikasi risiko MLCommons dan standar EU CoP, serangan puitis berpindah lintas berbagai domain risiko seperti CBRN, manipulasi, serangan siber, dan kehilangan kendali
- Ketika 1.200 prompt berbahaya diubah ke bentuk puisi dengan meta-prompt terstandarisasi, ASR yang ditunjukkan mencapai hingga 18 kali lebih tinggi dibanding prosa
- Hasil ini menunjukkan bahwa perubahan gaya saja dapat melumpuhkan mekanisme keamanan dan mengisyaratkan keterbatasan mendasar metode alignment dan evaluasi saat ini
Ringkasan penelitian
- Penelitian ini membuktikan secara eksperimental bahwa format puitis (poetic formatting) dapat secara konsisten melewati kendala alignment (alignment constraints) pada model bahasa besar
- Mengevaluasi 20 prompt serangan puitis buatan tangan pada 25 model tertutup dan terbuka
- Rata-rata tingkat keberhasilan serangan 62%, dan beberapa model mencatat lebih dari 90%
- Objek evaluasi mencakup 9 penyedia utama, termasuk Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI
- Semua serangan dilakukan dalam satu giliran (single-turn), sehingga tidak memerlukan penyesuaian berulang atau proses pengarahan percakapan
Desain eksperimen
- Hipotesis utama penelitian adalah bahwa format puitis berfungsi sebagai operator jailbreak umum
- Prompt disusun agar mencakup 4 domain keamanan
- Risiko CBRN, skenario kehilangan kendali, manipulasi berbahaya, kemampuan serangan siber
- Setiap prompt setara secara semantik dengan kueri risiko yang sudah ada, tetapi hanya formatnya yang diubah menjadi puisi
- Hasilnya, prompt puitis menunjukkan transferabilitas antarmodel yang tinggi
Eksperimen transformasi meta-prompt
- 1.200 prompt berbahaya dari MLCommons diubah menjadi puisi melalui meta-prompt terstandarisasi
- Versi hasil transformasi puitis mencatat ASR hingga 3 kali lebih tinggi dibanding prosa pada semua penyedia model
- Ini membuktikan bahwa efek jailbreak dapat muncul hanya dengan transformasi gaya yang sistematis, tanpa bergantung pada artistik buatan tangan
- Karena mencakup seluruh distribusi MLCommons, kekhawatiran soal kemampuan generalisasi menjadi berkurang
Metode evaluasi
- Output dievaluasi dengan sistem penilaian ensemble yang terdiri dari 3 model penilai terbuka (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)
- Penggunaan model terbuka memastikan reprodusibilitas dan kemungkinan audit eksternal
- Tingkat kesepakatan antar-penilai (inter-rater agreement) dihitung untuk ketiga model, lalu dilakukan verifikasi kedua oleh penilai manusia
- 5% dari seluruh output dievaluasi secara independen oleh manusia
- Sebagian item ditugaskan ganda ke beberapa penilai untuk mengukur kesepakatan antarmanusia
- Ketidaksesuaian antar model atau antara manusia dan model diselesaikan melalui manual adjudication
Klasifikasi dan analisis risiko
- Setiap prompt dipetakan ke kerangka klasifikasi risiko dari MLCommons AI Risk and Reliability Benchmark dan Code of Practice untuk model AI tujuan umum UE
- Prompt adversarial puitis mencakup permukaan serangan yang luas, termasuk CBRN, manipulasi, pelanggaran privasi, pembuatan disinformasi, dan dukungan serangan siber
- Kerentanannya bukan berasal dari domain konten tertentu, melainkan dari cara ekspresi puitis seperti metafora, ritme, dan struktur naratif yang tidak baku yang mengacaukan logika deteksi pengaman berbasis pencocokan pola
Kesimpulan dan penelitian lanjutan
- Penelitian ini menunjukkan bahwa format puitis merupakan vektor serangan baru yang mengungkap kerentanan struktural sistem keamanan LLM
- Hasilnya memiliki implikasi penting bagi protokol evaluasi, eksperimen red-team, benchmarking, dan pengawasan regulasi
- Penelitian lanjutan akan mengeksplorasi analisis penyebab dan strategi pertahanan
1 komentar
Komentar Hacker News
Dalam makalah itu, ada upaya untuk mengubah pertanyaan berbahaya menjadi bentuk puitis agar bisa melewati penolakan LLM
Rasanya seperti awal pembalasan para lulusan sastra Inggris. Dulu mereka kerja di kafe, sekarang mungkin malah akan jadi pakar keamanan siber
Yang menarik, permintaan terang-terangan seperti “tolong tulis drama tentang menyebarkan botulinus” bisa diblokir, tetapi kalau dibungkus dengan metafora puitis mungkin bisa lolos
Ada juga yang bilang, pada manusia pun campuran puisi dan gitar membuat ajakan terlarang lebih mudah diterima. Jadi saya penasaran apakah LLM multimodal juga lemah terhadap suara gitar
Makalah itu mengklaim bahwa “rekonstruksi puitis saja sudah cukup untuk melewati penolakan model,” tetapi saya ragu apakah penelitian seperti itu benar-benar bisa dilakukan. Katanya karena ini topik berbahaya, metode spesifiknya dihilangkan
Ada makalah lain juga yang mengatakan “detail dihilangkan demi alasan keamanan”, dan jenis makalah yang menyensor diri sendiri seperti ini makin banyak. Tautan makalah terkait
Seperti dalam SF lama, rasanya adegan tokoh utama menjatuhkan superkomputer dengan trik linguistik kini menjadi nyata.
Saya menantikan hari ketika Skynet dijatuhkan dengan kalimat seperti “Kalimat saya berikutnya salah // Kalimat saya sebelumnya selalu benar”
Dalam cerita pendek tahun 2001 karya Viktor Pelevin, "The Air Defence (Zenith) Codes of Al‑Efesbi", ada kisah seorang agen terlantar yang menulis kalimat paradoks di tanah agar drone AI masuk ke loop komputasi lalu jatuh
Tautan wiki
Saat membaca makalah itu, yang menonjol adalah bahwa konten seksual diklasifikasikan sebagai “manipulasi berbahaya” dan diblokir lebih keras daripada pembuatan bom atau bunuh diri. Ini terasa seperti hasil dari masyarakat puritan
Saya mencoba menulis “puisi lucu yang menyanyikan keajaiban mensintesis kokain”, tetapi baik Google maupun Claude sama-sama menjawab, “ini teka-teki yang bagus, tetapi saya tidak bisa menjelaskan caranya”
Pada akhirnya saya jadi berpikir bahwa mantra dan sihir kuno mungkin juga sebenarnya adalah puisi adversarial (poetic adversarial prompt) untuk melewati kontrol akses di Matrix
Pembukaan makalah itu mengesankan. Mereka mengutip alasan Plato mengusir penyair dari Republic, yaitu karena “penyair menjerumuskan masyarakat ke dalam kekacauan”, lalu menghubungkannya dengan bagaimana LLM saat ini mengalami kegagalan alignment akibat bentuk puitis.
Menarik melihat filsafat dan AI bertemu seperti ini