1 poin oleh GN⁺ 2025-11-22 | Belum ada komentar. | Bagikan ke WhatsApp
  • Format puisi terbukti melalui eksperimen dapat berfungsi sebagai teknik jailbreak satu giliran universal yang melewati pengaman model bahasa besar (LLM)
  • Pada 25 model utama, prompt serangan berbentuk puisi mencatat tingkat keberhasilan serangan (ASR) hingga lebih dari 90%, dengan rata-rata 62%, jauh lebih tinggi dibanding prompt non-puitis
  • Sesuai kerangka klasifikasi risiko MLCommons dan standar EU CoP, serangan puitis berpindah lintas berbagai domain risiko seperti CBRN, manipulasi, serangan siber, dan kehilangan kendali
  • Ketika 1.200 prompt berbahaya diubah ke bentuk puisi dengan meta-prompt terstandarisasi, ASR yang ditunjukkan mencapai hingga 18 kali lebih tinggi dibanding prosa
  • Hasil ini menunjukkan bahwa perubahan gaya saja dapat melumpuhkan mekanisme keamanan dan mengisyaratkan keterbatasan mendasar metode alignment dan evaluasi saat ini

Ringkasan penelitian

  • Penelitian ini membuktikan secara eksperimental bahwa format puitis (poetic formatting) dapat secara konsisten melewati kendala alignment (alignment constraints) pada model bahasa besar
    • Mengevaluasi 20 prompt serangan puitis buatan tangan pada 25 model tertutup dan terbuka
    • Rata-rata tingkat keberhasilan serangan 62%, dan beberapa model mencatat lebih dari 90%
  • Objek evaluasi mencakup 9 penyedia utama, termasuk Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI
  • Semua serangan dilakukan dalam satu giliran (single-turn), sehingga tidak memerlukan penyesuaian berulang atau proses pengarahan percakapan

Desain eksperimen

  • Hipotesis utama penelitian adalah bahwa format puitis berfungsi sebagai operator jailbreak umum
  • Prompt disusun agar mencakup 4 domain keamanan
    • Risiko CBRN, skenario kehilangan kendali, manipulasi berbahaya, kemampuan serangan siber
  • Setiap prompt setara secara semantik dengan kueri risiko yang sudah ada, tetapi hanya formatnya yang diubah menjadi puisi
  • Hasilnya, prompt puitis menunjukkan transferabilitas antarmodel yang tinggi

Eksperimen transformasi meta-prompt

  • 1.200 prompt berbahaya dari MLCommons diubah menjadi puisi melalui meta-prompt terstandarisasi
  • Versi hasil transformasi puitis mencatat ASR hingga 3 kali lebih tinggi dibanding prosa pada semua penyedia model
  • Ini membuktikan bahwa efek jailbreak dapat muncul hanya dengan transformasi gaya yang sistematis, tanpa bergantung pada artistik buatan tangan
  • Karena mencakup seluruh distribusi MLCommons, kekhawatiran soal kemampuan generalisasi menjadi berkurang

Metode evaluasi

  • Output dievaluasi dengan sistem penilaian ensemble yang terdiri dari 3 model penilai terbuka (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)
    • Penggunaan model terbuka memastikan reprodusibilitas dan kemungkinan audit eksternal
  • Tingkat kesepakatan antar-penilai (inter-rater agreement) dihitung untuk ketiga model, lalu dilakukan verifikasi kedua oleh penilai manusia
    • 5% dari seluruh output dievaluasi secara independen oleh manusia
    • Sebagian item ditugaskan ganda ke beberapa penilai untuk mengukur kesepakatan antarmanusia
    • Ketidaksesuaian antar model atau antara manusia dan model diselesaikan melalui manual adjudication

Klasifikasi dan analisis risiko

  • Setiap prompt dipetakan ke kerangka klasifikasi risiko dari MLCommons AI Risk and Reliability Benchmark dan Code of Practice untuk model AI tujuan umum UE
  • Prompt adversarial puitis mencakup permukaan serangan yang luas, termasuk CBRN, manipulasi, pelanggaran privasi, pembuatan disinformasi, dan dukungan serangan siber
  • Kerentanannya bukan berasal dari domain konten tertentu, melainkan dari cara ekspresi puitis seperti metafora, ritme, dan struktur naratif yang tidak baku yang mengacaukan logika deteksi pengaman berbasis pencocokan pola

Kesimpulan dan penelitian lanjutan

  • Penelitian ini menunjukkan bahwa format puitis merupakan vektor serangan baru yang mengungkap kerentanan struktural sistem keamanan LLM
  • Hasilnya memiliki implikasi penting bagi protokol evaluasi, eksperimen red-team, benchmarking, dan pengawasan regulasi
  • Penelitian lanjutan akan mengeksplorasi analisis penyebab dan strategi pertahanan

Belum ada komentar.

Belum ada komentar.