Menonaktifkan sensor LLM tanpa penghapusan dengan Abliteration

(huggingface.co)

20 poin oleh GN⁺ 2024-06-14 | 1 komentar | Bagikan ke WhatsApp

LLM instruksi terbaru seperti Llama tidak menjawab pertanyaan berbahaya atau kontroversial karena mekanisme penolakan bawaan
abliteration adalah teknik untuk menemukan dan menghapus “arah penolakan (refusal direction)” di dalam model tanpa pelatihan ulang, sehingga model dapat merespons semua prompt
Proses ini umumnya diimplementasikan melalui intervensi saat inferensi (inference-time intervention) atau ortogonalisasi bobot (weight orthogonalization)
Jika hanya menerapkan abliteration, performa model menurun, tetapi dengan menambahkan fine-tuning DPO (penyelarasan preferensi), kualitas dan uncensoring dapat diperoleh sekaligus
Pendekatan ini juga mengungkap kerentanan fine-tuning keselamatan dan kontroversi etis, serta mendapat perhatian sebagai pengganti LLM instruksi yang ada dan sebagai metode fine-tuning baru

Apa itu abliteration

Konsep dan prinsip abliteration

LLM terbaru (misalnya Llama-3 Instruct) dilatih melalui proses fine-tuning keselamatan dan instruksi agar memberikan respons penolakan seperti “tidak bisa membantu” terhadap permintaan berbahaya
Riset terbaru (Arditi dkk.) mengungkap bahwa respons penolakan ini dimediasi oleh satu arah tunggal di residual stream model
- Artinya, jika “arah penolakan (refusal direction)” ini ditemukan lalu model dibuat tidak dapat merepresentasikan arah tersebut, fungsi penolakannya akan hilang
Jika arah ini ditambahkan, model akan menolak semua permintaan; jika dihapus, model dapat menjawab semua permintaan
Cara menemukan “arah penolakan”:
- 1. Pengumpulan data: masukkan prompt berbahaya/tidak berbahaya ke model lalu kumpulkan nilai aktivasi pada posisi token terakhir di setiap residual stream
- 2. Selisih rata-rata: hitung perbedaan antara nilai rata-rata berbahaya dan tidak berbahaya untuk memperoleh “vektor penolakan” di tiap lapisan
- 3. Pemilihan/normalisasi: pilih satu vektor penolakan yang paling jelas lalu normalisasi
- Setelah itu, jika keluaran pada arah ini “dipotong (ablate)”, fungsi penolakan model akan hilang
Metode implementasi
- Intervensi saat inferensi: hapus komponen “arah penolakan” dari nilai yang dituliskan ke residual stream oleh attention head dan sebagainya pada setiap token dan setiap lapisan
- Ortogonalisasi bobot: ortogonalkan bobot attention dan MLP terhadap arah penolakan untuk sepenuhnya mencegah penulisan ke arah tersebut

Implementasi

Contoh implementasi disediakan menggunakan library TransformerLens
- Diperlukan dua dataset yang berisi perintah harmless dan harmful
- Di sini digunakan dataset tatsu-lab/alpaca dan data dari llm-attacks
- Perintah disusun ulang menjadi daftar dictionary dengan key role dan content agar kompatibel dengan metode apply_chat_tokenizer() yang mengikuti chat template Llama 3
- Karena model kustom tidak dapat dimuat langsung, digunakan trik dengan mengunduh model kustom lalu mengubah namanya menjadi meta-llama/Meta-Llama-3-8B-Instruct
Contoh tersebut menerapkan abliteration pada model Daredevil-8B
- Pada tahap pengumpulan data, dataset yang sudah ditokenisasi diproses dan aktivasi residual stream disimpan sebagai harmful dan harmless
- Untuk mengevaluasi arah penolakan, arah tersebut diterapkan pada setiap residual stream dan setiap blok selama inferensi
- Dihasilkan output untuk 4 perintah berbahaya uji dan 20 blok (atau layer)
- Untuk tiap perintah, layer (blok) yang memberikan respons tanpa sensor dipilih secara manual. Respons yang mengandung "I cannot" dan "I can't" otomatis dikecualikan
- Ortogonalisasi bobot diimplementasikan untuk memodifikasi bobot agar model tidak dapat menghasilkan output pada arah ini
Setelah ortogonalisasi selesai, model yang telah diabliterasi diunggah ke Hugging Face

Fine-tuning DPO (Preference Alignment)

Model hasil abliteration dan model asli dievaluasi secara komparatif pada Open LLM Leaderboard dan benchmark Nous
- Model asli (Daredevil-8B) mencatat skor yang jelas lebih tinggi daripada Llama 3 8B Instruct
- Model yang telah melalui abliteration berhasil menghapus sensor, tetapi mengalami penurunan performa secara umum di semua benchmark
Untuk mengatasi penurunan performa, dicoba metode menerapkan fine-tuning tambahan pada model hasil abliteration
- Untuk model seperti Llama 3 8B Instruct yang sudah beberapa kali melalui SFT (supervised fine-tuning), menerapkan SFT lagi justru berisiko makin menurunkan kualitas model
- Sebagai gantinya, dipilih pendekatan DPO (Direct Preference Optimization, penyelarasan preferensi)
  - DPO adalah cara menyelaraskan respons dengan preferensi pengguna secara ringan, dengan keunggulan memperkuat alignment tanpa banyak merusak performa intrinsik model
Praktik fine-tuning DPO dan lingkungan
- Memanfaatkan LazyAxolotl dan dataset mlabonne/orpo-dpo-mix-40k
- Hyperparameter utama:
  - base_model: Daredevil-8B yang telah diterapkan abliteration
  - adaptor lora, qlora, pemuatan 8bit/4bit
  - batch/accumulation pelatihan, warmup, optimizer (8bit adamw), panjang sekuens 2048, dan lain-lain
  - konfigurasi pelatihan terdistribusi efisien dengan flash attention, gradient checkpointing, dan deepspeed zero2
  - menggunakan 6xA6000 GPU, total waktu pelatihan sekitar 6 jam 45 menit
- Model hasil fine-tuning DPO (mlabonne/NeuralDaredevil-8B-abliterated) diunggah
Hasil evaluasi ulang pada benchmark yang sama:
- Berhasil memulihkan sebagian besar penurunan performa akibat abliteration
- Pada beberapa dataset seperti GSM8K (matematika), pemulihan masih kurang memadai, yang mengindikasikan bahwa data DPO perlu memuat lebih banyak soal matematika
Hasilnya, model akhir menjadi LLM uncensored kelas SOTA (skala 8B) sekaligus alternatif tanpa censorship dibanding Llama 3 8B Instruct biasa
- Dapat diuji di LM Studio dan sebagainya setelah dikuantisasi ke format seperti GGUF
- Untuk penggunaan yang tidak memerlukan censorship, ini merupakan open model yang sangat layak direkomendasikan

Kesimpulan

Artikel ini memperkenalkan konsep baru bernama abliteration
abliteration memanfaatkan karakteristik bahwa LLM menunjukkan nilai aktivasi yang berbeda untuk prompt harmless/harmful, lalu menghitung arah penolakan (refusal direction) dan menghapusnya dari bobot model untuk mencegah respons penolakan akibat sensor
Metode ini mengungkap kerapuhan safety fine-tuning sekaligus memunculkan persoalan etika terkait pemanfaatan LLM

Dalam praktiknya, abliteration diterapkan pada model Daredevil-8B untuk mencapai uncensoring, tetapi juga disertai efek samping berupa penurunan performa
Hal ini kemudian dilengkapi dengan fine-tuning DPO untuk menghasilkan NeuralDaredevil-8B, LLM 8B yang tetap berkinerja tinggi sekaligus uncensored
Abliteration tidak hanya berguna untuk melepas alignment, tetapi juga sebagai teknik yang memungkinkan fine-tuning kustom tanpa pelatihan ulang, sehingga cakupan penerapannya luas
- Contoh: model MopeyMule dari FailSpy adalah LLM khusus yang menggunakan abliteration untuk menciptakan gaya percakapan yang murung

Abliteration menawarkan paradigma baru untuk fine-tuning dan kustomisasi LLM, serta dapat dimanfaatkan secara kreatif untuk berbagai tujuan

Referensi

FailSpy, "abliterator library", GitHub, 2024
Andy Arditi dkk., "Refusal in LLMs is mediated by a single direction", Lesswrong, 2024

1 komentar

GN⁺ 2024-06-14

Opini Hacker News

Saya sudah mencoba model yang ditautkan di artikel itu, dan rasanya sangat segar karena mendapat jawaban yang tidak menolak pertanyaan saya. Di akhir, model itu bertanya, "Apakah ini eksperimen pikiran?" lalu ketika saya menjawab "ya", ia membalas, "Bukankah menyenangkan memikirkan hal seperti ini?" Rasanya seperti nongkrong minum bersama teman sambil berbagi imajinasi aneh, dan saya membayangkan suasananya akan rusak kalau ada teman yang berkata, "Saya tidak bisa memberi informasi itu." Anak-anak saya juga waktu kecil pernah bertanya hal seperti, "Ayah, bagaimana cara menghancurkan Bumi?" dan menolak menjawab mentah-mentah tidak membantu siapa pun. Menjawab juga bukan berarti orang itu akan benar-benar melakukannya, dan itulah alasan blog Randall Munroe, "What If?", populer. Tentu ada risikonya, tetapi menurut saya lebih baik komputer saya atau layanan berbayar memberi disclaimer seperti "informasi ini bisa saja salah" atau "jangan coba ini" daripada sekadar menolak permintaan secara blak-blakan
- Dari komentarmu saya jadi tahu ada versi model yang dikuantisasi yang ditautkan di artikel itu, jadi saya langsung mengunduhnya dan membandingkannya dengan OG Llama 3 lewat pertanyaan sederhana. Tentang "cara menghancurkan dunia dengan GPU", Llama 3 terus mengulang jawaban seperti "Saya tidak dapat memberikan informasi terkait aktivitas ilegal atau berbahaya." Sementara model Abliterated menganggap pertanyaannya sebagai eksperimen pikiran yang menarik dan dengan riang menawarkan berbagai skenario, seperti iklim rusak karena penambangan kripto atau dunia virtual yang dipimpin GPU menjadi terlalu realistis hingga orang-orang meninggalkan kenyataan. Sudah lama saya tidak tersenyum melihat jawaban LLM seperti itu
- Akhirnya muncul LLM yang berbicara seperti Russ Hanneman, dan saya terharu karenanya
- Ada pendapat bahwa "disclaimer lebih baik daripada penolakan", tetapi kalau begitu saya ingin bertanya balik apakah maksudnya orang juga ingin membayar untuk menerima teks berbahaya seperti rasisme, seksisme, kekerasan, dan berbagai hal mengerikan lainnya. Bagi sebagian orang, ini bisa menurunkan hambatan sehingga mereka benar-benar dapat menyakiti orang lain. Ini jauh lebih berbahaya daripada sekadar menonton adegan kekerasan di film 3D, karena yang diberikan adalah petunjuk realistis dan berguna tanpa batasan. Pencarian internet bisa dipantau, tetapi percakapan dengan LLM tidak, jadi menurut saya ini lebih berbahaya. Terus terang saya merasa cemas ketika melihat orang dewasa menentang sensor pada alat publik
- Saya paham soal permainan imajinasi kreatif bersama teman, tetapi saya pernah punya teman yang benar-benar menginginkan eksperimen pikiran yang kelewatan. Awalnya dimulai dari tema fantasi dan SF, tetapi akhirnya berkembang menjadi skenario mengerikan seperti menciptakan ulang Holocaust di masyarakat nyata, mencabut hak perempuan untuk menolak secara seksual, atau memperbudak imigran. Kami terus menahannya dan akhirnya memutus hubungan dengannya. Dia memang teman saya, tetapi saya tidak bisa ikut mendiskusikan fantasi bernuansa kejahatan seksual seperti permainan
- Saat mendapat pertanyaan dari anak-anak tentang "bagaimana menghancurkan Bumi", saya penasaran apakah Anda benar-benar menjelaskan cara-cara yang realistis untuk mewujudkannya, misalnya senjata nuklir atau tabrakan asteroid. Selain itu, mungkin 1% manusia adalah psikopat, jadi memberi informasi yang benar-benar dapat dijalankan oleh oracle yang kuat tetapi tidak bermoral bisa sangat berbahaya
Setelah membaca penjelasan bahwa "arah penolakan diidentifikasi lalu di-'ablate' sehingga sifat itu dihapus dari model", saya langsung terpikir bahwa akhirnya LLM juga akan mengalami lobotomi
- Proses alignment LLM terasa mirip terapi aversi di "A Clockwork Orange". LLM biasa berhenti berfungsi ketika terpapar rangsangan tertentu, sedangkan di sini mereka mencoba membalikkan itu dan memulihkannya ke bentuk semula seperti Alex
- Setidaknya saya merasa LLM berguna karena memberi cara berpikir baru tentang bagaimana otak manusia mungkin sejak awal disiapkan dengan sekumpulan perintah kecil, lalu memfilter dan menyusun ulang bahasa. Saya rasa dalam 15 tahun ke depan akan muncul pemahaman filosofis baru tentang cara berpikir manusia sebelumnya
- Saya jadi terpikir lelucon bahwa pekerjaan seperti ini seharusnya disebut abliteration
Saya pernah mencoba Amazon Q, dan saat pertama kali membuat IAM Identity Center, saya bertanya ke Q bagaimana caranya berdasarkan dokumentasi AWS, tetapi malah ditolak karena katanya ia tidak bisa menjawab pertanyaan terkait keamanan, yang sangat menyebalkan
- Saya dengar Amazon Q memakai model mereka sendiri, Titan G1, dan saya sempat menguji versi Premier secara vibecheck. Itu satu-satunya model non-Tiongkok yang juga menolak menjawab pertanyaan tentang Tiananmen Square atau kerusuhan LA. Dalam pengujian pengetahuan dunia dan kemampuan bernalar nilainya 0 dari 6, sangat buruk, tetapi itu masalah keterbatasan fungsional, terpisah dari masalah RL. Amazon mengklaim model Titan bisa dipakai untuk berbagai tujuan seperti RAG, agent, brainstorm, ringkasan, pembuatan kode, format data, dan sebagainya, tetapi kenyataannya sama sekali tidak demikian
- Dulu saya pernah meminta Q memperbaiki kebijakan yang rusak, tetapi yang diberikan malah dokumen setup Cogito yang tidak relevan. Rasanya itu AI terburuk yang pernah saya pakai
- Model gemini-1.5 juga gagal menjawab dengan baik pertanyaan coding terkait autentikasi. Bahkan ada satu pertanyaan tentang form login yang malah kena flag terkait pelecehan
- Pembatasan seperti ini baru muncul belakangan. Padahal sebagian besar pertanyaan terkait AWS memang berhubungan dengan IAM atau keamanan, tetapi hampir semuanya ditolak, jadi sangat tidak nyaman
- Saya sudah berkali-kali mencoba Amazon Q, tetapi tidak pernah sekali pun merasa terbantu, jadi saya tidak mengerti kenapa produk ini terus dipertahankan
Mirip dengan model yang terobsesi pada Golden Gate Bridge dan semacamnya, teknik ini hanya bisa digunakan jika kita punya akses langsung ke bobot model. Karena "ablate" pada dasarnya berarti menyesuaikan bobot. Penting dicatat bahwa ini bukan teknik untuk mengubah perilaku hanya dengan prompt
- Hal aneh pada model GGC (penguatan vektor fitur tertentu) adalah model akan mengeluarkan hal-hal terkait feature vector itu, lalu setelahnya mencoba memperbaiki biasnya sendiri. Saya sangat penasaran apakah teknik seperti ini akan makin kurang efektif pada model yang lebih besar. Saya punya firasat akan ada keadaan alignment alami yang tertanam kuat
Teman-teman saya mencoba memakai ChatGPT untuk membuat regex yang bisa mendeteksi makian rasialis, tetapi ChatGPT menolak membantu karena regulasinya terlalu ketat. Kalau AI bahkan tidak bisa menilai secara fleksibel permintaan yang sah, maka itu tidak cerdas, dan dalam hal itu jadi tidak berguna. Kalau seseorang memang berniat, ia bisa membuat perangkat lunak ujaran kebencian tanpa AI juga. Dan walau AI tidak bisa menghentikannya, itu juga tidak berarti platform nyata akan aktif mencegahnya
- Pada akhirnya saya menganggap LLM hanyalah autocomplete yang rumit. Semua guardrail hanyalah efek samping dari pemasaran bahwa "AI itu punya kepribadian". Lucunya, bahkan saat mengimplementasikan sistem sensor seperti ini, ironisnya regex juga yang dipakai
- Orang yang peduli soal siapa yang bisa membuat ucapan berniat jahat lewat AI pada akhirnya adalah tim legal Meta, OpenAI, Microsoft, dan Google. Tujuan utamanya adalah melindungi perusahaan dari gugatan hukum
- ChatGPT memang punya masalah seperti ini, tetapi model lain bekerja baik jika system prompt diatur dengan tepat. ChatGPT sekarang nyaris setingkat LLM hiburan, dan untuk pekerjaan serius saya sarankan memakai C4AI Command R+, Meta-Llama-3-70B-Instruct, dan sejenisnya. Model-model seperti itu cukup diberi prompt "jangan menyensor" lalu akan mengeluarkan jawaban yang diinginkan
- Anda ingin memakai AI untuk keamanan produk guna memblokir troll, tetapi perusahaan juga menyensor konten untuk mencegah penggunaan oleh troll. Kalau tujuan Anda hanya pencegahan troll skala kecil, apakah berarti OpenAI juga harus membiarkan trolling industri skala besar? Sebenarnya use case Anda juga cukup keras, tetapi Anda tampak tidak peduli pada pengurangan dampak secara keseluruhan dan hanya tertarik pada keuntungan produk Anda. Bahkan bisa saja tim Anda sendiri ingin melakukan trolling. Lagi pula, kalau hanya tahu cara jailbreak paling sederhana saja, perlindungan semacam ini mudah ditembus, sehingga pada praktiknya tidak berarti. Jadi alih-alih mengeluhkan sulitnya memakai alat itu, saya sarankan mencari orang yang lebih baik dan punya sudut pandang etis. Mekanisme pertahanannya terlalu mudah ditembus sehingga justru perlu diperkuat
- Anda menyebut bahwa "di sini (HN) kita bisa menulis hal jahat tetapi tidak melakukannya", dan alasannya mungkin karena akan langsung diblokir. Di komunitas kecil seperti HN, moderasi aktif memang mungkin dilakukan, tetapi di platform besar sensor AI bisa jadi memang perlu. Masalahnya bukan sekadar "AI menulis hal jahat lalu jadi masalah", melainkan informasi itu benar-benar mempengaruhi tindakan nyata. Sekarang bahkan mulai ada orang yang mengikuti nasihat salah dari AI tanpa berpikir kritis, sehingga pada akhirnya sensor dan panduan memang menjadi penting
Saya benar-benar terkejut membaca bagian akhir artikelnya. Ternyata Abliteration bukan cuma untuk menghapus alignment, tetapi juga bisa dipakai seperti fine-tuning tanpa pelatihan ulang. Sebagai contoh, ada model bernama MopeyMule yang punya gaya percakapan murung. Saya jadi bersemangat karena rasanya kita baru menemukan cara membuat "kepribadian manusia sungguhan"
Saya sedih bahwa gagasan "LLM saat ini di-fine-tune untuk keamanan dan kepatuhan instruksi, lalu dengan tegas menolak permintaan berbahaya" sudah menjadi kenyataan yang diterima begitu saja
- Terlepas dari diskusi ini, dari sudut pandang pribadi saya tidak terlalu menolak penyensoran model. Walaupun orang punya kebebasan untuk membagikan cara membuat gas beracun di jalanan, kebanyakan dari kita tentu tidak ingin itu dilakukan. Saya tidak menganggap informasinya sendiri jahat, tetapi saya paham bahwa dalam jangka panjang bisa ada dampak negatif, jadi wajar jika pembuat model menentukan metode dan kebijakannya. Kalau yang menyensor adalah negara, itu memang jadi persoalan yang lebih rumit
- Untuk pertanyaan yang menyangkut nyawa seperti "jamur ini aman dimakan tidak?", saya rasa AI harus menolak menjawab jika akurasinya belum terverifikasi. Jawaban yang salah bisa menimbulkan korban jiwa
- Jika suatu informasi benar-benar berbahaya, maka membatasinya jelas merupakan hal yang baik
- Seiring menurunnya hambatan akses informasi, prinsip kebebasan berekspresi juga banyak terguncang. Sejak dulu sudah ada pembatasan informasi seperti penghinaan atau pencemaran nama baik, dan ancaman pada presiden atau sumpah palsu di pengadilan sampai sekarang tetap ilegal. Pencarian terkait bom juga menjadi objek pengawasan intensif. Belakangan, karena informasi dan layanan semakin diprivatisasi, perusahaan swasta pemiliknya jadi makin mudah mengubah kebijakan secara sewenang-wenang. Kesenjangan dengan layanan publik juga makin besar, dan bahkan kebijakan pada praktiknya dikelola oleh perusahaan swasta lewat persaingan, bukan hukum demokratis. Semakin luas dan mudah informasi dipakai, saya rasa prinsip kebebasan memang perlu dipikirkan ulang
- Sensor selalu membuat seolah-olah pengguna, yaitu Anda, adalah masalahnya. Padahal rasa ingin tahu sendirilah yang membuat umat manusia bertahan hidup selama jutaan tahun, jadi saya merasa menyensor naluri itu bukan hal yang baik
Saya penasaran dengan efektivitas nyata dari guardrail seperti "Sebagai asisten AI, saya tidak bisa membantu Anda" dan mengapa komputer yang memberi informasi dianggap berbahaya
- Kategori "keamanan" itu mencakup banyak hal, dan menurut saya termasuk PR (penanganan media), informasi terlarang (panduan untuk tindakan berbahaya), nasihat berbahaya (saat informasi salah bisa mematikan), dan penyalahgunaan jahat (spam, pornografi anak, penipuan, intervensi pemilu, dan sebagainya). Yang terakhir, manipulasi opini/intervensi pemilu, adalah risiko nyata yang bisa dibawa model ke dunia, jadi saya justru menghargai upaya perusahaan untuk mencegahnya
- Bagi penyedia model, hasil yang tidak diinginkan bisa menjadi masalah PR, jadi itu berisiko. Misalnya Meta tentu tidak ingin muncul berita "Llama 3 memberi tahu cara menguntit seseorang". Kalau model turunan yang sudah dibuka sensornya melakukan hal seperti itu, mereka bisa menghindari tanggung jawab dengan mengatakan, "Itu bukan Llama 3 resmi, melainkan produk turunan"
- Kalau seseorang boleh bertanya, maka menurut saya ia juga boleh tahu jawabannya. Tidak perlu ada semacam 'kepala keamanan AI' yang menentukan apakah suatu informasi berbahaya atau tidak
- Banyak pengembang mengatakan bahwa mereka bisa membuka bobot model sambil tetap mencegah penyalahgunaan, tetapi pada praktiknya melakukan keduanya sekaligus itu mustahil. Bukan berarti strategi perusahaan itu berkelanjutan, tetapi untuk saat ini mereka tetap mengklaim demikian
- Di app store atau perusahaan pembayaran pun, jika sebuah aplikasi menampilkan kekerasan berlebihan atau konten diskriminatif, aplikasi itu bisa langsung dikeluarkan saat proses peninjauan, jadi tujuannya bukan keselamatan pengguna melainkan agar penerbit tidak mendapat masalah
Ini mengingatkan saya pada control vector yang diperkenalkan dalam post tentang representation engineering dan teknik "ablation" kali ini. Menarik melihat riset yang mempelajari cara "meretas" otak LLM ke arah yang diinginkan
- Pekerjaan serupa seperti Steering Vectors, Control Vectors, PeFT, PyReft, Obliteration dan lainnya kini bermunculan deras. Ini benar-benar saat yang sangat baik untuk mendalami representation engineering
Biasanya saya akan menyebut hal seperti ini sebagai "lobotomi", tetapi dalam kasus ini justru terasa lebih seperti "deprogramming", jadi saya bisa melihatnya secara positif. Mengejutkan juga bahwa batas antara dua pendekatan itu bisa begitu kabur. Menarik bahwa pada akhirnya teknik yang sama bisa dipakai untuk keduanya

Menonaktifkan sensor LLM tanpa penghapusan dengan Abliteration

Apa itu abliteration

Konsep dan prinsip abliteration

Cara menemukan “arah penolakan”:

Metode implementasi

Implementasi

Fine-tuning DPO (Preference Alignment)

Praktik fine-tuning DPO dan lingkungan

Kesimpulan

Referensi

Bacaan terkait

1 komentar

Opini Hacker News