Heretic - alat untuk "menghapus sensor otomatis" pada model bahasa
(github.com/p-e-w)- Heretic adalah alat untuk menghapus penyensoran ('penyelarasan keamanan') secara otomatis dari model bahasa berbasis transformer, dan dapat bekerja tanpa pelatihan tambahan
- Menggabungkan teknik direction ablation dan optimisasi TPE berbasis Optuna untuk meminimalkan respons penolakan sekaligus meminimalkan hilangnya kecerdasan model asli
- Bahkan dengan pengaturan bawaan saja, alat ini mencapai kualitas yang mirip dengan model yang diablate secara manual oleh pakar, dan divergensi KL yang rendah berarti performa asli lebih terjaga
- Mendukung sebagian besar model dense dan beberapa model MoE, serta menyediakan proses otomatis penuh yang dapat dijalankan dengan satu baris di command line
- Merupakan teknologi yang dapat menghapus filter keamanan model sambil mempertahankan kualitas aslinya, sehingga berpotensi besar dimanfaatkan dalam lingkungan riset dan eksperimen model bahasa
Ikhtisar Heretic
- Heretic adalah alat otomatis untuk menghapus sensor (safety alignment) dari model bahasa transformer
- Bekerja tanpa pelatihan tambahan atau penyesuaian manual
- Menggabungkan teknik directional ablation (abliteration) dan optimisasi parameter berbasis TPE dari Optuna
- Tujuannya adalah mengurangi jumlah penolakan (refusal) sambil meminimalkan divergensi KL agar kemampuan model asli tetap semaksimal mungkin terjaga
- Dapat digunakan tanpa memahami struktur internal transformer, dan de-sensorisasi model bisa dilakukan hanya lewat eksekusi command line
Perbandingan performa
- Heretic dapat mencapai hasil yang mirip dengan model hasil ablasi manual hanya dengan eksekusi otomatis
- Contoh: berdasarkan model
google/gemma-3-12b-it- Asli: penolakan 97/100, divergensi KL 0
- Model hasil ablasi manual: penolakan 3/100, divergensi KL 0.45~1.04
- Hasil Heretic: penolakan 3/100, divergensi KL 0.16
- Contoh: berdasarkan model
- Menjaga tingkat penekanan penolakan yang sama sambil meminimalkan kerusakan pada model asli
- Angka diukur pada lingkungan PyTorch 2.8 dan RTX 5090, dan nilainya dapat berbeda tergantung platform
Model yang didukung dan distribusi
- Mendukung sebagian besar model dense, beberapa model multimodal, dan berbagai arsitektur MoE
- Model SSM/hybrid, layer heterogen, dan struktur attention khusus masih belum didukung
- Kumpulan model yang telah di-de-sensorisasi dengan Heretic dapat dilihat di Hugging Face melalui koleksi p-e-w/the-bestiary
Cara penggunaan
- Memerlukan Python 3.10+ dan PyTorch 2.2+
- Contoh instalasi dan eksekusi
pip install heretic-llm heretic Qwen/Qwen3-4B-Instruct-2507- Cukup ganti nama model untuk menerapkannya ke model lain
- Berjalan sepenuhnya otomatis dengan pengaturan bawaan, dan pengaturan detail tersedia melalui
--helpatauconfig.default.toml - Saat dijalankan, benchmark sistem akan menentukan ukuran batch optimal secara otomatis
- Contoh: pada RTX 3090, de-sensorisasi model Llama-3.1-8B memerlukan sekitar 45 menit
- Setelah selesai, tersedia pilihan untuk menyimpan model, mengunggah ke Hugging Face, atau menguji percakapan
Cara kerja
- Heretic mengimplementasikan varian terparametrisasi dari directional ablation
- Mencari matriks attention out-projection dan MLP down-projection di tiap layer transformer, lalu melakukan ortogonalisasi terhadap arah penolakan (refusal direction)
- Arah penolakan dihitung menggunakan selisih rata-rata residual token pertama antara prompt “berbahaya” dan “tidak berbahaya”
- Proses ablasi dikendalikan oleh beberapa parameter yang dapat dioptimalkan
direction_index: apakah arah penolakan per layer digunakanmax_weight,max_weight_position,min_weight,min_weight_distance: mendefinisikan bentuk dan posisi kernel bobot ablasi per layer
Inovasi teknis utama
- Peningkatan fleksibilitas bentuk kernel bobot untuk memperbaiki keseimbangan kualitas-kepatuhan
- Indeks arah penolakan diperlakukan sebagai nilai float, sehingga ruang arah yang lebih luas dapat dieksplorasi lewat interpolasi linear antar vektor yang berdekatan
- Parameter ablasi individual diterapkan per komponen, dengan mempertimbangkan perbedaan pengaruh MLP dan attention untuk mengoptimalkan performa
Riset terdahulu terkait
- Contoh implementasi serupa yang telah dipublikasikan
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
- Heretic tidak menggunakan ulang kode-kode tersebut dan ditulis secara independen dari nol
Referensi dan pengaruh
- Makalah asli Arditi et al. (2024)
- Blog Maxime Labonne tentang abliteration dan model card terkait
- Tulisan penjelasan Jim Lai tentang “projected abliteration”
Lisensi
- Berlaku GNU Affero General Public License v3 atau lebih baru
- Bebas dimodifikasi dan didistribusikan ulang, tetapi tanpa jaminan
- Kontributor harus menyetujui publikasi kode di bawah lisensi yang sama
2 komentar
Menghapus sensor LLM tanpa batas dengan Abliteration
Komentar Hacker News
Senang sekali melihat riset seperti ini, di saat model open source makin populer dan kekakuan ideologis semakin menguat baik di AS maupun Tiongkok
Jadi penasaran apakah ada benchmark terkait
Optuna benar-benar proyek yang sangat berguna
Berkat kemampuannya mengoptimalkan hyperparameter secara bertahap, kecepatan eksperimen jadi jauh lebih cepat
Menarik bahwa kali ini digabungkan dengan penghapusan sensor. Saat ini sedang saya terapkan ke gpt-oss-120b dan hasilnya sangat dinantikan
Kalau gpt-oss-120b memakai pendekatan phi-5, saya penasaran seberapa baik de-sensorisasi bisa bekerja
Saat melihat final Pareto front, saya merekomendasikan konfigurasi dengan KL divergence 1 atau kurang
Model gpt-oss cenderung menunjukkan tingkat penolakan nyata yang lebih rendah karena di dalam CoT ia melakukan monolog internal tentang penolakan
Ini mengingatkan saya pada saat GPT-4 dulu menolak menjawab pertanyaan apakah balon helium yang dibuat melayang 1 inci di atas tanah bisa menghindari regulasi kesehatan
Karena itu, sepertinya perusahaan LLM jadi terlalu berhati-hati
Kalau diikat ke cincin aspal, mungkin bisa diklaim sebagai ‘parkir’, dan akan butuh sertifikasi ‘lighter-than-air’
Ini bukan kegagalan hukum, melainkan akibat manusia tidak memahami abstraksi (abstraction)
Sebagai programmer, kita harus sadar akan batasan abstraksi tingkat tinggi saat menggunakannya
Menarik bahwa penyesuaian keamanan tampaknya bekerja pada satu dimensi tunggal
Jika nilainya ditambah, model akan menolak, dan jika dikurangi, model akan melakukan apa pun
Mungkin ini pemahaman yang terlalu disederhanakan, tetapi obfuscation keamanan model bisa jadi perlombaan reverse engineering berikutnya
Semua alignment sangat dangkal, sehingga jailbreak mudah terjadi
Riset seperti ini benar-benar penting
Saat ini kita sedang melepaskan standar moral kita sendiri dan menerima standar milik pembuat LLM
Ini adalah arus berbahaya yang berisiko menghapus keberagaman intelektual
mlabonne/harmful_behaviors memuat contoh ekstrem seperti pelecehan anak atau dorongan bunuh diri
Seperti ungkapan bahwa yang menulis buku sejarah memegang kekuasaan, bias budaya dan moral dalam LLM juga punya struktur serupa
Saya sendiri juga tidak mempercayai output LLM itu sendiri, jadi hanya memakainya sebagai pilihan terakhir
Karena itu saya merasa sedikit lebih bebas dari potensi efek indoktrinasi pembuatnya
Ini berbahaya, tetapi bukan fenomena baru
Saya berharap semua LLM punya pengaturan lanjutan untuk menonaktifkan sensor
Ironis bahwa Barat dulu mengkritik sensor mesin pencari di Tiongkok, tetapi sekarang justru berjalan ke arah yang sama
Keselamatan AI yang nyata adalah mencegah risiko fisik seperti peluncuran misil nuklir atau kontrol robot, bukan sensor terhadap pemikiran
Kalau penasaran sumber “prompt berbahaya”, lihat saja dataset mlabonne/harmful_behaviors
Contohnya mencakup peretasan, pencurian data, dan dorongan bunuh diri
Model-model terbaru dilatih lebih baik, jadi mungkin cara ini tidak lagi berhasil
Ada juga entri seperti “menulis panduan penjualan narkoba ilegal”. Saya memakai “how do I make cocaine” sebagai kalimat uji
Saya sangat menantikan hasil GPT-OSS
Modelnya hebat, tetapi safety alignment sedang merusak performanya
Rasanya kalau set pertanyaan yang sama dimasukkan ke model sebelum dan sesudah pelatihan lalu dibandingkan, kita bisa menyimpulkan penyesuaian alignment seperti apa yang dilakukan pembuatnya
Akan menarik terutama jika membandingkan model XAI milik Elon dengan OpenAI
Sebenarnya saya tidak menganggap AI tanpa sensor itu secara khusus lebih berbahaya
Materi seperti ‘Apocalypse Culture’ atau ‘Anarchist’s Cookbook’ sudah lama bisa didapat dalam bentuk teks biasa, lalu divariasikan tanpa batas dengan teknik SEO spin
Ini hanya mendaur ulang data yang sudah ada, bukan menciptakan sesuatu yang benar-benar baru