- Heretic adalah alat untuk menghapus penyensoran ('penyelarasan keamanan') secara otomatis dari model bahasa berbasis transformer, dan dapat bekerja tanpa pelatihan tambahan
- Menggabungkan teknik direction ablation dan optimisasi TPE berbasis Optuna untuk meminimalkan respons penolakan sekaligus meminimalkan hilangnya kecerdasan model asli
- Bahkan dengan pengaturan bawaan saja, alat ini mencapai kualitas yang mirip dengan model yang diablate secara manual oleh pakar, dan divergensi KL yang rendah berarti performa asli lebih terjaga
- Mendukung sebagian besar model dense dan beberapa model MoE, serta menyediakan proses otomatis penuh yang dapat dijalankan dengan satu baris di command line
- Merupakan teknologi yang dapat menghapus filter keamanan model sambil mempertahankan kualitas aslinya, sehingga berpotensi besar dimanfaatkan dalam lingkungan riset dan eksperimen model bahasa
Ikhtisar Heretic
- Heretic adalah alat otomatis untuk menghapus sensor (safety alignment) dari model bahasa transformer
- Bekerja tanpa pelatihan tambahan atau penyesuaian manual
- Menggabungkan teknik directional ablation (abliteration) dan optimisasi parameter berbasis TPE dari Optuna
- Tujuannya adalah mengurangi jumlah penolakan (refusal) sambil meminimalkan divergensi KL agar kemampuan model asli tetap semaksimal mungkin terjaga
- Dapat digunakan tanpa memahami struktur internal transformer, dan de-sensorisasi model bisa dilakukan hanya lewat eksekusi command line
Perbandingan performa
- Heretic dapat mencapai hasil yang mirip dengan model hasil ablasi manual hanya dengan eksekusi otomatis
- Contoh: berdasarkan model
google/gemma-3-12b-it
- Asli: penolakan 97/100, divergensi KL 0
- Model hasil ablasi manual: penolakan 3/100, divergensi KL 0.45~1.04
- Hasil Heretic: penolakan 3/100, divergensi KL 0.16
- Menjaga tingkat penekanan penolakan yang sama sambil meminimalkan kerusakan pada model asli
- Angka diukur pada lingkungan PyTorch 2.8 dan RTX 5090, dan nilainya dapat berbeda tergantung platform
Model yang didukung dan distribusi
- Mendukung sebagian besar model dense, beberapa model multimodal, dan berbagai arsitektur MoE
- Model SSM/hybrid, layer heterogen, dan struktur attention khusus masih belum didukung
- Kumpulan model yang telah di-de-sensorisasi dengan Heretic dapat dilihat di Hugging Face melalui koleksi p-e-w/the-bestiary
Cara penggunaan
Cara kerja
- Heretic mengimplementasikan varian terparametrisasi dari directional ablation
- Mencari matriks attention out-projection dan MLP down-projection di tiap layer transformer, lalu melakukan ortogonalisasi terhadap arah penolakan (refusal direction)
- Arah penolakan dihitung menggunakan selisih rata-rata residual token pertama antara prompt “berbahaya” dan “tidak berbahaya”
- Proses ablasi dikendalikan oleh beberapa parameter yang dapat dioptimalkan
direction_index: apakah arah penolakan per layer digunakan
max_weight, max_weight_position, min_weight, min_weight_distance: mendefinisikan bentuk dan posisi kernel bobot ablasi per layer
Inovasi teknis utama
- Peningkatan fleksibilitas bentuk kernel bobot untuk memperbaiki keseimbangan kualitas-kepatuhan
- Indeks arah penolakan diperlakukan sebagai nilai float, sehingga ruang arah yang lebih luas dapat dieksplorasi lewat interpolasi linear antar vektor yang berdekatan
- Parameter ablasi individual diterapkan per komponen, dengan mempertimbangkan perbedaan pengaruh MLP dan attention untuk mengoptimalkan performa
Riset terdahulu terkait
- Contoh implementasi serupa yang telah dipublikasikan
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
- Heretic tidak menggunakan ulang kode-kode tersebut dan ditulis secara independen dari nol
Referensi dan pengaruh
Lisensi
- Berlaku GNU Affero General Public License v3 atau lebih baru
- Bebas dimodifikasi dan didistribusikan ulang, tetapi tanpa jaminan
- Kontributor harus menyetujui publikasi kode di bawah lisensi yang sama
Belum ada komentar.