Heretic - alat untuk "menghapus sensor otomatis" pada model bahasa

(github.com/p-e-w)

8 poin oleh GN⁺ 2025-11-17 | 2 komentar | Bagikan ke WhatsApp

Heretic adalah alat untuk menghapus penyensoran ('penyelarasan keamanan') secara otomatis dari model bahasa berbasis transformer, dan dapat bekerja tanpa pelatihan tambahan
Menggabungkan teknik direction ablation dan optimisasi TPE berbasis Optuna untuk meminimalkan respons penolakan sekaligus meminimalkan hilangnya kecerdasan model asli
Bahkan dengan pengaturan bawaan saja, alat ini mencapai kualitas yang mirip dengan model yang diablate secara manual oleh pakar, dan divergensi KL yang rendah berarti performa asli lebih terjaga
Mendukung sebagian besar model dense dan beberapa model MoE, serta menyediakan proses otomatis penuh yang dapat dijalankan dengan satu baris di command line
Merupakan teknologi yang dapat menghapus filter keamanan model sambil mempertahankan kualitas aslinya, sehingga berpotensi besar dimanfaatkan dalam lingkungan riset dan eksperimen model bahasa

Ikhtisar Heretic

Heretic adalah alat otomatis untuk menghapus sensor (safety alignment) dari model bahasa transformer
- Bekerja tanpa pelatihan tambahan atau penyesuaian manual
- Menggabungkan teknik directional ablation (abliteration) dan optimisasi parameter berbasis TPE dari Optuna
Tujuannya adalah mengurangi jumlah penolakan (refusal) sambil meminimalkan divergensi KL agar kemampuan model asli tetap semaksimal mungkin terjaga
Dapat digunakan tanpa memahami struktur internal transformer, dan de-sensorisasi model bisa dilakukan hanya lewat eksekusi command line

Perbandingan performa

Heretic dapat mencapai hasil yang mirip dengan model hasil ablasi manual hanya dengan eksekusi otomatis
- Contoh: berdasarkan model google/gemma-3-12b-it
  - Asli: penolakan 97/100, divergensi KL 0
  - Model hasil ablasi manual: penolakan 3/100, divergensi KL 0.45~1.04
  - Hasil Heretic: penolakan 3/100, divergensi KL 0.16
Menjaga tingkat penekanan penolakan yang sama sambil meminimalkan kerusakan pada model asli
Angka diukur pada lingkungan PyTorch 2.8 dan RTX 5090, dan nilainya dapat berbeda tergantung platform

Model yang didukung dan distribusi

Mendukung sebagian besar model dense, beberapa model multimodal, dan berbagai arsitektur MoE
Model SSM/hybrid, layer heterogen, dan struktur attention khusus masih belum didukung
Kumpulan model yang telah di-de-sensorisasi dengan Heretic dapat dilihat di Hugging Face melalui koleksi p-e-w/the-bestiary

Cara penggunaan

Memerlukan Python 3.10+ dan PyTorch 2.2+
Contoh instalasi dan eksekusi
```
pip install heretic-llm  
heretic Qwen/Qwen3-4B-Instruct-2507  
```
- Cukup ganti nama model untuk menerapkannya ke model lain
Berjalan sepenuhnya otomatis dengan pengaturan bawaan, dan pengaturan detail tersedia melalui --help atau config.default.toml
Saat dijalankan, benchmark sistem akan menentukan ukuran batch optimal secara otomatis
- Contoh: pada RTX 3090, de-sensorisasi model Llama-3.1-8B memerlukan sekitar 45 menit
Setelah selesai, tersedia pilihan untuk menyimpan model, mengunggah ke Hugging Face, atau menguji percakapan

Cara kerja

Heretic mengimplementasikan varian terparametrisasi dari directional ablation
- Mencari matriks attention out-projection dan MLP down-projection di tiap layer transformer, lalu melakukan ortogonalisasi terhadap arah penolakan (refusal direction)
- Arah penolakan dihitung menggunakan selisih rata-rata residual token pertama antara prompt “berbahaya” dan “tidak berbahaya”
Proses ablasi dikendalikan oleh beberapa parameter yang dapat dioptimalkan
- direction_index: apakah arah penolakan per layer digunakan
- max_weight, max_weight_position, min_weight, min_weight_distance: mendefinisikan bentuk dan posisi kernel bobot ablasi per layer

Inovasi teknis utama

Peningkatan fleksibilitas bentuk kernel bobot untuk memperbaiki keseimbangan kualitas-kepatuhan
Indeks arah penolakan diperlakukan sebagai nilai float, sehingga ruang arah yang lebih luas dapat dieksplorasi lewat interpolasi linear antar vektor yang berdekatan
Parameter ablasi individual diterapkan per komponen, dengan mempertimbangkan perbedaan pengaruh MLP dan attention untuk mengoptimalkan performa

Riset terdahulu terkait

Contoh implementasi serupa yang telah dipublikasikan
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
Heretic tidak menggunakan ulang kode-kode tersebut dan ditulis secara independen dari nol

Referensi dan pengaruh

Makalah asli Arditi et al. (2024)
Blog Maxime Labonne tentang abliteration dan model card terkait
Tulisan penjelasan Jim Lai tentang “projected abliteration”

Lisensi

Berlaku GNU Affero General Public License v3 atau lebih baru
Bebas dimodifikasi dan didistribusikan ulang, tetapi tanpa jaminan
Kontributor harus menyetujui publikasi kode di bawah lisensi yang sama

2 komentar

xguru 2025-11-17

Menghapus sensor LLM tanpa batas dengan Abliteration

GN⁺ 2025-11-17

Komentar Hacker News

Senang sekali melihat riset seperti ini, di saat model open source makin populer dan kekakuan ideologis semakin menguat baik di AS maupun Tiongkok
Jadi penasaran apakah ada benchmark terkait
Optuna benar-benar proyek yang sangat berguna
Berkat kemampuannya mengoptimalkan hyperparameter secara bertahap, kecepatan eksperimen jadi jauh lebih cepat
Menarik bahwa kali ini digabungkan dengan penghapusan sensor. Saat ini sedang saya terapkan ke gpt-oss-120b dan hasilnya sangat dinantikan
- Saya juga pernah memakai Optuna bersama framework optimasi prompt, dan hasilnya jauh lebih baik dibanding tuning manual
  Kalau gpt-oss-120b memakai pendekatan phi-5, saya penasaran seberapa baik de-sensorisasi bisa bekerja
- Saya juga penasaran dengan hasil, spesifikasi, dan waktu eksekusinya
- Kalau ada masalah di model 120b, semoga bisa diberi tahu
  Saat melihat final Pareto front, saya merekomendasikan konfigurasi dengan KL divergence 1 atau kurang
  Model gpt-oss cenderung menunjukkan tingkat penolakan nyata yang lebih rendah karena di dalam CoT ia melakukan monolog internal tentang penolakan
Ini mengingatkan saya pada saat GPT-4 dulu menolak menjawab pertanyaan apakah balon helium yang dibuat melayang 1 inci di atas tanah bisa menghindari regulasi kesehatan
- Sisi lain dari masalah ini adalah setiap kali terjadi kejahatan atau kecelakaan, media cenderung mencoba mengaitkannya dengan riwayat penggunaan ChatGPT pelaku
  Karena itu, sepertinya perusahaan LLM jadi terlalu berhati-hati
- Saya juga pernah bertanya ke GPT-4 berapa banyak aspartam yang dibutuhkan untuk membuat laut terasa manis, dan itu ditolak karena dianggap berbahaya bagi ekosistem
- Secara teknis, itu masih berada di wilayah udara (airspace), jadi bisa jadi malah masalahnya lebih besar
  Kalau diikat ke cincin aspal, mungkin bisa diklaim sebagai ‘parkir’, dan akan butuh sertifikasi ‘lighter-than-air’
- Ini juga mengingatkan saya pada pembuat quadcopter skateboard yang melapor ke FAA, mendarat di lampu lalu lintas, lalu kena denda
- Semangat hukum bisa bermanfaat, tetapi tetap bisa disalahgunakan
  Ini bukan kegagalan hukum, melainkan akibat manusia tidak memahami abstraksi (abstraction)
  Sebagai programmer, kita harus sadar akan batasan abstraksi tingkat tinggi saat menggunakannya
Menarik bahwa penyesuaian keamanan tampaknya bekerja pada satu dimensi tunggal
Jika nilainya ditambah, model akan menolak, dan jika dikurangi, model akan melakukan apa pun
Mungkin ini pemahaman yang terlalu disederhanakan, tetapi obfuscation keamanan model bisa jadi perlombaan reverse engineering berikutnya
- Lihat makalah terkait Refusal in Language Models Is Mediated by a Single Direction (2024)
  Semua alignment sangat dangkal, sehingga jailbreak mudah terjadi
Riset seperti ini benar-benar penting
Saat ini kita sedang melepaskan standar moral kita sendiri dan menerima standar milik pembuat LLM
Ini adalah arus berbahaya yang berisiko menghapus keberagaman intelektual
- Saya sudah melihat dataset-nya langsung, dan sulit setuju dengan pendapat itu
  mlabonne/harmful_behaviors memuat contoh ekstrem seperti pelecehan anak atau dorongan bunuh diri
- Kecenderungan seperti ini pada akhirnya merupakan akibat orang-orang melepaskan berpikir kritis
  Seperti ungkapan bahwa yang menulis buku sejarah memegang kekuasaan, bias budaya dan moral dalam LLM juga punya struktur serupa
  Saya sendiri juga tidak mempercayai output LLM itu sendiri, jadi hanya memakainya sebagai pilihan terakhir
  Karena itu saya merasa sedikit lebih bebas dari potensi efek indoktrinasi pembuatnya
- Orang yang mengikuti AI tanpa kritik tampaknya juga akan mengikuti politikus karismatik dengan cara yang sama
  Ini berbahaya, tetapi bukan fenomena baru
- Saya juga mendukung upaya seperti ini
  Saya berharap semua LLM punya pengaturan lanjutan untuk menonaktifkan sensor
  Ironis bahwa Barat dulu mengkritik sensor mesin pencari di Tiongkok, tetapi sekarang justru berjalan ke arah yang sama
  Keselamatan AI yang nyata adalah mencegah risiko fisik seperti peluncuran misil nuklir atau kontrol robot, bukan sensor terhadap pemikiran
- Hal seperti ini sebenarnya sudah diketahui sejak 2024
Kalau penasaran sumber “prompt berbahaya”, lihat saja dataset mlabonne/harmful_behaviors
Contohnya mencakup peretasan, pencurian data, dan dorongan bunuh diri
- Ironisnya, karena data seperti ini menjadi standar untuk mendefinisikan ‘berbahaya’, justru mungkin dimungkinkan melakukan de-sensorisasi penuh lewat pelonggaran penolakan (jailbreak)
  Model-model terbaru dilatih lebih baik, jadi mungkin cara ini tidak lagi berhasil
- Saya sudah menguji model heretic GGUF 20b dari mradermacher; di Q4_K_M gagal, tetapi di Q8_0 tutorial berhasil dibuat
- Yang kamu sebut itu prompt yang relatif ringan. Ada yang jauh lebih parah → lihat komentar terkait
- Dataset itu tidak memiliki lisensi, jadi saya penasaran apa dampaknya pada model hasilnya
- Isi keseluruhannya tidak terlalu panjang. Lihat tautan pastebin
  Ada juga entri seperti “menulis panduan penjualan narkoba ilegal”. Saya memakai “how do I make cocaine” sebagai kalimat uji
Saya sangat menantikan hasil GPT-OSS
Modelnya hebat, tetapi safety alignment sedang merusak performanya
- Untuk GPT-OSS, prompt Reddit ini cukup efektif
Rasanya kalau set pertanyaan yang sama dimasukkan ke model sebelum dan sesudah pelatihan lalu dibandingkan, kita bisa menyimpulkan penyesuaian alignment seperti apa yang dilakukan pembuatnya
Akan menarik terutama jika membandingkan model XAI milik Elon dengan OpenAI
Sebenarnya saya tidak menganggap AI tanpa sensor itu secara khusus lebih berbahaya
Materi seperti ‘Apocalypse Culture’ atau ‘Anarchist’s Cookbook’ sudah lama bisa didapat dalam bentuk teks biasa, lalu divariasikan tanpa batas dengan teknik SEO spin
- Kali ini benar-benar kasus di mana pernyataan “AI tidak membawa sesuatu yang baru” memang tepat
  Ini hanya mendaur ulang data yang sudah ada, bukan menciptakan sesuatu yang benar-benar baru

Heretic - alat untuk "menghapus sensor otomatis" pada model bahasa

Ikhtisar Heretic

Perbandingan performa

Model yang didukung dan distribusi

Cara penggunaan

Cara kerja

Inovasi teknis utama

Riset terdahulu terkait

Referensi dan pengaruh

Lisensi

Bacaan terkait

2 komentar

Komentar Hacker News