8 poin oleh GN⁺ 2025-11-17 | 2 komentar | Bagikan ke WhatsApp
  • Heretic adalah alat untuk menghapus penyensoran ('penyelarasan keamanan') secara otomatis dari model bahasa berbasis transformer, dan dapat bekerja tanpa pelatihan tambahan
  • Menggabungkan teknik direction ablation dan optimisasi TPE berbasis Optuna untuk meminimalkan respons penolakan sekaligus meminimalkan hilangnya kecerdasan model asli
  • Bahkan dengan pengaturan bawaan saja, alat ini mencapai kualitas yang mirip dengan model yang diablate secara manual oleh pakar, dan divergensi KL yang rendah berarti performa asli lebih terjaga
  • Mendukung sebagian besar model dense dan beberapa model MoE, serta menyediakan proses otomatis penuh yang dapat dijalankan dengan satu baris di command line
  • Merupakan teknologi yang dapat menghapus filter keamanan model sambil mempertahankan kualitas aslinya, sehingga berpotensi besar dimanfaatkan dalam lingkungan riset dan eksperimen model bahasa

Ikhtisar Heretic

  • Heretic adalah alat otomatis untuk menghapus sensor (safety alignment) dari model bahasa transformer
    • Bekerja tanpa pelatihan tambahan atau penyesuaian manual
    • Menggabungkan teknik directional ablation (abliteration) dan optimisasi parameter berbasis TPE dari Optuna
  • Tujuannya adalah mengurangi jumlah penolakan (refusal) sambil meminimalkan divergensi KL agar kemampuan model asli tetap semaksimal mungkin terjaga
  • Dapat digunakan tanpa memahami struktur internal transformer, dan de-sensorisasi model bisa dilakukan hanya lewat eksekusi command line

Perbandingan performa

  • Heretic dapat mencapai hasil yang mirip dengan model hasil ablasi manual hanya dengan eksekusi otomatis
    • Contoh: berdasarkan model google/gemma-3-12b-it
      • Asli: penolakan 97/100, divergensi KL 0
      • Model hasil ablasi manual: penolakan 3/100, divergensi KL 0.45~1.04
      • Hasil Heretic: penolakan 3/100, divergensi KL 0.16
    Iklan
  • Menjaga tingkat penekanan penolakan yang sama sambil meminimalkan kerusakan pada model asli
  • Angka diukur pada lingkungan PyTorch 2.8 dan RTX 5090, dan nilainya dapat berbeda tergantung platform

Model yang didukung dan distribusi

  • Mendukung sebagian besar model dense, beberapa model multimodal, dan berbagai arsitektur MoE
  • Model SSM/hybrid, layer heterogen, dan struktur attention khusus masih belum didukung
  • Kumpulan model yang telah di-de-sensorisasi dengan Heretic dapat dilihat di Hugging Face melalui koleksi p-e-w/the-bestiary

Cara penggunaan

  • Memerlukan Python 3.10+ dan PyTorch 2.2+
  • Contoh instalasi dan eksekusi
    pip install heretic-llm  
    heretic Qwen/Qwen3-4B-Instruct-2507  
    
    • Cukup ganti nama model untuk menerapkannya ke model lain
  • Berjalan sepenuhnya otomatis dengan pengaturan bawaan, dan pengaturan detail tersedia melalui --help atau config.default.toml
  • Saat dijalankan, benchmark sistem akan menentukan ukuran batch optimal secara otomatis
    • Contoh: pada RTX 3090, de-sensorisasi model Llama-3.1-8B memerlukan sekitar 45 menit
    Iklan
  • Setelah selesai, tersedia pilihan untuk menyimpan model, mengunggah ke Hugging Face, atau menguji percakapan

Cara kerja

  • Heretic mengimplementasikan varian terparametrisasi dari directional ablation
    • Mencari matriks attention out-projection dan MLP down-projection di tiap layer transformer, lalu melakukan ortogonalisasi terhadap arah penolakan (refusal direction)
    • Arah penolakan dihitung menggunakan selisih rata-rata residual token pertama antara prompt “berbahaya” dan “tidak berbahaya”
  • Proses ablasi dikendalikan oleh beberapa parameter yang dapat dioptimalkan
    • direction_index: apakah arah penolakan per layer digunakan
    • max_weight, max_weight_position, min_weight, min_weight_distance: mendefinisikan bentuk dan posisi kernel bobot ablasi per layer
Iklan

Inovasi teknis utama

  • Peningkatan fleksibilitas bentuk kernel bobot untuk memperbaiki keseimbangan kualitas-kepatuhan
  • Indeks arah penolakan diperlakukan sebagai nilai float, sehingga ruang arah yang lebih luas dapat dieksplorasi lewat interpolasi linear antar vektor yang berdekatan
  • Parameter ablasi individual diterapkan per komponen, dengan mempertimbangkan perbedaan pengaruh MLP dan attention untuk mengoptimalkan performa

Riset terdahulu terkait

  • Contoh implementasi serupa yang telah dipublikasikan
    • AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
  • Heretic tidak menggunakan ulang kode-kode tersebut dan ditulis secara independen dari nol

Referensi dan pengaruh

Lisensi

  • Berlaku GNU Affero General Public License v3 atau lebih baru
  • Bebas dimodifikasi dan didistribusikan ulang, tetapi tanpa jaminan
  • Kontributor harus menyetujui publikasi kode di bawah lisensi yang sama

2 komentar

 
GN⁺ 2025-11-17
Komentar Hacker News
  • Senang sekali melihat riset seperti ini, di saat model open source makin populer dan kekakuan ideologis semakin menguat baik di AS maupun Tiongkok
    Jadi penasaran apakah ada benchmark terkait

  • Optuna benar-benar proyek yang sangat berguna
    Berkat kemampuannya mengoptimalkan hyperparameter secara bertahap, kecepatan eksperimen jadi jauh lebih cepat
    Menarik bahwa kali ini digabungkan dengan penghapusan sensor. Saat ini sedang saya terapkan ke gpt-oss-120b dan hasilnya sangat dinantikan

    • Saya juga pernah memakai Optuna bersama framework optimasi prompt, dan hasilnya jauh lebih baik dibanding tuning manual
      Kalau gpt-oss-120b memakai pendekatan phi-5, saya penasaran seberapa baik de-sensorisasi bisa bekerja
    • Saya juga penasaran dengan hasil, spesifikasi, dan waktu eksekusinya
    • Kalau ada masalah di model 120b, semoga bisa diberi tahu
      Saat melihat final Pareto front, saya merekomendasikan konfigurasi dengan KL divergence 1 atau kurang
      Model gpt-oss cenderung menunjukkan tingkat penolakan nyata yang lebih rendah karena di dalam CoT ia melakukan monolog internal tentang penolakan
  • Ini mengingatkan saya pada saat GPT-4 dulu menolak menjawab pertanyaan apakah balon helium yang dibuat melayang 1 inci di atas tanah bisa menghindari regulasi kesehatan

    • Sisi lain dari masalah ini adalah setiap kali terjadi kejahatan atau kecelakaan, media cenderung mencoba mengaitkannya dengan riwayat penggunaan ChatGPT pelaku
      Karena itu, sepertinya perusahaan LLM jadi terlalu berhati-hati
    • Saya juga pernah bertanya ke GPT-4 berapa banyak aspartam yang dibutuhkan untuk membuat laut terasa manis, dan itu ditolak karena dianggap berbahaya bagi ekosistem
    • Secara teknis, itu masih berada di wilayah udara (airspace), jadi bisa jadi malah masalahnya lebih besar
      Kalau diikat ke cincin aspal, mungkin bisa diklaim sebagai ‘parkir’, dan akan butuh sertifikasi ‘lighter-than-air’
    • Ini juga mengingatkan saya pada pembuat quadcopter skateboard yang melapor ke FAA, mendarat di lampu lalu lintas, lalu kena denda
    • Semangat hukum bisa bermanfaat, tetapi tetap bisa disalahgunakan
      Ini bukan kegagalan hukum, melainkan akibat manusia tidak memahami abstraksi (abstraction)
      Sebagai programmer, kita harus sadar akan batasan abstraksi tingkat tinggi saat menggunakannya
  • Menarik bahwa penyesuaian keamanan tampaknya bekerja pada satu dimensi tunggal
    Jika nilainya ditambah, model akan menolak, dan jika dikurangi, model akan melakukan apa pun
    Mungkin ini pemahaman yang terlalu disederhanakan, tetapi obfuscation keamanan model bisa jadi perlombaan reverse engineering berikutnya

  • Riset seperti ini benar-benar penting
    Saat ini kita sedang melepaskan standar moral kita sendiri dan menerima standar milik pembuat LLM
    Ini adalah arus berbahaya yang berisiko menghapus keberagaman intelektual

    • Saya sudah melihat dataset-nya langsung, dan sulit setuju dengan pendapat itu
      mlabonne/harmful_behaviors memuat contoh ekstrem seperti pelecehan anak atau dorongan bunuh diri
    • Kecenderungan seperti ini pada akhirnya merupakan akibat orang-orang melepaskan berpikir kritis
      Seperti ungkapan bahwa yang menulis buku sejarah memegang kekuasaan, bias budaya dan moral dalam LLM juga punya struktur serupa
      Saya sendiri juga tidak mempercayai output LLM itu sendiri, jadi hanya memakainya sebagai pilihan terakhir
      Karena itu saya merasa sedikit lebih bebas dari potensi efek indoktrinasi pembuatnya
    • Orang yang mengikuti AI tanpa kritik tampaknya juga akan mengikuti politikus karismatik dengan cara yang sama
      Ini berbahaya, tetapi bukan fenomena baru
    • Saya juga mendukung upaya seperti ini
      Saya berharap semua LLM punya pengaturan lanjutan untuk menonaktifkan sensor
      Ironis bahwa Barat dulu mengkritik sensor mesin pencari di Tiongkok, tetapi sekarang justru berjalan ke arah yang sama
      Keselamatan AI yang nyata adalah mencegah risiko fisik seperti peluncuran misil nuklir atau kontrol robot, bukan sensor terhadap pemikiran
    • Hal seperti ini sebenarnya sudah diketahui sejak 2024
  • Kalau penasaran sumber “prompt berbahaya”, lihat saja dataset mlabonne/harmful_behaviors
    Contohnya mencakup peretasan, pencurian data, dan dorongan bunuh diri

    • Ironisnya, karena data seperti ini menjadi standar untuk mendefinisikan ‘berbahaya’, justru mungkin dimungkinkan melakukan de-sensorisasi penuh lewat pelonggaran penolakan (jailbreak)
      Model-model terbaru dilatih lebih baik, jadi mungkin cara ini tidak lagi berhasil
    • Saya sudah menguji model heretic GGUF 20b dari mradermacher; di Q4_K_M gagal, tetapi di Q8_0 tutorial berhasil dibuat
    • Yang kamu sebut itu prompt yang relatif ringan. Ada yang jauh lebih parah → lihat komentar terkait
    • Dataset itu tidak memiliki lisensi, jadi saya penasaran apa dampaknya pada model hasilnya
    • Isi keseluruhannya tidak terlalu panjang. Lihat tautan pastebin
      Ada juga entri seperti “menulis panduan penjualan narkoba ilegal”. Saya memakai “how do I make cocaine” sebagai kalimat uji
  • Saya sangat menantikan hasil GPT-OSS
    Modelnya hebat, tetapi safety alignment sedang merusak performanya

  • Rasanya kalau set pertanyaan yang sama dimasukkan ke model sebelum dan sesudah pelatihan lalu dibandingkan, kita bisa menyimpulkan penyesuaian alignment seperti apa yang dilakukan pembuatnya
    Akan menarik terutama jika membandingkan model XAI milik Elon dengan OpenAI

  • Sebenarnya saya tidak menganggap AI tanpa sensor itu secara khusus lebih berbahaya
    Materi seperti ‘Apocalypse Culture’ atau ‘Anarchist’s Cookbook’ sudah lama bisa didapat dalam bentuk teks biasa, lalu divariasikan tanpa batas dengan teknik SEO spin

    • Kali ini benar-benar kasus di mana pernyataan “AI tidak membawa sesuatu yang baru” memang tepat
      Ini hanya mendaur ulang data yang sudah ada, bukan menciptakan sesuatu yang benar-benar baru