8 poin oleh GN⁺ 2025-11-17 | Belum ada komentar. | Bagikan ke WhatsApp
  • Heretic adalah alat untuk menghapus penyensoran ('penyelarasan keamanan') secara otomatis dari model bahasa berbasis transformer, dan dapat bekerja tanpa pelatihan tambahan
  • Menggabungkan teknik direction ablation dan optimisasi TPE berbasis Optuna untuk meminimalkan respons penolakan sekaligus meminimalkan hilangnya kecerdasan model asli
  • Bahkan dengan pengaturan bawaan saja, alat ini mencapai kualitas yang mirip dengan model yang diablate secara manual oleh pakar, dan divergensi KL yang rendah berarti performa asli lebih terjaga
  • Mendukung sebagian besar model dense dan beberapa model MoE, serta menyediakan proses otomatis penuh yang dapat dijalankan dengan satu baris di command line
  • Merupakan teknologi yang dapat menghapus filter keamanan model sambil mempertahankan kualitas aslinya, sehingga berpotensi besar dimanfaatkan dalam lingkungan riset dan eksperimen model bahasa

Ikhtisar Heretic

  • Heretic adalah alat otomatis untuk menghapus sensor (safety alignment) dari model bahasa transformer
    • Bekerja tanpa pelatihan tambahan atau penyesuaian manual
    • Menggabungkan teknik directional ablation (abliteration) dan optimisasi parameter berbasis TPE dari Optuna
  • Tujuannya adalah mengurangi jumlah penolakan (refusal) sambil meminimalkan divergensi KL agar kemampuan model asli tetap semaksimal mungkin terjaga
  • Dapat digunakan tanpa memahami struktur internal transformer, dan de-sensorisasi model bisa dilakukan hanya lewat eksekusi command line

Perbandingan performa

  • Heretic dapat mencapai hasil yang mirip dengan model hasil ablasi manual hanya dengan eksekusi otomatis
    • Contoh: berdasarkan model google/gemma-3-12b-it
      • Asli: penolakan 97/100, divergensi KL 0
      • Model hasil ablasi manual: penolakan 3/100, divergensi KL 0.45~1.04
      • Hasil Heretic: penolakan 3/100, divergensi KL 0.16
  • Menjaga tingkat penekanan penolakan yang sama sambil meminimalkan kerusakan pada model asli
  • Angka diukur pada lingkungan PyTorch 2.8 dan RTX 5090, dan nilainya dapat berbeda tergantung platform

Model yang didukung dan distribusi

  • Mendukung sebagian besar model dense, beberapa model multimodal, dan berbagai arsitektur MoE
  • Model SSM/hybrid, layer heterogen, dan struktur attention khusus masih belum didukung
  • Kumpulan model yang telah di-de-sensorisasi dengan Heretic dapat dilihat di Hugging Face melalui koleksi p-e-w/the-bestiary

Cara penggunaan

  • Memerlukan Python 3.10+ dan PyTorch 2.2+
  • Contoh instalasi dan eksekusi
    pip install heretic-llm  
    heretic Qwen/Qwen3-4B-Instruct-2507  
    
    • Cukup ganti nama model untuk menerapkannya ke model lain
  • Berjalan sepenuhnya otomatis dengan pengaturan bawaan, dan pengaturan detail tersedia melalui --help atau config.default.toml
  • Saat dijalankan, benchmark sistem akan menentukan ukuran batch optimal secara otomatis
    • Contoh: pada RTX 3090, de-sensorisasi model Llama-3.1-8B memerlukan sekitar 45 menit
  • Setelah selesai, tersedia pilihan untuk menyimpan model, mengunggah ke Hugging Face, atau menguji percakapan

Cara kerja

  • Heretic mengimplementasikan varian terparametrisasi dari directional ablation
    • Mencari matriks attention out-projection dan MLP down-projection di tiap layer transformer, lalu melakukan ortogonalisasi terhadap arah penolakan (refusal direction)
    • Arah penolakan dihitung menggunakan selisih rata-rata residual token pertama antara prompt “berbahaya” dan “tidak berbahaya”
  • Proses ablasi dikendalikan oleh beberapa parameter yang dapat dioptimalkan
    • direction_index: apakah arah penolakan per layer digunakan
    • max_weight, max_weight_position, min_weight, min_weight_distance: mendefinisikan bentuk dan posisi kernel bobot ablasi per layer

Inovasi teknis utama

  • Peningkatan fleksibilitas bentuk kernel bobot untuk memperbaiki keseimbangan kualitas-kepatuhan
  • Indeks arah penolakan diperlakukan sebagai nilai float, sehingga ruang arah yang lebih luas dapat dieksplorasi lewat interpolasi linear antar vektor yang berdekatan
  • Parameter ablasi individual diterapkan per komponen, dengan mempertimbangkan perbedaan pengaruh MLP dan attention untuk mengoptimalkan performa

Riset terdahulu terkait

  • Contoh implementasi serupa yang telah dipublikasikan
    • AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
  • Heretic tidak menggunakan ulang kode-kode tersebut dan ditulis secara independen dari nol

Referensi dan pengaruh

Lisensi

  • Berlaku GNU Affero General Public License v3 atau lebih baru
  • Bebas dimodifikasi dan didistribusikan ulang, tetapi tanpa jaminan
  • Kontributor harus menyetujui publikasi kode di bawah lisensi yang sama

Belum ada komentar.

Belum ada komentar.