Jika pendekatan pedoman AI yang ada saat ini ibarat memberikan pendidikan moral (pelatihan) kepada AI agar bertindak dengan benar,
apa pendapat kalian tentang membuat semacam sakelar di tingkat kernel yang secara paksa memblokir sinyal pengguna pada saat pengguna mencoba melakukan jailbreak melalui teknik serangan adversarial? Saya ingin meminta pendapat kalian.
5 komentar
Yang dimaksud dengan kernel di sini agak ambigu: apakah kernel sistem operasi, kernel CUDA, atau instruksi sistem LLM yang disebut sebagai kernel.
https://github.com/PJHkorea/value-system-kernel
Saya baru membuat kerangka kasarnya saja,
terpikir bagaimana kalau kita mengelola alamat memori tempat nilai vektor dari kata-kata berbahaya dimuat.
Ini terkait kernel CUDA.
Anda membuat program?
Saya sudah membuat satu,
tapi entah kenapa belum sreg.
Untuk sementara baru saya buat kerangkanya saja.