- Proyek open-source yang mendekripsi dan memublikasikan filter keamanan yang tertanam di model generatif Apple Intelligence
- Filter keamanan memblokir konten berbahaya atau tidak pantas dan mencakup aturan pemfilteran untuk kepatuhan
- Override keamanan diterapkan berbeda sesuai konteks model, dan menyediakan informasi aturan spesifik untuk tiap situasi
- File yang didekripsi berbentuk json, mencakup kata, frasa, dan aturan berbasis regex
- Proyek ini merupakan sumber daya yang bermakna untuk verifikasi privasi dan keandalan, serta analisis keamanan model
Gambaran proyek
- Repositori ini mendekripsi dan memublikasikan file override keamanan (safety override) dari model generatif yang digunakan di Apple Intelligence
- Override yang telah didekripsi ditata secara terstruktur di dalam folder, dan disediakan dalam bentuk file JSON pemfilteran keamanan yang terkait dengan masing-masing model
- Dengan ini, kita dapat memeriksa secara konkret kebijakan pemfilteran konten apa yang benar-benar diterapkan oleh model Apple
Struktur folder dan file
decrypted_overrides/
- Menyimpan file override keamanan per direktori untuk masing-masing model generatif
- Tiap direktori mencakup Info.plist (metadata) dan AssetData (file JSON filter)
get_key_lldb.py: skrip Python untuk mengekstrak kunci enkripsi yang digunakan aplikasi
decrypt_overrides.py: skrip Python untuk mendekripsi file override keamanan
Mendekripsi dan memahami file override
- File JSON override memuat aturan pemfilteran keamanan yang jelas
- Tiap override dipasangkan dengan konteks model tertentu, dan cara pemfilterannya berbeda tergantung situasi
- Contoh JSON mencakup field seperti berikut:
"reject": daftar frasa spesifik yang akan ditolak secara paksa jika cocok dengan input
"remove": frasa yang harus dihapus dari hasil keluaran
"replace": mengganti frasa tertentu dengan frasa lain
"regexReject": menolak jika cocok dengan regex
"regexRemove", "regexReplace": penghapusan dan penggantian melalui regex
Makna dan pemanfaatan proyek
- Proyek ini dapat digunakan sebagai referensi untuk menelaah aturan pemfilteran nyata pada model generatif Apple dan untuk mengevaluasi keamanan serta keandalannya
- Berguna bagi pengembang dan penanggung jawab keamanan yang menggunakan model generatif untuk menganalisis perilaku filter atau sebagai referensi desain filter kustom model
- Memungkinkan pemahaman yang transparan atas kebijakan konten dan tingkat kepatuhan yang diterapkan oleh Apple Intelligence
1 komentar
Komentar Hacker News