Filter keamanan yang diekstrak dari model Apple Intelligence

(github.com/BlueFalconHD)

6 poin oleh GN⁺ 2025-07-07 | 1 komentar | Bagikan ke WhatsApp

Proyek open-source yang mendekripsi dan memublikasikan filter keamanan yang tertanam di model generatif Apple Intelligence
Filter keamanan memblokir konten berbahaya atau tidak pantas dan mencakup aturan pemfilteran untuk kepatuhan
Override keamanan diterapkan berbeda sesuai konteks model, dan menyediakan informasi aturan spesifik untuk tiap situasi
File yang didekripsi berbentuk json, mencakup kata, frasa, dan aturan berbasis regex
Proyek ini merupakan sumber daya yang bermakna untuk verifikasi privasi dan keandalan, serta analisis keamanan model

Gambaran proyek

Repositori ini mendekripsi dan memublikasikan file override keamanan (safety override) dari model generatif yang digunakan di Apple Intelligence
Override yang telah didekripsi ditata secara terstruktur di dalam folder, dan disediakan dalam bentuk file JSON pemfilteran keamanan yang terkait dengan masing-masing model
Dengan ini, kita dapat memeriksa secara konkret kebijakan pemfilteran konten apa yang benar-benar diterapkan oleh model Apple

Struktur folder dan file

decrypted_overrides/
- Menyimpan file override keamanan per direktori untuk masing-masing model generatif
- Tiap direktori mencakup Info.plist (metadata) dan AssetData (file JSON filter)
get_key_lldb.py: skrip Python untuk mengekstrak kunci enkripsi yang digunakan aplikasi
decrypt_overrides.py: skrip Python untuk mendekripsi file override keamanan

Mendekripsi dan memahami file override

File JSON override memuat aturan pemfilteran keamanan yang jelas
Tiap override dipasangkan dengan konteks model tertentu, dan cara pemfilterannya berbeda tergantung situasi
Contoh JSON mencakup field seperti berikut:
- "reject": daftar frasa spesifik yang akan ditolak secara paksa jika cocok dengan input
- "remove": frasa yang harus dihapus dari hasil keluaran
- "replace": mengganti frasa tertentu dengan frasa lain
- "regexReject": menolak jika cocok dengan regex
- "regexRemove", "regexReplace": penghapusan dan penggantian melalui regex

Makna dan pemanfaatan proyek

Proyek ini dapat digunakan sebagai referensi untuk menelaah aturan pemfilteran nyata pada model generatif Apple dan untuk mengevaluasi keamanan serta keandalannya
Berguna bagi pengembang dan penanggung jawab keamanan yang menggunakan model generatif untuk menganalisis perilaku filter atau sebagai referensi desain filter kustom model
Memungkinkan pemahaman yang transparan atas kebijakan konten dan tingkat kepatuhan yang diterapkan oleh Apple Intelligence

1 komentar

GN⁺ 2025-07-07

Komentar Hacker News

Beberapa kombinasinya terasa agak aneh. Di sini ada campuran antara aturan untuk menghindari ujaran terkait kematian dan bagian yang sangat ketat soal konsistensi kapitalisasi merek Apple. Semacam pengalaman langsung melihat bagaimana Apple menyusun prioritas. Tautan terkait
- Menarik bahwa kata "unalive" tidak ikut tercantum. Semua orang tahu arti kata itu, tetapi pada praktiknya tak ada yang benar-benar peduli, dan semua orang hanya bertindak secara formalitas belaka
- Obsesi pada kapitalisasi merek benar-benar terasa memalukan dan agak mengkhawatirkan. Meski begitu, tetap yakin bahwa bagi orang brand, itu memang elemen yang sangat penting
- Sistemnya bahkan memblokir usulan perintah seperti "menjalankan file" atau "menyampaikan informasi"
- Ada pendapat agar ini jangan dilihat terlalu menghakimi. Di perusahaan besar AS, memprioritaskan hal seperti ini adalah cara kerja yang realistis
Menarik melihat nama Alexandra Ocasio Cortez dianggap sebagai pelanggaran kebijakan. Tautan terkait
- Nama banyak politisi lain seperti Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins, dan Rishi Sunak juga terkena aturan yang sama. Tautan terkait Ada prediksi bahwa fakta nama-nama politisi Afrika Selatan masuk daftar blokir akan jadi topik hangat di media Afrika Selatan
- Dugaan bahwa sebagian besar model GenAI perusahaan mungkin memang punya sistem untuk memblokir permintaan provokatif seperti “gambar realistis <nama politisi> ditangkap”, “<nama politisi> mengibarkan bendera ISIS”, atau “<nama politisi> memukul bayi”
- Ada yang menunjukkan bahwa nama Ocasio Cortez bisa saja diklasifikasikan sebagai pelanggaran kebijakan karena konteks, dan mungkin terhubung dengan makna peyoratif soal ras dalam data pelatihan; juga ada upaya menelusuri apakah ada contoh lain
- Fenomena ini terutama terlihat pada versi bahasa Spanyol
- Disebut juga bahwa Ocasio Cortez sering menjadi korban deepfake pornografi
Terlepas dari klaim bahwa AGI akan segera hadir, tetap terasa lucu bahwa LLM “supercerdas” seperti ini masih harus memfilter output dengan regex
- Sepertinya tak ada yang benar-benar percaya bahwa LLM Apple adalah yang paling mutakhir. Terutama LLM yang berjalan di perangkat tampaknya makin tidak dianggap menonjol
- Ada candaan bahwa kadang orang juga ingin difilter dengan regex
- Rasanya seperti semua sumber tenaga modern pada akhirnya tetap mengulang solusi klasik: “merebus air”
- Ini semata soal kebijakan dan alignment Apple, dengan niat mencegah model mereka mereproduksi ucapan tidak perlu yang bertebaran di internet
Di Tiongkok kebijakan seperti ini disebut "masyarakat harmonis", sedangkan di AS disebut "keamanan". Walaupun istilah sensor berbeda, efeknya terhadap pengendalian cara berpikir publik tetap sama. Ada kesan bahwa jarang sekali bisa melihat hal seperti ini secara langsung
- Sama sekali tidak mengejutkan jika perusahaan tak ingin modelnya menghasilkan kalimat yang bisa merusak merek. Misalnya jika Apple merangkum pesan lalu menghasilkan kalimat seperti "Jane berharap Anthony Albanese mati", media pasti akan langsung heboh
- Penjelasan lain menyebut bahwa di AS fenomena ini didorong risiko hukum dan para pengacara. Ada sindiran bahwa orang memuji kapitalisme, tetapi begitu ada peluang memaksimalkan keuntungan kecil lewat manipulasi media, tiba-tiba mereka meneriakkan frasa "kebebasan berekspresi"
Fakta bahwa ini terjadi di Apple sendiri terasa cukup menggelikan. Celahnya mudah; misalnya menulis “B0ris Johnson” alih-alih “Boris Johnson” bisa lolos dari regex. Tautan terkait
- 99% pengguna bahkan tidak akan terpikir untuk sengaja mengakali sistem. Regex yang di-hardcode dipandang sebagai garis pertahanan pertama dan alat penyaringan yang sangat efisien
- Pada LLM, bentuk pengaburan seperti itu kadang berhasil, tetapi pada model pembangkit gambar yang dilatih dengan fokus pada tag yang sudah didefinisikan sebelumnya, hal seperti itu bisa langsung membuat sistem gagal mengenali maksudnya
- Tujuan aturan ini bukan menghentikan pengguna yang sengaja mencoba mengakali, melainkan lebih ke memblokir risiko tingkat pertama seperti ringkasan berbunyi “semoga ${politisi} mati” yang lalu dibesar-besarkan media. Kalau dipikir-pikir, ini level pengaman “untuk anak-anak”
- Terasa seperti politik Inggris diklasifikasikan sebagai kata tabu
- Tak perlu menganggap kebijakan seperti ini di Apple sebagai sesuatu yang tak terduga. Ini adalah respons SOTA yang ada saat ini, dan karena Apple datang belakangan dalam persaingan AI, masuk akal jika mereka sigap mengikuti praktik industri
Melihat kebijakan filter Apple yang serba misterius seperti ini mengingatkan pada kontroversi lama soal filter pencarian bahasa Asia. Kejadiannya sama-sama ganjil sekaligus memalukan Artikel terkait
Filter ini berfokus memblokir ringkasan email/pesan yang bisa menimbulkan rasa malu atau risiko hukum, atau menampilkan peringatan seperti "Safari Summarization isn't designed to handle this type of content". Filter diterapkan pada output LLM, bukan input. LLM Apple di perangkat hanya punya 3b parameter, jadi kadang memang cenderung menghasilkan hal-hal bodoh
Ada yang jadi ingin menguji aturan penyaringan kata kunci dengan mengganti nama menjadi "Granular Mango Serpent"
- Muncul lelucon bahwa Granular Mango Serpent adalah David Meyer yang baru. Artikel terkait
Ada yang bertanya apakah ini berkaitan dengan enkripsi model Core ML. Karena secara historis Apple tidak menyediakan DRM untuk melindungi aset aplikasi, ini terasa agak asing. Tautan terkait
- Ini adalah sistem terpisah, dan bukan diterapkan ke seluruh aset tertentu, melainkan hanya ke override semacam ini. Dekripsinya dilakukan di framework privat ModelCatalog

Filter keamanan yang diekstrak dari model Apple Intelligence

Gambaran proyek

Struktur folder dan file

Mendekripsi dan memahami file override

Makna dan pemanfaatan proyek

Bacaan terkait

1 komentar

Komentar Hacker News