Memperkenalkan OpenAI Privacy Filter

(openai.com)

5 poin oleh GN⁺ 14 jam lalu | 1 komentar | Bagikan ke WhatsApp

Model open-weight yang melakukan deteksi dan penyamaran informasi identitas pribadi pada teks tidak terstruktur, dan dapat dijalankan secara lokal agar data tidak keluar dari perangkat sebelum difilter
Dirancang dengan menggabungkan klasifikasi token dua arah dan span decoding untuk memberi label pada input sekaligus, lalu memulihkan span PII dengan cepat dalam konteks hingga 128.000 token
Berbeda dari pendekatan berbasis aturan yang bergantung pada format seperti nomor telepon atau email, model ini lebih baik dalam membedakan informasi publik dan informasi yang perlu dimasking berdasarkan pemahaman bahasa dan konteks
Dilatih menggunakan gabungan data publik dan sintetis, mencatat F1 96% pada PII-Masking-300k, F1 97,43% pada versi terkoreksi, dan performa adaptasi domain meningkat dari 54% menjadi 96% bahkan dengan sedikit data
Bukan pengganti alat anonimisasi atau sertifikasi kepatuhan, dan pada area sangat sensitif peninjauan manusia, evaluasi per domain, serta fine-tuning tambahan tetap penting

Gambaran produk dan cara distribusi

Model open-weight yang dikhususkan untuk deteksi dan penyamaran informasi identitas pribadi, yang dapat menemukan PII dalam teks lalu memasking atau menghapusnya
Mendukung eksekusi lokal, sehingga data tidak perlu keluar dari perangkat sebelum difilter, dan dapat mengurangi risiko paparan dibanding mengirimkannya ke server untuk di-de-identifikasi
Dirancang untuk memproses input panjang dengan cepat, dan dapat menentukan apakah sesuatu perlu disamarkan dalam satu kali pass
Pengembang dapat menjalankannya di lingkungan mereka sendiri dan melakukan fine-tuning sesuai use case masing-masing untuk menambahkan perlindungan privasi yang lebih kuat ke pipeline pelatihan, pengindeksan, logging, dan peninjauan
Dirilis di Hugging Face dan GitHub dengan lisensi Apache 2.0, dengan mempertimbangkan eksperimen, kustomisasi, hingga deployment komersial

Apa yang membedakannya dari pendekatan lama

Alat deteksi PII tradisional sering mengandalkan aturan deterministik untuk format seperti nomor telepon atau alamat email
Pendekatan seperti ini bisa bekerja baik pada cakupan sempit, tetapi mudah melewatkan informasi pribadi yang lebih subtil dan lemah dalam memahami konteks
Privacy Filter dapat mendeteksi PII yang lebih beragam dalam teks tidak terstruktur berdasarkan pemahaman bahasa dan konteks yang lebih mendalam
Model ini dirancang agar lebih baik dalam membedakan informasi yang harus dipertahankan karena bersifat publik dan informasi yang harus dimasking atau dihapus karena terkait dengan individu
Dikembangkan dengan tujuan menaikkan standar privasi melampaui tingkat yang ada, dan versi hasil fine-tuning juga digunakan dalam workflow internal yang menjaga privasi

Arsitektur model dan cakupan deteksi

Menggunakan arsitektur yang menggabungkan model klasifikasi token dua arah dengan span decoding
Dimulai dari checkpoint pra-pelatihan autoregresif, lalu diadaptasi menjadi pengklasifikasi token di atas skema label privasi yang tetap
Alih-alih menghasilkan teks per token, model memberi label pada seluruh urutan input sekaligus, lalu memulihkan span yang konsisten dengan prosedur Viterbi yang dibatasi
Berkat arsitektur ini, semua token dapat diberi label dalam satu forward pass dengan karakteristik cepat dan efisien
Dapat memanfaatkan konteks sekitar untuk menentukan span PII, dan model yang dipublikasikan mendukung konteks hingga 128.000 token
Titik keseimbangan antara recall dan precision dapat disesuaikan dengan kebutuhan lingkungan operasional
Model yang dirilis memiliki total 1,5B parameter, dengan 50M parameter aktif
Kategori prediksi terdiri dari 8 jenis: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret
account_number digunakan untuk menutupi berbagai nomor akun termasuk nomor kartu kredit dan rekening bank, sedangkan secret mencakup item seperti kata sandi dan API key
Label didekodekan sebagai tag span BIOES untuk menghasilkan batas masking yang lebih rapi dan konsisten

Proses pelatihan dan hasil evaluasi

Pertama dibuat taxonomy privasi untuk mendefinisikan jenis span yang harus dideteksi model
- Mencakup pengenal individu, informasi kontak, alamat, tanggal privat, berbagai nomor akun termasuk informasi kredit dan perbankan, serta secret seperti API key dan kata sandi
Setelah language modeling head pada model bahasa pra-pelatihan diganti dengan token-classification head, model dilatih lanjutan dengan objective klasifikasi terawasi
Model dilatih dengan campuran data publik dan sintetis agar dapat menangkap teks realistis sekaligus pola privasi yang sulit
- Pada data publik, bagian dengan label yang tidak lengkap ditutupi dengan anotasi berbantuan model dan peninjauan untuk meningkatkan cakupan
- Contoh sintetis digunakan untuk menambah keragaman format, konteks, dan subtipe privasi
Saat inferensi, prediksi per token diubah menjadi span yang konsisten melalui sequence decoding yang dibatasi
Evaluasi dilakukan dengan benchmark standar serta evaluasi sintetis dan bergaya chat tambahan yang menargetkan kasus lebih sulit dan sensitif terhadap konteks
Pada PII-Masking-300k, model mencatat F1 96%, precision 94,04%, recall 98,04%
Pada versi terkoreksi yang mencerminkan masalah anotasi dataset yang ditemukan saat peninjauan, model mencatat F1 97,43%, precision 96,79%, recall 98,08%
Bahkan dengan sedikit data, adaptasi domain berlangsung cepat, dan pada benchmark adaptasi domain yang dievaluasi F1 naik dari 54% menjadi 96%
Model card juga memuat stress test untuk deteksi secret dalam codebase serta contoh multibahasa, adversarial, dan bergantung konteks

Keterbatasan dan hal yang perlu diperhatikan saat penggunaan

Ini bukan alat anonimisasi, bukan sertifikasi kepatuhan, dan juga bukan pengganti peninjauan kebijakan di lingkungan berisiko tinggi
Model ini merupakan satu komponen dalam keseluruhan sistem yang dirancang berpusat pada privasi
Karakteristik perilakunya dipengaruhi oleh taxonomy label dan batas penilaian yang digunakan saat pelatihan
Karena setiap organisasi dapat memiliki kebijakan deteksi dan masking yang berbeda, evaluasi dalam domain atau fine-tuning tambahan mungkin diperlukan
Performa dapat berbeda pada bahasa, sistem tulisan, aturan penamaan, dan domain yang berbeda dari distribusi pelatihan
Model dapat melewatkan pengenal yang jarang atau referensi pribadi yang ambigu, dan terutama saat konteks terbatas seperti pada urutan pendek, masking bisa berlebihan atau kurang
Pada area sangat sensitif seperti hukum, medis, dan keuangan, peninjauan manusia, evaluasi per domain, dan fine-tuning tetap penting

Tujuan publikasi dan arah ke depan

Perlindungan privasi diperlakukan sebagai tantangan berkelanjutan yang mencakup riset, desain produk, evaluasi, dan deployment
Ini mencerminkan pentingnya model kecil dan efisien yang mampu mencapai performa tingkat frontier pada tugas dunia nyata yang didefinisikan secara sempit
Dirilis dengan tujuan agar infrastruktur penjaga privasi lebih mudah diaudit, dijalankan, diadaptasi, dan ditingkatkan
Model ini diposisikan sebagai alat untuk membantu model belajar tentang dunia tanpa mempelajari informasi pribadi individu
Rilis preview ini juga merupakan langkah untuk menerima masukan dari komunitas riset dan privasi agar performanya bisa terus ditingkatkan

1 komentar

GN⁺ 14 jam lalu

Opini Hacker News

Fitur seperti ini sebenarnya sudah pernah diimplementasikan beberapa tahun lalu, dan hasilnya membuat beberapa hal jadi jelas
Penyuntingan PII harus dikembalikan lagi di sisi klien agar UX tetap terjaga. Misalnya nama seseorang John, tetapi disamarkan menjadi [NAME], lalu model menjawab Hi [NAME], maka sebelum ditampilkan ke pengguna harus dipulihkan menjadi Hi John
Pada akhirnya, di lapisan tempat pengguna berinteraksi tetap dibutuhkan mekanisme substitusi balik
Selain itu, data PII yang sudah disamarkan hampir tidak berguna untuk sebagian besar tujuan. Model tetap perlu sejumlah data nyata untuk bekerja, dan karena item yang tergolong PII sangat banyak, untuk chat sederhana mungkin masih oke, tetapi ketika pengguna perlu berinteraksi secara kompleks dengan LLM tingkat kesulitannya naik drastis. Bisa jadi malah tidak bisa melakukan apa-apa atau muncul halusinasi
Jadi walaupun didukung di level platform, dalam praktiknya jarang benar-benar dipakai karena keterbatasan seperti ini
Menurut saya, pendekatan yang realistis adalah hanya menghapus sebagian PII yang berisiko keamanan tinggi, lalu memakai model tepercaya yang membuang PII secepat mungkin. Untuk itu, desain sistemnya juga harus cukup berbeda
Saya sedang membuat https://github.com/KevinXuxuxu/anon_proxy, semacam proxy anonimisasi yang diletakkan di depan penyedia LLM
Ini menggabungkan deteksi berbasis model dan regex PII detection, lalu menangani substitusi dan pemulihan dua arah pada request dan response API. Jika model deteksinya di-host secara lokal, PII tidak akan keluar dari lingkungan lokal
Ini sangat berguna terutama saat menangani dokumen sensitif seperti hukum, pajak, dan imigrasi
- Kelebihan pendekatan ini adalah bisa dipasang ke model apa pun
  Namun, konteks penuh percakapannya sendiri tetap bisa dilihat oleh model dan operator
  Karena itu, saya lebih suka pendekatan seperti Moxie Confer https://confer.to/ yang mengenkripsi semuanya sehingga tidak ada pihak selain pengguna akhir yang bisa melihat plaintext
- Saya penasaran bagaimana pemrosesan pemulihan di sisi respons dilakukan
  Jika dokumen sudah disamarkan di input, output LLM juga akan berisi versi yang disamarkan, jadi saya tidak paham bagaimana alurnya dilanjutkan setelah itu
Ada cukup banyak bagian yang menarik secara teknis di rilis ini
Privacy Filter berbentuk model klasifikasi token dua arah dengan span decoding, dan disebut dimulai dari checkpoint pra-pelatihan autoregresif lalu diadaptasi menjadi pengklasifikasi token di atas taxonomy label privasi yang tetap
Alih-alih menghasilkan teks token demi token, model ini memberi label pada seluruh urutan input sekaligus, lalu mendekode span yang konsisten dengan prosedur Viterbi yang dibatasi
Model yang dirilis disebut memiliki total 1,5 miliar parameter dengan 50M parameter aktif
Mereka juga mengungkapkan bahwa LM head dari language model pra-pelatihan diganti menjadi token-classification head, lalu dipost-train dengan objective klasifikasi terawasi
- Kalau begitu, ini tampaknya juga bisa dipakai untuk menemukan posisi informasi sensitif di teks tidak terstruktur tanpa bergantung pada alat deteksi PII lain
  Cukup lewatkan teks asli ke filter untuk mendapatkan span, lalu petakan span itu kembali ke teks asli, dan pada akhirnya kita memperoleh semua informasi posisi PII
Tidak sepintar OpenAI, tetapi saya pernah membuat https://tools.nicklothian.com/webner/index.html yang menyamarkan sebagian PII dengan NER berbasis BERT di browser
Untuk penggunaan yang saya uji, hasilnya bekerja cukup baik
Model OpenAI tampak cukup kecil, jadi saya sedang mempertimbangkan untuk menambahkan ini juga ke alat saya
- Baru saja saya coba pada dokumen, dan tampaknya cukup sulit dipakai karena false positive-nya banyak
  Saya memasukkan dokumen markdown sekitar 100 baris, lalu matter yang sebenarnya bagian dari frontmatter dianggap sebagai organisasi, end yang sebenarnya bagian dari frontend juga dianggap organisasi, dan MCP pun diklasifikasikan sebagai organisasi
  Banyak juga hasil yang secara tata bahasa tidak masuk akal, seperti Following the discussion in , blahblah
  Rasanya seperti kembali ke era NLP 10 tahun lalu, dan itu kembali mengingatkan saya bahwa spaCy memang proyek yang sangat bagus di bidang tersebut
Perlu ditegaskan bahwa hampir semua model semacam ini naif dan mendasar
Jika hanya satu pesan tunggal dan netral seperti Hi, this is Bob., biasanya ini cukup memadai, tetapi begitu data mulai menumpuk, saya belum pernah melihat alat redaksi PII yang benar-benar mempertimbangkan seluruh risiko kebocoran identitas
Masalah jadi besar ketika perusahaan memakai hal seperti ini lalu percaya bahwa data mereka sudah dianonimkan. Itu bukan anonimisasi
Meski begitu, jika dipakai bukan untuk langsung mempublikasikan atau membagikan data, melainkan untuk tahap pemrosesan antara seperti moderation, human eval, atau model training, penyaringan seperti ini bisa cukup berguna
Agak disayangkan karena sebagian besar contohnya adalah hal-hal yang bahkan mudah ditangkap dengan regex, tetapi tetap menyenangkan melihat ini dirilis sebagai model lokal yang terbuka
- Untuk klien saya, saya mencegah email pribadi atau nomor telepon muncul di website dengan regular expression
  Meski begitu, menjalankan model seperti ini sebagai lapisan tambahan demi ketenangan ekstra tampak masuk akal
  Saya tidak punya GPU di server, tetapi saya berharap ini model yang cukup ringan sehingga inference CPU-only masih sanggup jika kurang dari 2k token per sekali jalan
Saat tautannya diklik, itu mengarahkan ke versi terjemahan mesin di situs OpenAI, dan maknanya jadi benar-benar rusak
redacted diterjemahkan ke kata Polandia redagować, padahal itu lebih dekat ke makna menyunting atau merapikan teks, bukan menganonimkan
Saya penasaran bagaimana ini dibandingkan dengan Presidio yang mencampur regex dan model: https://microsoft.github.io/presidio/
- Sepertinya model ini juga bisa dipasang ke dalam Presidio
Saya rasa https://peyeeye.ai secara harfiah menyelesaikan semua masalah yang dibicarakan semua orang di thread ini
- Benar-benar ironis melihat alat privasi dibuat oleh perusahaan yang mengambil data orang lain tanpa izin
Senang melihat ini dirilis
Bahkan di luar industri yang diatur, ada banyak alasan untuk memiliki model dan praktik seperti ini, dan secara teori sebagian juga jadi perlu karena EU AI Act
Saya sudah menambahkan redaction dan rehydration dengan model NER khusus di https://grepture.com, jadi saya berencana menambahkan ini juga ke pipeline
Jika secara opsional ditempatkan di hot path sehingga benar-benar bisa menyentuh sebelum dan sesudah request mencapai LLM, ini akan cukup berguna untuk compliance atau skenario yang menerima input pengguna secara langsung

Memperkenalkan OpenAI Privacy Filter

Gambaran produk dan cara distribusi

Apa yang membedakannya dari pendekatan lama

Arsitektur model dan cakupan deteksi

Proses pelatihan dan hasil evaluasi

Keterbatasan dan hal yang perlu diperhatikan saat penggunaan

Tujuan publikasi dan arah ke depan

Bacaan terkait

1 komentar

Opini Hacker News