- Penyuntikan noise yang digunakan saat membuat statistik publik dari dataset rahasia adalah alat penghindaran pengungkapan yang menyembunyikan informasi pribadi dalam data mentah sambil mempertahankan kegunaan statistik
- Perintah Departemen Perdagangan AS melarang penyuntikan noise dalam semua produk statistik dari Census Bureau dan Bureau of Economic Analysis, dan secara langsung membidik differential privacy
- Census Bureau terutama menggunakan swapping dalam sensus sepuluh tahunan 1990–2010, tetapi setelah terungkap bahwa catatan individu mudah direkonstruksi hanya dari statistik publik, lembaga itu mengadopsi differential privacy untuk sensus 2020
- Differential privacy menggabungkan pembatasan kontribusi dan penambahan noise yang dikalibrasi dengan cermat untuk memberikan kegunaan yang lebih tinggi pada tingkat privasi yang serupa
- Jika noise dihilangkan, publikasi statistik di masa depan bisa menjadi jauh kurang berguna dibanding masa lalu atau menjadi data yang sangat tidak aman
Latar belakang
- Produk statistik adalah berbagai angka yang dipublikasikan dari dataset rahasia, dan ketika dataset tersebut berisi informasi sensitif, angka yang dipublikasikan tidak boleh mengungkapkan informasi itu
- Sensus AS adalah contoh utama; statistiknya dipublikasikan, tetapi isi formulir individual yang diisi penduduk AS harus tetap rahasia
- Dalam bidang statistika, teknik untuk memublikasikan statistik yang berguna sambil melindungi privasi data mentah disebut penghindaran pengungkapan
- Teknik penghindaran pengungkapan mencakup suppression yang menghapus data yang tidak memenuhi ambang tertentu, generalisasi yang membuat atribut kurang presisi, dan sampling yang secara acak menghapus sebagian record
- Teknik penghindaran pengungkapan juga mencakup swapping yang secara acak menukar atribut antar-record berbeda, pembatasan kontribusi yang membatasi dampak maksimum satu individu, serta penambahan noise yang menambahkan angka acak ke statistik
-
Differential privacy dan sensus 2020
- Menggabungkan beberapa teknik dapat mencapai differential privacy, yang luas dianggap sebagai standar emas perlindungan privasi di kalangan ilmuwan
- Differential privacy biasanya bergantung pada kombinasi pembatasan kontribusi dan penambahan noise yang dikalibrasi dengan hati-hati
- Census Bureau terutama menggunakan swapping dalam sensus sepuluh tahunan dari 1990 hingga 2010
- Setelah itu, disadari bahwa swapping sangat tidak aman, dan catatan individu mudah direkonstruksi hanya dari statistik publik
- Karena secara hukum federal lembaga itu wajib menjaga kerahasiaan catatan tersebut, mereka mencoba beberapa alternatif dan akhirnya mengadopsi differential privacy untuk sensus 2020 sebagai pendekatan yang paling baik menjaga kegunaan statistik sambil menghentikan serangan
-
Penurunan kegunaan dan penolakan
- Differential privacy dipilih bukan karena matematikanya elegan, melainkan karena di antara berbagai opsi untuk mengurangi serangan, pendekatan ini paling banyak mempertahankan kegunaan data
- Parameter privasi yang dipilih juga bukan karena memberikan jaminan bukti yang kuat, tetapi karena dipilih untuk mencapai tingkat perlindungan privasi yang dianggap dapat diterima sambil memaksimalkan kegunaan data
- Menjaga kegunaan semaksimal mungkin di bawah batasan privasi yang baru dipahami bukan berarti menjaga tingkat kegunaan yang sama seperti sensus 2010
- Angkanya menjadi kurang akurat, dan ketidakakuratannya jauh lebih transparan sehingga sulit diabaikan
- Demografer dan ilmuwan sosial tidak lagi bisa mengabaikan bahwa data yang mereka tangani adalah data yang mengandung noise, dan dibutuhkan pergeseran besar dalam cara mereka mengonseptualisasikan dan menanganinya
- Orang-orang yang benar-benar menggunakan data Census untuk merekonstruksi catatan individu tidak lagi bisa melakukannya, dan para demografer mengakui bahwa ini adalah praktik yang umum
- Juga merupakan rahasia umum bahwa para praktisi politik melakukan rekonstruksi semacam ini sebagai bagian dari upaya gerrymandering
Isi perintah
- Pemerintah eksekutif memutuskan bahwa penyuntikan noise tidak lagi merupakan teknik penghindaran pengungkapan yang dapat diterima
- Perintah ini secara jelas membidik differential privacy, tetapi tampaknya juga memengaruhi teknik lain yang melibatkan keacakan
- Teks perintah menyatakan bahwa generalisasi harus selalu diprioritaskan, dan suppression hanya boleh digunakan sebagai “jalan terakhir”
- Tidak diketahui mengapa perintah ini begitu spesifik
- Perintah itu dengan hati-hati menyatakan bahwa perintah tersebut “tidak boleh ditafsirkan bertentangan dengan konstitusi, undang-undang, regulasi, atau ketentuan hukum lainnya”, dan kewajiban menjaga kerahasiaan atas produk statistik tersebut tetap berlaku
Dampak nyata
- Dampaknya bisa serius bagi kegunaan, privasi, atau keduanya
- Publikasi statistik di masa depan bisa kurang berguna dibandingkan publikasi sebelumnya, atau sangat tidak aman hingga sulit dipercaya
- Menghapus alat yang berguna dari kotak peralatan penghindaran pengungkapan selalu membuat trade-off antara privasi dan kegunaan menjadi lebih menyakitkan
- Tujuan bidang penelitian ini adalah memahami dan mengukur risiko privasi dengan lebih baik, serta mengembangkan alat yang lebih baik untuk mengurangi risiko sambil mempertahankan kegunaan
-
Posisi differential privacy
- Dalam publikasi statistik, differential privacy saat ini adalah alat terbaik yang tersedia
- Differential privacy menyediakan cara untuk mengukur trade-off dengan lebih rinci, dan menghasilkan kegunaan data yang lebih tinggi daripada teknik pesaing pada tingkat privasi yang serupa
- Jika differential privacy dihapus, yang tersisa hanyalah teknik dengan kegunaan lebih rendah pada tingkat privasi serupa, atau privasi yang lebih buruk pada tingkat kegunaan yang sama
- Teknik pesaing juga bergantung pada penambahan noise
-
Teknik lain juga menggunakan keacakan
- Cell Key method yang digunakan lembaga statistik lain menambahkan noise ke statistik
- Swapping yang digunakan Census dari 1990 hingga 2010 juga menyuntikkan keacakan ke dalam proses
- Sampling digunakan secara luas dalam pekerjaan statistik
- Imputation) juga secara teknis menambahkan noise ke data
-
Batasan generalisasi dan suppression
- Generalisasi dan suppression adalah alat yang sangat tumpul
- Generalisasi dan suppression hanya bekerja ketika statistik memang sudah sangat kasar dan jumlah statistik yang dipublikasikan tidak banyak
- Pada produk data kompleks dengan banyak statistik tentang kelompok kecil seperti Sensus AS, generalisasi dan suppression akan sepenuhnya merusak kegunaan data atau membuatnya sangat rentan terhadap serangan privasi
- Kerusakan kegunaan sangat menonjol terutama pada kelompok minoritas
-
Mengapa noise mempersulit serangan
- Serangan privasi terhadap publikasi statistik mirip dengan menyelesaikan sistem persamaan
- Tugas ini menjadi jauh lebih mudah ketika kita tahu dengan pasti bahwa semua statistik benar-benar akurat
- Noise memaksa penyerang menghitung probabilitas, mengukur ketidakpastian, dan mempertimbangkan baseline dengan hati-hati
- Keacakan berguna untuk penghindaran pengungkapan bahkan tanpa jaminan formal, dan membuat serangan jauh lebih sulit
- Jika keacakan dihapus, serangan menjadi sepele
Mengapa ini terjadi
- Motivasinya tidak diketahui
- Tidak diketahui apakah tujuannya adalah membantu upaya gerrymandering di masa depan dengan memaksa Sensus AS merilis statistik yang memungkinkan reidentifikasi nyata
- Sebaliknya, tidak diketahui juga apakah tujuannya adalah mencegah peneliti mendapatkan data demografis yang berguna sehingga mereka tidak dapat melihat kesenjangan yang tidak adil dalam populasi
- Pisau cukur Hanlon menawarkan tafsir alternatif
- Dalam publikasi data statistik terdapat trade-off mendasar antara privasi dan kegunaan, dan trade-off ini adalah masalah yang menjengkelkan
- Keadaannya akan jauh lebih mudah jika memublikasikan banyak statistik tidak secara otomatis disertai risiko privasi yang tinggi
- Differential privacy secara eksplisit menyingkap trade-off ini, dan karena itu membuatnya tidak bisa diabaikan
- Larangan atas differential privacy bisa jadi merupakan cara untuk berpura-pura bahwa masalah tersebut tidak ada, sambil berharap masalahnya menghilang
1 komentar
Komentar Hacker News
Saat sensus terakhir saya bekerja sebagai petugas sensus, dan kepercayaan masyarakat sudah rendah, meski ada banyak pertemuan yang menarik
Dengan wajah ramah saya mengumpulkan data yang cukup invasif, sambil sungguh percaya bahwa data itu akan digunakan dan dikelola secara bertanggung jawab
Sekarang, ketika firewall yang dulu mencegah data pemerintah yang sensitif dipersenjatai dan dimonetisasi telah runtuh, saya kasihan pada orang-orang yang harus mengetuk pintu rumah demi rumah pada 2030, dan lebih kasihan lagi pada mereka yang secara sukarela memberikan informasi yang bisa merugikan diri mereka sendiri
Saya juga merasa lucu dengan respons seperti “sensus yang mahal itu cukup hitung jumlah kepala saja”. Data yang dikumpulkan adalah baseline penting bagi pemahaman bersama, dan ke depan ini akan berdampak buruk pada kualitasnya
Kebetulan wilayah tugas saya sebagian besar rumah tangga yang tidak merespons, jadi secara alami orang-orang di daerah saya tampak membenci pemerintah, mengabaikan selebaran yang aneh dan terkesan mengancam, atau baru saja pindah sehingga tidak tahu siapa penghuni selama periode sensus
Dari jajak pendapat nasional dengan puluhan ribu responden sampai survei komunitas kecil, semuanya bergantung pada ini
Hasil sensus dengan partisipasi paling beragam memberi imbal hasil yang nyaris tak terbatas bagi Amerika Serikat, dan menguntungkan semua pihak dari surat kabar nasional sampai county pedesaan
Jika komunitas terkecil kehilangan sisa kepercayaan terhadap perlindungan privasi sensus, mereka juga akan menjadi pihak yang paling banyak rugi dalam semua hal ini
Dan juga mengecewakan melihat orang-orang terus tertarik pada partai yang dengan bangga mengatakan ingin menyalahgunakan data ini
Itu sangat memicu ketidakpercayaan terhadap pemerintah, dan membuat orang menjawab survei memang sudah sulit sejak awal
Sulit membayangkan kenapa orang biasa akan percaya Census Bureau benar-benar menjaga data mereka tetap aman
Apa pun isi hukum atau konstitusinya, kalau Anda bekerja di lembaga tertentu, Anda tetap terlihat sebagai pemerintah. Tingkat respons akan terus turun, dan sekarang presiden bahkan menyerang statistik ekonomi
Secara sinis, saya rasa mereka akan terus memangkas lembaga statistik dan membuat statistik makin tidak berguna. Perubahan kebijakan kali ini juga searah dengan itu, dan pada akhirnya akan mencoba menyerahkannya ke sektor swasta
Tapi sektor swasta tidak bisa melakukan pekerjaan lapangan yang dilakukan pemerintah
Anda butuh informasi yang akurat agar bisa membuat rencana perbaikan dan menjadikan hidup semua orang lebih baik
Sikap “cukup hitung jumlah kepala saja” menarik karena menunjukkan cara berpikir banyak orang belakangan ini
Mereka tampak tidak ingin membuat hidup lebih baik, atau bahkan tidak bisa membayangkan caranya. Ini benar-benar menyedihkan
Minggu ini di konvensi Partai Republik Texas, ada usulan amendemen untuk memasukkan kalimat yang menentang differential privacy ke dalam rancangan platform partai
Katanya dibenarkan dengan contoh dari seseorang yang pernah terlibat dalam sensus: 1 tunawisma di bawah jembatan bisa menjadi 5 karena differential privacy, jadi secara akal sehat itu terdengar konyol
Saya tidak tahu apakah itu lolos, tetapi begitulah bentuk tekanan akar rumput yang mendorong hal-hal seperti ini
Menurut saya ini cukup menyedihkan. Secara ideal negara seharusnya bisa melihat komposisi orang-orang yang ada saat ini, sehingga kita bisa membuat keputusan yang baik tentang organisasi yang kita jalankan bersama
Merusak infrastruktur pengumpulan data secara sengaja menurut saya adalah kesalahan yang akan disesali nanti
Sebagian besar keberhasilan Amerika, menurut saya, berasal dari institusi yang baik dalam menangani data rinci. Karena itu kebijakan bisa disesuaikan lebih cepat dengan hasil
Saya paham kenapa orang ingin mengurangi semua kapasitas negara. Karena mereka merasa pemerintah dipenuhi lawan politik mereka, dan kapasitas itu akan dipakai terhadap mereka
Tapi makin lemah kekuatan relatif mereka, makin kecil juga kemampuan untuk melawan inersia ini, pemerintah jadi makin tidak kompeten, dan pada akhirnya kehidupan mulai memburuk
Data tingkat unit perumahan mungkin tidak langsung dibutuhkan, tetapi ada pengecualian seperti menempatkan blok sensus ke distrik pemilihan yang tepat. Meski begitu, di atas satuan agregasi tertentu kita tetap harus memakai informasi sebaik mungkin
Ini hanya membuat pemerintah lebih bodoh, sehingga nanti saat ingin melakukan hal yang benar pun mereka tidak punya informasi untuk mengambil keputusan yang efektif
Pemerintah federal cukup mengambil data agregat saja
Ini bukan soal “semua” kapasitas negara; negara seharusnya hanya memiliki kapasitas minimum absolut yang diperlukan untuk menjalankan hal-hal yang perlu
Misalnya, mengumpulkan informasi ras sama sekali tidak mutlak perlu, jadi seharusnya tidak dilakukan
Karena di masa depan pemerintah bisa diisi oleh para lawan. Lebih jauh lagi, kerusakan terbesar yang dilakukan aktor negara secara konsisten justru datang dari upaya untuk “membantu”, bukan dari niat jahat yang disengaja
Kalau Anda menganggap sensus yang akurat itu penting, justru ini patut dirayakan
Sensus pada tingkat tertentu selalu bergantung pada kepercayaan
Kepercayaan bahwa data ini tidak akan dibuat bisa diidentifikasi sehingga bisa dipakai untuk penipuan, fraud finansial, atau penyalahgunaan lainnya
Namun di NY, catatan penjualan rumah bersifat publik, dan efek sampingnya banyak perusahaan hipotek mengirim surat yang menyamar sebagai tagihan pembayaran
Differential privacy benar-benar diperlukan, dan fakta bahwa ilmuwan sosial tidak bisa merekonstruksi data pada tingkat individu memang merupakan hasil yang disengaja
Untuk kebanyakan tujuan, penjelasan makro sudah cukup, dan meminta lebih dari itu sama saja dengan meminta negara pengawasan
Di Jerman, hipotek atau bank pemegangnya tidak lazim diperdagangkan seperti kentang panas ke korban berikutnya, jadi kalau surat seperti itu datang orang akan langsung curiga
Dalam dataset, itu dilarang, dan kalau mau ditambahkan bisa pada tahap analisis. Kita juga bisa memilih bentuk noise yang diinginkan
Saya tidak terlalu paham implikasi politiknya di sini, tetapi pada tingkat tertentu kita memang membutuhkan nilai dasar yang nyata, termasuk “orang/rumah tangga ini menolak menjawab”
Namun, mempublikasikan data mentah terlihat seperti tindakan yang merugikan diri sendiri dari sudut pandang keamanan nasional, dan ada banyak alasan lain juga mengapa itu tidak boleh dilakukan
Ada sangat banyak cara untuk melakukan ini dengan salah, dan itulah sebabnya privasi diferensial dianalisis sedemikian mendalam
Mungkin maksudnya bukan bahwa privasi diferensial secara eksplisit menciptakan trade-off ini sehingga tidak bisa diabaikan, tetapi bahwa salah satu dari dua tujuan itu dianggap lebih berharga daripada yang lain sehingga tidak boleh dikorbankan
Reaksi di sini yang berkata “semua harus dibuka” mengejutkan karena itu adalah cara berpikir satu dimensi dalam arti yang buruk
Sensus itu hanya mengajukan pertanyaan
Jika Anda mulai membuka data tentang orang-orang dengan berbagai atribut lalu menjadikannya senjata, orang-orang akan mulai berbohong atau tidak menjawab sama sekali
Yang tersisa kemudian adalah data yang lebih buruk daripada tidak ada data, karena orang akan mencoba bertindak berdasarkan data buruk itu
Ini setidaknya sudah pernah terjadi sekali di negara lain belum lama ini, jadi menurut saya kekhawatiran itu bukan reaksi berlebihan
Contoh yang paling jelas adalah ketika Census Bureau membuat daftar orang keturunan Jepang pada masa Perang Dunia II untuk dipakai dalam penahanan
Saya rasa dorongan sebenarnya sekarang adalah membuat daftar orang yang hak pilihnya akan dicabut
Sensus ada untuk menyediakan informasi demi penentuan keterwakilan. Selebihnya hanyalah fungsi tambahan
Pada tingkat county atau distrik pemilu, datanya mungkin masih bisa ada, tetapi makin tinggi resolusinya, datanya harus dihapus sehingga pada tingkat lingkungan atau blok hanya jumlah penduduk yang tersisa
Mengetahui ras, etnisitas, dan latar sosial-ekonomi penghuni satu blok hanya berguna untuk mendiskriminasi mereka
Saya menunggu petugas sensus datang lalu hanya memberi tahu berapa orang yang tinggal di tempat saya
Itu diperlukan untuk keterwakilan pemilu yang layak, dan di luar itu sama sekali tidak perlu
Sangat sulit menyelaraskan semua ini
Katanya sensus 2020 mengadopsi privasi diferensial, dan jika satu filter ini dihapus maka akan ada “konsekuensi mengerikan” bagi kegunaan, privasi, atau keduanya
Namun, sensus sudah dilakukan selama ratusan tahun dan baik-baik saja, dan baru pada sensus terakhir ditambahkan elemen privasi
Jika menghapus salah satunya tiba-tiba menciptakan situasi mengerikan, itu terasa aneh. Sebelumnya tidak ada fitur privasi seperti itu, jadi bukankah sebenarnya kita tetap jauh lebih baik daripada ratusan tahun lalu?
Karena itu terasa seperti masalah yang dibesar-besarkan secara emosional
Serangan terhadap privasi yang dulu mustahil karena biayanya sekarang bisa dilakukan hanya dengan uang receh
Selain itu, seperti yang sudah disebutkan, orang sudah memakai data sensus untuk gerrymandering, jadi serangan seperti ini nyata dan sudah berlangsung lama
Dulu masih masuk akal untuk menganggap rekonstruksi catatan individu tidak realistis, setidaknya dalam skala besar. Sekarang tidak lagi
PIN 4 digit mungkin aman selama ratusan tahun, tetapi hari ini, karena alasan yang sama, itu justru menjadi kelalaian keamanan
Banyak teknik yang dipakai hari ini untuk re-identifikasi data memerlukan daya komputasi yang dulu tidak tersedia
Kalaupun mungkin, kebutuhan sumber dayanya dulu membatasi skalanya. Saya mengatakan ini sebagai orang yang punya gelar statistika
Ada juga faktor keterhubungan. Internet, media sosial, pelacakan web, dan peretasan telah menciptakan jauh lebih banyak sumber data pembanding
Pada 1970-an hingga 1980-an, jejak catatan warga Amerika masih jauh lebih sedikit dibanding sekarang
Hanya saja perlindungan sebelumnya tidak cukup kuat dan bisa ditembus, sehingga diganti dengan perlindungan yang lebih kuat
Tahun 1990 adalah masa ketika komputer pribadi mulai meluas dan daya komputasi yang bisa diakses individu meledak, dan sejak saat itu informasi pribadi bisa dipisahkan kembali dari data yang dirilis sensus
Itulah sebabnya masalah ini muncul saat itu. Ini bukan masalah yang dibesar-besarkan
Dari sudut pandang seseorang yang berasal dari negara Eropa tertentu, kita tidak pernah tahu jawaban mana dalam sensus yang bisa menimbulkan masalah
“Apa agamamu” mungkin terlihat sama sekali tidak berbahaya, tetapi pada 1940-an, ketika penjajah asing tertentu bisa menghubungkan jawaban itu ke individu, jawaban itu belakangan menjadi mematikan
Pertanyaan tahun 2020 adalah berapa orang yang tinggal atau menetap di rumah/apartemen/rumah bergerak ini per 1 April, apakah ada orang tambahan yang terlewat, apa jenis tempat tinggalnya, nomor telepon, nama orang nomor 1, jenis kelamin, usia dan tanggal lahir, apakah ia Hispanic/Latino/Spanish, dan ras
Juga tidak ada sesuatu yang benar-benar mencegah orang berbohong
Tidak seorang pun boleh dipaksa mengungkapkan informasi tentang keyakinan agama atau keanggotaan dalam organisasi keagamaan
https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
Daftar orang Yahudi juga dibuat dengan alasan mungkin suatu hari akan berguna untuk sesuatu, dan orang Jerman sangat senang ketika menemukannya
Obsesi AS untuk menanyakan latar asal yang dipersepsikan pada orang, misalnya AAPI, AA, Latino, dan sebagainya, bukan hanya aneh tetapi terang-terangan berbahaya
Pertanyaan seperti ini tidak seharusnya diajukan, dan sama sekali tidak boleh dicatat bersama nama
Untungnya sekarang mereka bisa lebih mudah melakukannya dengan membeli data dari data broker lalu membiarkan Palantir melakukan penargetan
Saya justru melihat pernyataan bahwa differential privacy membuat trade-off menjadi eksplisit itu terbalik.
Teknik seperti differential privacy, kecuali bagi segelintir pakar yang menangani bidang ini seperti bernapas, justru menyembunyikan fakta bahwa trade-off itu ada.
Saya tidak cukup paham untuk membela keputusan ini, tetapi jika trade-off itu memang nyata, ketika akses ke teknik semacam ini hilang, orang-orang yang bukan ahli statistik juga tampaknya akan berhadapan langsung dengan trade-off tersebut.
Jika data tentang publik begitu berbahaya sampai hasilnya harus disamarkan, mungkin itu memang jenis data yang sejak awal tidak seharusnya dikumpulkan.
Data privat orang-orang secara tidak sengaja rutin dipublikasikan. Riwayat tontonan Netflix dan rekam medis adalah contoh yang mewakili.
Orang-orang terus-menerus meremehkan jumlah informasi yang bocor, sehingga mereka tidak mampu menilai trade-off dengan baik.
Karena itu, pendekatan yang tepat adalah memaksa agar hanya jumlah informasi yang aman saja yang bocor.
Mungkin ada kasus di mana lebih baik untuk tidak membagikan atau mengumpulkan data, tetapi data ini jelas punya nilai, jadi jumlah optimal untuk disimpan dan dipublikasikan bukanlah 0.
Secara pribadi, saya melihat salah satu alasan besar ilmu data sebagai fungsi organisasi besar kehilangan pengaruh di perusahaan teknologi adalah kecenderungan memperlakukan tim data science sebagai penjaga gerbang data.
Ketika tanggung jawab atas cara berpikir statistik dialihdayakan, satu orang mendapatkan semacam rasa kuasa yang aneh untuk menentukan trade-off lebih dulu tanpa orang-orang di sekitarnya perlu benar-benar memahaminya.
Kalau mengikuti logika itu, tak seorang pun boleh mengumpulkan alamat dalam alasan apa pun.
Jika dalam konteks apa pun informasi identitas pribadi tidak boleh dipertukarkan atau dikumpulkan, bagaimana masyarakat bisa berfungsi?
Anonimisasi dan keamanan adalah hal yang esensial, dan memungkinkan banyak fungsi penting.
Di dunia di mana informasi yang berpotensi berbahaya sama sekali tidak boleh diberikan atau dikumpulkan, bagaimana kita bisa menerima surat?