1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Penyuntikan noise yang digunakan saat membuat statistik publik dari dataset rahasia adalah alat penghindaran pengungkapan yang menyembunyikan informasi pribadi dalam data mentah sambil mempertahankan kegunaan statistik
  • Perintah Departemen Perdagangan AS melarang penyuntikan noise dalam semua produk statistik dari Census Bureau dan Bureau of Economic Analysis, dan secara langsung membidik differential privacy
  • Census Bureau terutama menggunakan swapping dalam sensus sepuluh tahunan 1990–2010, tetapi setelah terungkap bahwa catatan individu mudah direkonstruksi hanya dari statistik publik, lembaga itu mengadopsi differential privacy untuk sensus 2020
  • Differential privacy menggabungkan pembatasan kontribusi dan penambahan noise yang dikalibrasi dengan cermat untuk memberikan kegunaan yang lebih tinggi pada tingkat privasi yang serupa
  • Jika noise dihilangkan, publikasi statistik di masa depan bisa menjadi jauh kurang berguna dibanding masa lalu atau menjadi data yang sangat tidak aman

Latar belakang

  • Produk statistik adalah berbagai angka yang dipublikasikan dari dataset rahasia, dan ketika dataset tersebut berisi informasi sensitif, angka yang dipublikasikan tidak boleh mengungkapkan informasi itu
  • Sensus AS adalah contoh utama; statistiknya dipublikasikan, tetapi isi formulir individual yang diisi penduduk AS harus tetap rahasia
  • Dalam bidang statistika, teknik untuk memublikasikan statistik yang berguna sambil melindungi privasi data mentah disebut penghindaran pengungkapan
  • Teknik penghindaran pengungkapan mencakup suppression yang menghapus data yang tidak memenuhi ambang tertentu, generalisasi yang membuat atribut kurang presisi, dan sampling yang secara acak menghapus sebagian record
  • Teknik penghindaran pengungkapan juga mencakup swapping yang secara acak menukar atribut antar-record berbeda, pembatasan kontribusi yang membatasi dampak maksimum satu individu, serta penambahan noise yang menambahkan angka acak ke statistik
  • Differential privacy dan sensus 2020

    • Menggabungkan beberapa teknik dapat mencapai differential privacy, yang luas dianggap sebagai standar emas perlindungan privasi di kalangan ilmuwan
    • Differential privacy biasanya bergantung pada kombinasi pembatasan kontribusi dan penambahan noise yang dikalibrasi dengan hati-hati
    • Census Bureau terutama menggunakan swapping dalam sensus sepuluh tahunan dari 1990 hingga 2010
    • Setelah itu, disadari bahwa swapping sangat tidak aman, dan catatan individu mudah direkonstruksi hanya dari statistik publik
    • Karena secara hukum federal lembaga itu wajib menjaga kerahasiaan catatan tersebut, mereka mencoba beberapa alternatif dan akhirnya mengadopsi differential privacy untuk sensus 2020 sebagai pendekatan yang paling baik menjaga kegunaan statistik sambil menghentikan serangan
  • Penurunan kegunaan dan penolakan

    • Differential privacy dipilih bukan karena matematikanya elegan, melainkan karena di antara berbagai opsi untuk mengurangi serangan, pendekatan ini paling banyak mempertahankan kegunaan data
    • Parameter privasi yang dipilih juga bukan karena memberikan jaminan bukti yang kuat, tetapi karena dipilih untuk mencapai tingkat perlindungan privasi yang dianggap dapat diterima sambil memaksimalkan kegunaan data
    • Menjaga kegunaan semaksimal mungkin di bawah batasan privasi yang baru dipahami bukan berarti menjaga tingkat kegunaan yang sama seperti sensus 2010
    • Angkanya menjadi kurang akurat, dan ketidakakuratannya jauh lebih transparan sehingga sulit diabaikan
    • Demografer dan ilmuwan sosial tidak lagi bisa mengabaikan bahwa data yang mereka tangani adalah data yang mengandung noise, dan dibutuhkan pergeseran besar dalam cara mereka mengonseptualisasikan dan menanganinya
    • Orang-orang yang benar-benar menggunakan data Census untuk merekonstruksi catatan individu tidak lagi bisa melakukannya, dan para demografer mengakui bahwa ini adalah praktik yang umum
    • Juga merupakan rahasia umum bahwa para praktisi politik melakukan rekonstruksi semacam ini sebagai bagian dari upaya gerrymandering

Isi perintah

  • Pemerintah eksekutif memutuskan bahwa penyuntikan noise tidak lagi merupakan teknik penghindaran pengungkapan yang dapat diterima
  • Perintah ini secara jelas membidik differential privacy, tetapi tampaknya juga memengaruhi teknik lain yang melibatkan keacakan
  • Teks perintah menyatakan bahwa generalisasi harus selalu diprioritaskan, dan suppression hanya boleh digunakan sebagai “jalan terakhir”
  • Tidak diketahui mengapa perintah ini begitu spesifik
  • Perintah itu dengan hati-hati menyatakan bahwa perintah tersebut “tidak boleh ditafsirkan bertentangan dengan konstitusi, undang-undang, regulasi, atau ketentuan hukum lainnya”, dan kewajiban menjaga kerahasiaan atas produk statistik tersebut tetap berlaku

Dampak nyata

  • Dampaknya bisa serius bagi kegunaan, privasi, atau keduanya
  • Publikasi statistik di masa depan bisa kurang berguna dibandingkan publikasi sebelumnya, atau sangat tidak aman hingga sulit dipercaya
  • Menghapus alat yang berguna dari kotak peralatan penghindaran pengungkapan selalu membuat trade-off antara privasi dan kegunaan menjadi lebih menyakitkan
  • Tujuan bidang penelitian ini adalah memahami dan mengukur risiko privasi dengan lebih baik, serta mengembangkan alat yang lebih baik untuk mengurangi risiko sambil mempertahankan kegunaan
  • Posisi differential privacy

    • Dalam publikasi statistik, differential privacy saat ini adalah alat terbaik yang tersedia
    • Differential privacy menyediakan cara untuk mengukur trade-off dengan lebih rinci, dan menghasilkan kegunaan data yang lebih tinggi daripada teknik pesaing pada tingkat privasi yang serupa
    • Jika differential privacy dihapus, yang tersisa hanyalah teknik dengan kegunaan lebih rendah pada tingkat privasi serupa, atau privasi yang lebih buruk pada tingkat kegunaan yang sama
    • Teknik pesaing juga bergantung pada penambahan noise
  • Teknik lain juga menggunakan keacakan

    • Cell Key method yang digunakan lembaga statistik lain menambahkan noise ke statistik
    • Swapping yang digunakan Census dari 1990 hingga 2010 juga menyuntikkan keacakan ke dalam proses
    • Sampling digunakan secara luas dalam pekerjaan statistik
    • Imputation) juga secara teknis menambahkan noise ke data
  • Batasan generalisasi dan suppression

    • Generalisasi dan suppression adalah alat yang sangat tumpul
    • Generalisasi dan suppression hanya bekerja ketika statistik memang sudah sangat kasar dan jumlah statistik yang dipublikasikan tidak banyak
    • Pada produk data kompleks dengan banyak statistik tentang kelompok kecil seperti Sensus AS, generalisasi dan suppression akan sepenuhnya merusak kegunaan data atau membuatnya sangat rentan terhadap serangan privasi
    • Kerusakan kegunaan sangat menonjol terutama pada kelompok minoritas
  • Mengapa noise mempersulit serangan

    • Serangan privasi terhadap publikasi statistik mirip dengan menyelesaikan sistem persamaan
    • Tugas ini menjadi jauh lebih mudah ketika kita tahu dengan pasti bahwa semua statistik benar-benar akurat
    • Noise memaksa penyerang menghitung probabilitas, mengukur ketidakpastian, dan mempertimbangkan baseline dengan hati-hati
    • Keacakan berguna untuk penghindaran pengungkapan bahkan tanpa jaminan formal, dan membuat serangan jauh lebih sulit
    • Jika keacakan dihapus, serangan menjadi sepele

Mengapa ini terjadi

  • Motivasinya tidak diketahui
  • Tidak diketahui apakah tujuannya adalah membantu upaya gerrymandering di masa depan dengan memaksa Sensus AS merilis statistik yang memungkinkan reidentifikasi nyata
  • Sebaliknya, tidak diketahui juga apakah tujuannya adalah mencegah peneliti mendapatkan data demografis yang berguna sehingga mereka tidak dapat melihat kesenjangan yang tidak adil dalam populasi
  • Pisau cukur Hanlon menawarkan tafsir alternatif
  • Dalam publikasi data statistik terdapat trade-off mendasar antara privasi dan kegunaan, dan trade-off ini adalah masalah yang menjengkelkan
  • Keadaannya akan jauh lebih mudah jika memublikasikan banyak statistik tidak secara otomatis disertai risiko privasi yang tinggi
  • Differential privacy secara eksplisit menyingkap trade-off ini, dan karena itu membuatnya tidak bisa diabaikan
  • Larangan atas differential privacy bisa jadi merupakan cara untuk berpura-pura bahwa masalah tersebut tidak ada, sambil berharap masalahnya menghilang

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Saat sensus terakhir saya bekerja sebagai petugas sensus, dan kepercayaan masyarakat sudah rendah, meski ada banyak pertemuan yang menarik
    Dengan wajah ramah saya mengumpulkan data yang cukup invasif, sambil sungguh percaya bahwa data itu akan digunakan dan dikelola secara bertanggung jawab
    Sekarang, ketika firewall yang dulu mencegah data pemerintah yang sensitif dipersenjatai dan dimonetisasi telah runtuh, saya kasihan pada orang-orang yang harus mengetuk pintu rumah demi rumah pada 2030, dan lebih kasihan lagi pada mereka yang secara sukarela memberikan informasi yang bisa merugikan diri mereka sendiri
    Saya juga merasa lucu dengan respons seperti “sensus yang mahal itu cukup hitung jumlah kepala saja”. Data yang dikumpulkan adalah baseline penting bagi pemahaman bersama, dan ke depan ini akan berdampak buruk pada kualitasnya
    Kebetulan wilayah tugas saya sebagian besar rumah tangga yang tidak merespons, jadi secara alami orang-orang di daerah saya tampak membenci pemerintah, mengabaikan selebaran yang aneh dan terkesan mengancam, atau baru saja pindah sehingga tidak tahu siapa penghuni selama periode sensus

    • Ini terlihat bahkan hanya dari produk data sensus, tetapi data demografis pada dasarnya adalah fondasi ekstrapolasi untuk hampir semua riset survei lainnya
      Dari jajak pendapat nasional dengan puluhan ribu responden sampai survei komunitas kecil, semuanya bergantung pada ini
      Hasil sensus dengan partisipasi paling beragam memberi imbal hasil yang nyaris tak terbatas bagi Amerika Serikat, dan menguntungkan semua pihak dari surat kabar nasional sampai county pedesaan
      Jika komunitas terkecil kehilangan sisa kepercayaan terhadap perlindungan privasi sensus, mereka juga akan menjadi pihak yang paling banyak rugi dalam semua hal ini
    • Saya pernah melakukan pekerjaan serupa, dan ini merangkum perasaannya dengan baik. Membangun kembali kepercayaan seperti itu benar-benar menyedihkan dan sulit
      Dan juga mengecewakan melihat orang-orang terus tertarik pada partai yang dengan bangga mengatakan ingin menyalahgunakan data ini
    • Menurut saya penurunan yang sebenarnya dimulai setelah Edward Snowden dan banjir informasi terkait NSA
      Itu sangat memicu ketidakpercayaan terhadap pemerintah, dan membuat orang menjawab survei memang sudah sulit sejak awal
      Sulit membayangkan kenapa orang biasa akan percaya Census Bureau benar-benar menjaga data mereka tetap aman
      Apa pun isi hukum atau konstitusinya, kalau Anda bekerja di lembaga tertentu, Anda tetap terlihat sebagai pemerintah. Tingkat respons akan terus turun, dan sekarang presiden bahkan menyerang statistik ekonomi
      Secara sinis, saya rasa mereka akan terus memangkas lembaga statistik dan membuat statistik makin tidak berguna. Perubahan kebijakan kali ini juga searah dengan itu, dan pada akhirnya akan mencoba menyerahkannya ke sektor swasta
      Tapi sektor swasta tidak bisa melakukan pekerjaan lapangan yang dilakukan pemerintah
    • Negara melakukan sensus untuk memahami dengan sangat rinci kondisi orang-orang yang membentuk negara itu
      Anda butuh informasi yang akurat agar bisa membuat rencana perbaikan dan menjadikan hidup semua orang lebih baik
      Sikap “cukup hitung jumlah kepala saja” menarik karena menunjukkan cara berpikir banyak orang belakangan ini
      Mereka tampak tidak ingin membuat hidup lebih baik, atau bahkan tidak bisa membayangkan caranya. Ini benar-benar menyedihkan
  • Minggu ini di konvensi Partai Republik Texas, ada usulan amendemen untuk memasukkan kalimat yang menentang differential privacy ke dalam rancangan platform partai
    Katanya dibenarkan dengan contoh dari seseorang yang pernah terlibat dalam sensus: 1 tunawisma di bawah jembatan bisa menjadi 5 karena differential privacy, jadi secara akal sehat itu terdengar konyol
    Saya tidak tahu apakah itu lolos, tetapi begitulah bentuk tekanan akar rumput yang mendorong hal-hal seperti ini

    • Dari mana Anda tahu itu benar-benar gerakan akar rumput?
  • Menurut saya ini cukup menyedihkan. Secara ideal negara seharusnya bisa melihat komposisi orang-orang yang ada saat ini, sehingga kita bisa membuat keputusan yang baik tentang organisasi yang kita jalankan bersama
    Merusak infrastruktur pengumpulan data secara sengaja menurut saya adalah kesalahan yang akan disesali nanti
    Sebagian besar keberhasilan Amerika, menurut saya, berasal dari institusi yang baik dalam menangani data rinci. Karena itu kebijakan bisa disesuaikan lebih cepat dengan hasil
    Saya paham kenapa orang ingin mengurangi semua kapasitas negara. Karena mereka merasa pemerintah dipenuhi lawan politik mereka, dan kapasitas itu akan dipakai terhadap mereka
    Tapi makin lemah kekuatan relatif mereka, makin kecil juga kemampuan untuk melawan inersia ini, pemerintah jadi makin tidak kompeten, dan pada akhirnya kehidupan mulai memburuk
    Data tingkat unit perumahan mungkin tidak langsung dibutuhkan, tetapi ada pengecualian seperti menempatkan blok sensus ke distrik pemilihan yang tepat. Meski begitu, di atas satuan agregasi tertentu kita tetap harus memakai informasi sebaik mungkin

    • Merusak infrastruktur secara sengaja adalah tema yang terus berulang dalam pemerintahan ini
    • Ini tidak membuat kekuasaan pemerintah lebih lemah
      Ini hanya membuat pemerintah lebih bodoh, sehingga nanti saat ingin melakukan hal yang benar pun mereka tidak punya informasi untuk mengambil keputusan yang efektif
    • Saya lebih tertarik pada pendekatan memberi detail kepada pemerintah negara bagian, lalu negara bagian yang menjalankan programnya
      Pemerintah federal cukup mengambil data agregat saja
    • Lebih dari itu, ini sudah menjadi sesuatu yang tidak berbeda dari memungkinkan genosida ketika pemerintah AS melanggar kerahasiaan sensus dan mengirim orang-orang keturunan Jepang ke kamp interniran berdasarkan ras
      Ini bukan soal “semua” kapasitas negara; negara seharusnya hanya memiliki kapasitas minimum absolut yang diperlukan untuk menjalankan hal-hal yang perlu
      Misalnya, mengumpulkan informasi ras sama sekali tidak mutlak perlu, jadi seharusnya tidak dilakukan
      Karena di masa depan pemerintah bisa diisi oleh para lawan. Lebih jauh lagi, kerusakan terbesar yang dilakukan aktor negara secara konsisten justru datang dari upaya untuk “membantu”, bukan dari niat jahat yang disengaja
    • Artikel ini membahas keputusan yang membuat sensus menjadi tidak terlalu rusak
      Kalau Anda menganggap sensus yang akurat itu penting, justru ini patut dirayakan
  • Sensus pada tingkat tertentu selalu bergantung pada kepercayaan
    Kepercayaan bahwa data ini tidak akan dibuat bisa diidentifikasi sehingga bisa dipakai untuk penipuan, fraud finansial, atau penyalahgunaan lainnya
    Namun di NY, catatan penjualan rumah bersifat publik, dan efek sampingnya banyak perusahaan hipotek mengirim surat yang menyamar sebagai tagihan pembayaran
    Differential privacy benar-benar diperlukan, dan fakta bahwa ilmuwan sosial tidak bisa merekonstruksi data pada tingkat individu memang merupakan hasil yang disengaja
    Untuk kebanyakan tujuan, penjelasan makro sudah cukup, dan meminta lebih dari itu sama saja dengan meminta negara pengawasan

    • Sejujurnya itu terdengar lebih seperti kegagalan penegakan hukum dan kegagalan desain sistem keuangan
      Di Jerman, hipotek atau bank pemegangnya tidak lazim diperdagangkan seperti kentang panas ke korban berikutnya, jadi kalau surat seperti itu datang orang akan langsung curiga
  • Dalam dataset, itu dilarang, dan kalau mau ditambahkan bisa pada tahap analisis. Kita juga bisa memilih bentuk noise yang diinginkan
    Saya tidak terlalu paham implikasi politiknya di sini, tetapi pada tingkat tertentu kita memang membutuhkan nilai dasar yang nyata, termasuk “orang/rumah tangga ini menolak menjawab”
    Namun, mempublikasikan data mentah terlihat seperti tindakan yang merugikan diri sendiri dari sudut pandang keamanan nasional, dan ada banyak alasan lain juga mengapa itu tidak boleh dilakukan

    • Saya tidak tahu persis apa usulnya, tetapi jika noise ditambahkan secara independen untuk tiap orang, itu bisa dikurangi dengan membeli beberapa salinan lalu mengambil rata-ratanya
      Ada sangat banyak cara untuk melakukan ini dengan salah, dan itulah sebabnya privasi diferensial dianalisis sedemikian mendalam
    • Noise dimasukkan ke data publik, bukan ke data nonpublik
  • Mungkin maksudnya bukan bahwa privasi diferensial secara eksplisit menciptakan trade-off ini sehingga tidak bisa diabaikan, tetapi bahwa salah satu dari dua tujuan itu dianggap lebih berharga daripada yang lain sehingga tidak boleh dikorbankan

  • Reaksi di sini yang berkata “semua harus dibuka” mengejutkan karena itu adalah cara berpikir satu dimensi dalam arti yang buruk
    Sensus itu hanya mengajukan pertanyaan
    Jika Anda mulai membuka data tentang orang-orang dengan berbagai atribut lalu menjadikannya senjata, orang-orang akan mulai berbohong atau tidak menjawab sama sekali
    Yang tersisa kemudian adalah data yang lebih buruk daripada tidak ada data, karena orang akan mencoba bertindak berdasarkan data buruk itu

    • Awalnya data bisa dikumpulkan saat orang belum tahu atau belum peduli, lalu nanti dijadikan senjata
      Ini setidaknya sudah pernah terjadi sekali di negara lain belum lama ini, jadi menurut saya kekhawatiran itu bukan reaksi berlebihan
    • Pihak yang menjadikan data sebagai senjata justru adalah pemerintah AS
      Contoh yang paling jelas adalah ketika Census Bureau membuat daftar orang keturunan Jepang pada masa Perang Dunia II untuk dipakai dalam penahanan
      Saya rasa dorongan sebenarnya sekarang adalah membuat daftar orang yang hak pilihnya akan dicabut
    • Solusi mudahnya adalah menurunkan resolusi dan cakupan data sampai ke tingkat yang benar-benar diperlukan
      Sensus ada untuk menyediakan informasi demi penentuan keterwakilan. Selebihnya hanyalah fungsi tambahan
      Pada tingkat county atau distrik pemilu, datanya mungkin masih bisa ada, tetapi makin tinggi resolusinya, datanya harus dihapus sehingga pada tingkat lingkungan atau blok hanya jumlah penduduk yang tersisa
      Mengetahui ras, etnisitas, dan latar sosial-ekonomi penghuni satu blok hanya berguna untuk mendiskriminasi mereka
    • Pertanyaan sebenarnya adalah mengapa orang-orang mau menjawab pertanyaan seperti ini sejak awal
      Saya menunggu petugas sensus datang lalu hanya memberi tahu berapa orang yang tinggal di tempat saya
      Itu diperlukan untuk keterwakilan pemilu yang layak, dan di luar itu sama sekali tidak perlu
    • Pemerintahan ini sama sekali tidak peduli pada fakta
  • Sangat sulit menyelaraskan semua ini
    Katanya sensus 2020 mengadopsi privasi diferensial, dan jika satu filter ini dihapus maka akan ada “konsekuensi mengerikan” bagi kegunaan, privasi, atau keduanya
    Namun, sensus sudah dilakukan selama ratusan tahun dan baik-baik saja, dan baru pada sensus terakhir ditambahkan elemen privasi
    Jika menghapus salah satunya tiba-tiba menciptakan situasi mengerikan, itu terasa aneh. Sebelumnya tidak ada fitur privasi seperti itu, jadi bukankah sebenarnya kita tetap jauh lebih baik daripada ratusan tahun lalu?
    Karena itu terasa seperti masalah yang dibesar-besarkan secara emosional

    • Sulit dipercaya mungkin, tetapi selama beberapa ratus tahun terakhir teknik matematika dan kemampuan komputasi telah berkembang, dan semuanya juga sudah terdigitalisasi
      Serangan terhadap privasi yang dulu mustahil karena biayanya sekarang bisa dilakukan hanya dengan uang receh
      Selain itu, seperti yang sudah disebutkan, orang sudah memakai data sensus untuk gerrymandering, jadi serangan seperti ini nyata dan sudah berlangsung lama
    • Satu hal penting yang sekarang ada tetapi 100 tahun lalu belum ada adalah komputer
      Dulu masih masuk akal untuk menganggap rekonstruksi catatan individu tidak realistis, setidaknya dalam skala besar. Sekarang tidak lagi
      PIN 4 digit mungkin aman selama ratusan tahun, tetapi hari ini, karena alasan yang sama, itu justru menjadi kelalaian keamanan
    • Kekhawatiran seperti ini, seperti kebanyakan kekhawatiran soal privasi, sering tampak seperti hipokondria hipotetis yang dibesar-besarkan, sampai pada suatu titik ternyata memang tidak lagi begitu
    • Perkembangan komputer serta ilmu data dan machine learning menjelaskan hampir semuanya
      Banyak teknik yang dipakai hari ini untuk re-identifikasi data memerlukan daya komputasi yang dulu tidak tersedia
      Kalaupun mungkin, kebutuhan sumber dayanya dulu membatasi skalanya. Saya mengatakan ini sebagai orang yang punya gelar statistika
      Ada juga faktor keterhubungan. Internet, media sosial, pelacakan web, dan peretasan telah menciptakan jauh lebih banyak sumber data pembanding
      Pada 1970-an hingga 1980-an, jejak catatan warga Amerika masih jauh lebih sedikit dibanding sekarang
    • Seperti yang tertulis jelas di artikelnya, fitur perlindungan privasi sudah ada dalam sensus sejak 1990
      Hanya saja perlindungan sebelumnya tidak cukup kuat dan bisa ditembus, sehingga diganti dengan perlindungan yang lebih kuat
      Tahun 1990 adalah masa ketika komputer pribadi mulai meluas dan daya komputasi yang bisa diakses individu meledak, dan sejak saat itu informasi pribadi bisa dipisahkan kembali dari data yang dirilis sensus
      Itulah sebabnya masalah ini muncul saat itu. Ini bukan masalah yang dibesar-besarkan
  • Dari sudut pandang seseorang yang berasal dari negara Eropa tertentu, kita tidak pernah tahu jawaban mana dalam sensus yang bisa menimbulkan masalah
    “Apa agamamu” mungkin terlihat sama sekali tidak berbahaya, tetapi pada 1940-an, ketika penjajah asing tertentu bisa menghubungkan jawaban itu ke individu, jawaban itu belakangan menjadi mematikan

    • Jika itu penjajah asing seperti itu, bukankah mereka tinggal meminta data mentah yang belum dimodifikasi?
    • Dalam sensus AS, agama tidak ditanyakan
      Pertanyaan tahun 2020 adalah berapa orang yang tinggal atau menetap di rumah/apartemen/rumah bergerak ini per 1 April, apakah ada orang tambahan yang terlewat, apa jenis tempat tinggalnya, nomor telepon, nama orang nomor 1, jenis kelamin, usia dan tanggal lahir, apakah ia Hispanic/Latino/Spanish, dan ras
      Juga tidak ada sesuatu yang benar-benar mencegah orang berbohong
    • Di AS, menanyakan agama dalam sensus bertentangan dengan hukum
      Tidak seorang pun boleh dipaksa mengungkapkan informasi tentang keyakinan agama atau keanggotaan dalam organisasi keagamaan
      https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
    • Prancis dulu membuat sangat banyak daftar. Mereka menyukai daftar, dan menganggap daftar itu baik
      Daftar orang Yahudi juga dibuat dengan alasan mungkin suatu hari akan berguna untuk sesuatu, dan orang Jerman sangat senang ketika menemukannya
      Obsesi AS untuk menanyakan latar asal yang dipersepsikan pada orang, misalnya AAPI, AA, Latino, dan sebagainya, bukan hanya aneh tetapi terang-terangan berbahaya
      Pertanyaan seperti ini tidak seharusnya diajukan, dan sama sekali tidak boleh dicatat bersama nama
      Untungnya sekarang mereka bisa lebih mudah melakukannya dengan membeli data dari data broker lalu membiarkan Palantir melakukan penargetan
    • Menurut saya, “Apa agamamu” sama sekali tidak masuk akal dalam sensus
  • Saya justru melihat pernyataan bahwa differential privacy membuat trade-off menjadi eksplisit itu terbalik.
    Teknik seperti differential privacy, kecuali bagi segelintir pakar yang menangani bidang ini seperti bernapas, justru menyembunyikan fakta bahwa trade-off itu ada.
    Saya tidak cukup paham untuk membela keputusan ini, tetapi jika trade-off itu memang nyata, ketika akses ke teknik semacam ini hilang, orang-orang yang bukan ahli statistik juga tampaknya akan berhadapan langsung dengan trade-off tersebut.
    Jika data tentang publik begitu berbahaya sampai hasilnya harus disamarkan, mungkin itu memang jenis data yang sejak awal tidak seharusnya dikumpulkan.

  • Data privat orang-orang secara tidak sengaja rutin dipublikasikan. Riwayat tontonan Netflix dan rekam medis adalah contoh yang mewakili.
    Orang-orang terus-menerus meremehkan jumlah informasi yang bocor, sehingga mereka tidak mampu menilai trade-off dengan baik.
    Karena itu, pendekatan yang tepat adalah memaksa agar hanya jumlah informasi yang aman saja yang bocor.
    Mungkin ada kasus di mana lebih baik untuk tidak membagikan atau mengumpulkan data, tetapi data ini jelas punya nilai, jadi jumlah optimal untuk disimpan dan dipublikasikan bukanlah 0.

  • Secara pribadi, saya melihat salah satu alasan besar ilmu data sebagai fungsi organisasi besar kehilangan pengaruh di perusahaan teknologi adalah kecenderungan memperlakukan tim data science sebagai penjaga gerbang data.
    Ketika tanggung jawab atas cara berpikir statistik dialihdayakan, satu orang mendapatkan semacam rasa kuasa yang aneh untuk menentukan trade-off lebih dulu tanpa orang-orang di sekitarnya perlu benar-benar memahaminya.

  • Kalau mengikuti logika itu, tak seorang pun boleh mengumpulkan alamat dalam alasan apa pun.
    Jika dalam konteks apa pun informasi identitas pribadi tidak boleh dipertukarkan atau dikumpulkan, bagaimana masyarakat bisa berfungsi?
    Anonimisasi dan keamanan adalah hal yang esensial, dan memungkinkan banyak fungsi penting.
    Di dunia di mana informasi yang berpotensi berbahaya sama sekali tidak boleh diberikan atau dikumpulkan, bagaimana kita bisa menerima surat?