Machine Unlearning pada 2024

(ai.stanford.edu)

17 poin oleh GN⁺ 2024-05-06 | 2 komentar | Bagikan ke WhatsApp

Machine unlearning berarti menghapus data yang tidak diinginkan dari model yang sudah dilatih, dan minat untuk mengedit model tanpa perlu melatih ulang model dari awal terus meningkat
- Contohnya mencakup penghapusan informasi pribadi, pengetahuan usang, materi berhak cipta, konten berbahaya/berisiko, kemampuan berbahaya, dan misinformasi

Bentuk-bentuk unlearning

Unlearning eksak (Exact unlearning)
- Mengharuskan model yang telah di-unlearn dan model yang dilatih ulang identik secara distribusional
- Kuncinya adalah algoritme pembelajaran memiliki komponen modular yang masing-masing berkaitan dengan himpunan contoh pelatihan yang berbeda
"Unlearning" melalui Differential Privacy
- Bertujuan agar model tidak bergantung pada titik data tertentu
- Mengharuskan kedekatan distribusional antara model yang telah di-unlearn dan model yang dilatih ulang
Unlearning empiris dengan ruang contoh yang diketahui (Empirical unlearning with known example space)
- Diterapkan ketika data yang akan di-unlearn diketahui secara tepat
- Dilakukan dengan cara unlearning melalui fine-tuning model
Unlearning empiris dengan ruang contoh yang tidak diketahui (Empirical unlearning with unknown example space)
- Diterapkan ketika cakupan atau batas data yang akan di-unlearn tidak jelas
- Mencakup kasus unlearning konsep, fakta, pengetahuan, dan sebagainya
Meminta unlearning secara langsung (Just ask for unlearning)
- Metode yang secara langsung meminta unlearning pada LLM yang kuat

Evaluasi unlearning

Evaluasi unlearning adalah masalah yang sangat sulit. Kekurangan metrik dan benchmark khususnya merupakan persoalan serius
Dalam evaluasi unlearning, ada tiga aspek berikut yang perlu menjadi fokus utama
- Efisiensi: seberapa cepat algoritme dibandingkan dengan pelatihan ulang
- Utilitas model: apakah terjadi penurunan performa pada data yang harus dipertahankan atau pada tugas ortogonal
- Kualitas pelupaan: seberapa jauh data yang seharusnya dilupakan benar-benar telah di-unlearn
Benchmark TOFU dan WMDP baru-baru ini diusulkan dan membantu evaluasi unlearning
- TOFU berfokus pada unlearning informasi pribadi penulis, sedangkan WMDP berfokus pada unlearning pengetahuan berbahaya terkait biosecurity/cybersecurity
- Keduanya melakukan evaluasi tingkat tinggi berbasis kepemilikan dan pemahaman pengetahuan, bukan berbasis instance
Tampaknya diperlukan benchmark unlearning yang berpusat pada aplikasi seperti informasi identitas pribadi, hak cipta, bahaya, dan backdoor

Realitas dan prospek unlearning

Kesulitan unlearning memiliki sebuah spektrum
- Unlearning teks berfrekuensi rendah adalah yang paling mudah, lalu semakin sulit untuk teks berfrekuensi tinggi dan fakta yang lebih mendasar
- Semakin mendasar suatu pengetahuan, semakin tinggi keterkaitannya dengan pengetahuan lain sehingga cakupan unlearning meningkat secara eksponensial
- Contoh yang dipelajari pada tahap awal bisa saja telah "tertindih" oleh contoh-contoh berikutnya sehingga sulit untuk di-unlearn
- Sebaliknya, contoh yang dipelajari belakangan bisa jadi sulit di-unlearn karena model mungkin melupakannya secara bertahap atau secara katastrofik
Perlindungan hak cipta
- Unlearning tampak menjanjikan untuk perlindungan hak cipta, tetapi untuk saat ini lanskap hukumnya masih belum jelas
- Jika penggunaan konten berhak cipta termasuk fair use menurut doktrin fair use, maka unlearning mungkin tidak diperlukan
Sistem AI berbasis pencarian
- Caranya adalah menghapus konten yang mungkin menerima permintaan unlearning dari korpus pra-pelatihan dan menyimpannya di basis data eksternal
- Jika ada permintaan unlearning, cukup hapus data terkait dari DB
- Namun, masih ada persoalan seperti deduplikasi, penanganan kutipan/transformasi, dan serangan ekstraksi data
Keamanan AI
- Unlearning dapat dimanfaatkan untuk menghapus pengetahuan, perilaku, dan kemampuan model yang berbahaya
- Namun, ini harus dipandang sebagai salah satu mekanisme mitigasi risiko dan pertahanan pasca-fakta, serta perlu disadari bahwa ada trade-off dengan alat lain seperti alignment fine-tuning dan pemfilteran konten

Opini GN⁺

Machine unlearning masih berada pada tahap awal penelitian, dan terutama pada model bahasa besar tampaknya ada banyak kesulitan. Kecuali pada kasus khusus di mana unlearning eksak dimungkinkan, sebagian besar situasi saat ini masih bergantung pada metode yang empiris dan berbasis pengalaman.
Masalah evaluasi unlearning tampaknya merupakan hambatan terbesar. Definisi dan kriteria unlearning masih ambigu, dan dalam situasi yang berbeda-beda untuk tiap aplikasi, akan sulit berkembang tanpa benchmark dan metrik evaluasi yang memadai. Meski begitu, kemunculan benchmark berfokus aplikasi seperti TOFU dan WMDP baru-baru ini cukup menggembirakan.
Untuk persoalan hak cipta, selain unlearning, solusi ekonomi juga layak dipertimbangkan. OpenAI melakukan pendekatan seperti menyediakan layanan unlearning eksak melalui pelatihan ulang berkala, lalu membebaskan pemilik model dari tanggung jawab atas pelanggaran hak cipta yang terjadi di sela-selanya.
Sistem berbasis pencarian memiliki banyak keunggulan, tetapi ketika masuk ke detail, tampaknya tidak semudah yang dibayangkan. Masih banyak tantangan yang harus diselesaikan, seperti deduplikasi, identifikasi hak cipta, dan pertahanan terhadap serangan ekstraksi data. Kemampuan in-context learning LLM terus meningkat, sehingga banyak hal mungkin bisa dilakukan hanya dengan retrieval, tetapi tampaknya sulit untuk sepenuhnya menggantikan fine-tuning.
Dari sudut pandang keamanan AI, unlearning adalah bidang riset yang cukup menarik. Namun, ini bukan solusi serba guna dan harus digunakan bersama teknik pertahanan lain seperti alignment dan filtering. Seiring model menjadi semakin otonom, minat dari perspektif kebijakan/regulasi juga tampaknya akan meningkat.

2 komentar

xguru 2024-05-07

Machine Unlearning di tahun 2024

GN⁺ 2024-05-06

Komentar Hacker News

Bahkan jika informasi tertentu dihapus dari model, ada masalah mendasar bahwa informasi itu bisa dipelajari kembali melalui inferensi atau prompting
Alih-alih memfilter informasi terlarang itu sendiri, mungkin ada solusi pada bobot dan insentif yang membentuk lapisan inferensi akhir
Model-model yang "aman" saat ini sering kali memberikan hasil yang tidak memuaskan, karena kita sebenarnya belum menginginkan model yang jujur, melainkan model yang memungkinkan pengembangan lebih lanjut
Mungkin ada cara untuk mengodekan dan memberi bobot pada prinsip bahwa model dihasilkan oleh sesuatu dari luar
Menghapus dataset yang melanggar hak cipta mungkin merupakan cara yang paling dapat diterima secara hukum
Bagaimana kalau, alih-alih mengumpulkan semua konten, kita hanya mengumpulkan konten yang secara eksplisit ditandai sebagai dapat digunakan untuk membangun model?
Jika model dilatih dengan DP, data akan tercampur terlalu banyak sehingga tidak bisa lagi mengembalikan data yang tepat, atau sebaliknya tahap DP menjadi tidak berguna
Penghapusan pengetahuan adalah tugas yang bermasalah
Ada kekhawatiran tentang "kewarasan" AI yang telah dilatih, tidak dilatih, dan dilatih ulang
Pada 2014, para pembuat kebijakan tidak memprediksi bahwa deep learning akan menjadi campuran raksasa dari data dan komputasi
"Unlearning" bukanlah tujuan yang sebenarnya, dan bukan berarti kita ingin model secara metaforis menanamkan kepalanya ke pasir
Untuk startup baru, ada massa pembawa garpu rumput yang ikut masuk ke dalam loop pelatihan ML

Machine Unlearning pada 2024

Bentuk-bentuk unlearning

Evaluasi unlearning

Realitas dan prospek unlearning

Opini GN⁺

Bacaan terkait

2 komentar

Komentar Hacker News