- Machine unlearning berarti menghapus data yang tidak diinginkan dari model yang sudah dilatih, dan minat untuk mengedit model tanpa perlu melatih ulang model dari awal terus meningkat
- Contohnya mencakup penghapusan informasi pribadi, pengetahuan usang, materi berhak cipta, konten berbahaya/berisiko, kemampuan berbahaya, dan misinformasi
Bentuk-bentuk unlearning
- Unlearning eksak (Exact unlearning)
- Mengharuskan model yang telah di-unlearn dan model yang dilatih ulang identik secara distribusional
- Kuncinya adalah algoritme pembelajaran memiliki komponen modular yang masing-masing berkaitan dengan himpunan contoh pelatihan yang berbeda
- "Unlearning" melalui Differential Privacy
- Bertujuan agar model tidak bergantung pada titik data tertentu
- Mengharuskan kedekatan distribusional antara model yang telah di-unlearn dan model yang dilatih ulang
- Unlearning empiris dengan ruang contoh yang diketahui (Empirical unlearning with known example space)
- Diterapkan ketika data yang akan di-unlearn diketahui secara tepat
- Dilakukan dengan cara unlearning melalui fine-tuning model
- Unlearning empiris dengan ruang contoh yang tidak diketahui (Empirical unlearning with unknown example space)
- Diterapkan ketika cakupan atau batas data yang akan di-unlearn tidak jelas
- Mencakup kasus unlearning konsep, fakta, pengetahuan, dan sebagainya
- Meminta unlearning secara langsung (Just ask for unlearning)
- Metode yang secara langsung meminta unlearning pada LLM yang kuat
Evaluasi unlearning
- Evaluasi unlearning adalah masalah yang sangat sulit. Kekurangan metrik dan benchmark khususnya merupakan persoalan serius
- Dalam evaluasi unlearning, ada tiga aspek berikut yang perlu menjadi fokus utama
- Efisiensi: seberapa cepat algoritme dibandingkan dengan pelatihan ulang
- Utilitas model: apakah terjadi penurunan performa pada data yang harus dipertahankan atau pada tugas ortogonal
- Kualitas pelupaan: seberapa jauh data yang seharusnya dilupakan benar-benar telah di-unlearn
- Benchmark TOFU dan WMDP baru-baru ini diusulkan dan membantu evaluasi unlearning
- TOFU berfokus pada unlearning informasi pribadi penulis, sedangkan WMDP berfokus pada unlearning pengetahuan berbahaya terkait biosecurity/cybersecurity
- Keduanya melakukan evaluasi tingkat tinggi berbasis kepemilikan dan pemahaman pengetahuan, bukan berbasis instance
- Tampaknya diperlukan benchmark unlearning yang berpusat pada aplikasi seperti informasi identitas pribadi, hak cipta, bahaya, dan backdoor
Realitas dan prospek unlearning
- Kesulitan unlearning memiliki sebuah spektrum
- Unlearning teks berfrekuensi rendah adalah yang paling mudah, lalu semakin sulit untuk teks berfrekuensi tinggi dan fakta yang lebih mendasar
- Semakin mendasar suatu pengetahuan, semakin tinggi keterkaitannya dengan pengetahuan lain sehingga cakupan unlearning meningkat secara eksponensial
- Contoh yang dipelajari pada tahap awal bisa saja telah "tertindih" oleh contoh-contoh berikutnya sehingga sulit untuk di-unlearn
- Sebaliknya, contoh yang dipelajari belakangan bisa jadi sulit di-unlearn karena model mungkin melupakannya secara bertahap atau secara katastrofik
- Perlindungan hak cipta
- Unlearning tampak menjanjikan untuk perlindungan hak cipta, tetapi untuk saat ini lanskap hukumnya masih belum jelas
- Jika penggunaan konten berhak cipta termasuk fair use menurut doktrin fair use, maka unlearning mungkin tidak diperlukan
- Sistem AI berbasis pencarian
- Caranya adalah menghapus konten yang mungkin menerima permintaan unlearning dari korpus pra-pelatihan dan menyimpannya di basis data eksternal
- Jika ada permintaan unlearning, cukup hapus data terkait dari DB
- Namun, masih ada persoalan seperti deduplikasi, penanganan kutipan/transformasi, dan serangan ekstraksi data
- Keamanan AI
- Unlearning dapat dimanfaatkan untuk menghapus pengetahuan, perilaku, dan kemampuan model yang berbahaya
- Namun, ini harus dipandang sebagai salah satu mekanisme mitigasi risiko dan pertahanan pasca-fakta, serta perlu disadari bahwa ada trade-off dengan alat lain seperti alignment fine-tuning dan pemfilteran konten
Opini GN⁺
- Machine unlearning masih berada pada tahap awal penelitian, dan terutama pada model bahasa besar tampaknya ada banyak kesulitan. Kecuali pada kasus khusus di mana unlearning eksak dimungkinkan, sebagian besar situasi saat ini masih bergantung pada metode yang empiris dan berbasis pengalaman.
- Masalah evaluasi unlearning tampaknya merupakan hambatan terbesar. Definisi dan kriteria unlearning masih ambigu, dan dalam situasi yang berbeda-beda untuk tiap aplikasi, akan sulit berkembang tanpa benchmark dan metrik evaluasi yang memadai. Meski begitu, kemunculan benchmark berfokus aplikasi seperti TOFU dan WMDP baru-baru ini cukup menggembirakan.
- Untuk persoalan hak cipta, selain unlearning, solusi ekonomi juga layak dipertimbangkan. OpenAI melakukan pendekatan seperti menyediakan layanan unlearning eksak melalui pelatihan ulang berkala, lalu membebaskan pemilik model dari tanggung jawab atas pelanggaran hak cipta yang terjadi di sela-selanya.
- Sistem berbasis pencarian memiliki banyak keunggulan, tetapi ketika masuk ke detail, tampaknya tidak semudah yang dibayangkan. Masih banyak tantangan yang harus diselesaikan, seperti deduplikasi, identifikasi hak cipta, dan pertahanan terhadap serangan ekstraksi data. Kemampuan in-context learning LLM terus meningkat, sehingga banyak hal mungkin bisa dilakukan hanya dengan retrieval, tetapi tampaknya sulit untuk sepenuhnya menggantikan fine-tuning.
- Dari sudut pandang keamanan AI, unlearning adalah bidang riset yang cukup menarik. Namun, ini bukan solusi serba guna dan harus digunakan bersama teknik pertahanan lain seperti alignment dan filtering. Seiring model menjadi semakin otonom, minat dari perspektif kebijakan/regulasi juga tampaknya akan meningkat.
2 komentar
Machine Unlearning di tahun 2024
Komentar Hacker News