1 poin oleh GN⁺ 2024-11-05 | 1 komentar | Bagikan ke WhatsApp
  • Apakah LLM benar-benar 'melupakan'

    • Model bahasa besar (LLM) dilatih dengan data teks dalam jumlah besar dan menunjukkan kemampuan menghasilkan teks yang sangat baik
    • Namun, karena sifat sensitif dari data pelatihan, model dapat mempelajari perilaku yang tidak diinginkan
    • 'Machine unlearning' adalah metode untuk mengatasi masalah ini, yang bertujuan menghapus pengetahuan tertentu sambil sebisa mungkin mempertahankan kegunaan model
  • Masalah dan isi penelitian

    • Masih kurang penelitian mengenai apakah metode 'unlearning' saat ini benar-benar membuat model melupakan pengetahuan, atau hanya sekadar menyembunyikannya
    • Penelitian ini mengungkap bahwa dengan menerapkan kuantisasi, informasi yang 'terlupakan' dapat dipulihkan
    • Eksperimen dilakukan pada berbagai tingkat presisi dengan menggunakan beragam teknik kuantisasi
  • Hasil eksperimen

    • Untuk metode 'unlearning' yang memiliki kendala kegunaan, model mempertahankan rata-rata 21% dari pengetahuan yang seharusnya dilupakan pada presisi penuh
    • Setelah kuantisasi 4-bit, angka ini meningkat menjadi 83%
  • Strategi yang diusulkan

    • Penelitian ini memberikan penjelasan teoretis untuk menjelaskan fenomena tersebut
    • Penelitian ini juga mengusulkan strategi 'unlearning' yang tahan terhadap kuantisasi untuk mengurangi masalah yang kompleks ini
  • Pentingnya penelitian

    • Memberikan kontribusi penting dalam mengevaluasi dan meningkatkan efektivitas metode 'unlearning' pada LLM
    • Membantu memahami dampak kuantisasi terhadap 'unlearning'

1 komentar

 
GN⁺ 2024-11-05
Komentar Hacker News
  • Ada hasil riset yang menunjukkan bahwa kuantisasi model membatalkan metode "melupakan". Metode "melupakan" adalah memperbarui bobot agar model melupakan fakta tertentu. Metode seperti ini terutama digunakan untuk menangani masalah hak cipta.
    • Jika kuantisasi membatalkan "melupakan", itu berarti secara teori informasi pengetahuan tersebut masih tersisa di bobot model.
    • Membandingkan demam AI dengan demam printer 3D 10-15 tahun lalu, dan memperkirakan AI juga akan menghadapi nasib serupa.
    • Pengetahuan telah dihapus pada model 32-bit, tetapi ketika dikompresi menjadi 4-bit pengetahuan itu muncul kembali, yang secara teori informasi tidak terduga.
    • Untuk "melupakan", umumnya digunakan laju pembelajaran kecil dan regularisasi tanpa merusak kegunaan model. Karena itu, bobot LLM target dan LLM yang sudah "dilupakan" menjadi sangat berdekatan.
    • Perlu mencegah pembelajaran yang tidak diinginkan selama pelatihan dasar, atau "pelupaan" pada model dasar harus sensitif terhadap kuantisasi.
    • Meskipun menggunakan LLM yang dikuantisasi, tidak ditemukan bahwa model menjadi kurang tersensor.
    • Untuk memperkuat perilaku yang "dilupakan", teknik abliteration lebih kuat.
    • "Melupakan" pada dasarnya adalah menurunkan probabilitas sampling dalam "ruang pembelajaran" laten, dan kuantisasi mengurangi efek dari sampling ini.
    • "Melupakan" adalah ketika LLM belajar menekan pengetahuan yang tidak diinginkan, dan kuantisasi merusak penekanan ini.
    • Baru pertama kali mengetahui tentang "pelupaan" model, dan berharap ada jawaban tentang bagaimana federated learning dapat mencegah "pelupaan" model.