Pendekatan yang Membingungkan Sederhananya untuk Memulihkan Pengetahuan yang Terlupakan bagi LLM

(arxiv.org)

1 poin oleh GN⁺ 2024-11-05 | 1 komentar | Bagikan ke WhatsApp

Makalah ICLR 2025 menunjukkan bahwa machine unlearning pada LLM mungkin tidak sepenuhnya menghapus pengetahuan, melainkan hanya menyembunyikannya, dan quantization pada tahap deployment dapat mengungkap kembali pengetahuan tersebut
Dalam berbagai eksperimen teknik dan presisi quantization, metode unlearning dengan kendala utilitas mempertahankan rata-rata 21% pengetahuan yang seharusnya dilupakan pada full precision, tetapi setelah quantization 4-bit angkanya meningkat hingga 83%
Pada kasus GA_KLR di dataset BOOKS, tingkat retensi pengetahuan asli pada model full precision adalah 13%, tetapi pulih menjadi sekitar 89% setelah quantization
Penyebabnya adalah perbedaan bobot antara model asli dan model yang telah di-unlearn menjadi kecil akibat learning rate yang kecil dan regularisasi data retain, sehingga quantization dapat memetakan keduanya ke nilai yang sama
Mitigasinya adalah learning rate yang lebih besar dan pendekatan module-level saliency map yang hanya memperbarui komponen dengan pengaruh besar, tetapi solusi yang stabil masih belum ada karena sensitif terhadap hyperparameter

Apakah unlearning menghapus pengetahuan, atau menyembunyikannya

LLM memperoleh kemampuan generatif yang kuat melalui pelatihan pada korpus teks berskala besar, tetapi juga dapat mempelajari perilaku yang tidak diinginkan dari data pelatihan
- Contohnya adalah reproduksi tanpa izin atas konten berhak cipta, pembuatan informasi pribadi seperti kontak, serta pembuatan pesan ofensif atau berbahaya
- Ada juga konteks hukum, seperti “Right to be Forgotten” dalam GDPR, yang memungkinkan pengguna meminta penghapusan informasi pribadi dari model yang telah dilatih
Machine unlearning adalah pendekatan untuk menghilangkan pengaruh data yang bermasalah dengan tujuan menghapus hafalan pengetahuan tertentu tanpa melatih ulang seluruh model
- Melatih ulang LLM sering kali tidak praktis karena biaya dan waktu yang besar
- Tujuannya adalah menghapus pengetahuan tertentu sambil sebisa mungkin mempertahankan utilitas model
Pertanyaan kuncinya adalah apakah metode unlearning LLM yang ada benar-benar mencapai pelupaan, atau hanya menyembunyikan pengetahuan dengan cara yang tidak terdeteksi oleh benchmark saat ini

Metode unlearning yang ada untuk menjaga utilitas

Metode unlearning yang dibahas secara representatif adalah gradient ascent (GA) dan negative preference optimization (NPO)
- GA menerapkan gradient ascent pada cross-entropy loss di dataset forget untuk menurunkan kemungkinan prediksi jawaban yang benar
- NPO memperlakukan forget set sebagai negative preference data, lalu menyesuaikan model agar memberi likelihood rendah pada forget set dengan memodifikasi tujuan offline DPO
GA dan NPO pada dasarnya tidak dirancang untuk menjaga utilitas, sehingga biasanya digunakan bersama teknik regularisasi
- gradient descent pada dataset retain
- meminimalkan KL divergence antara distribusi probabilitas model yang di-unlearn dan model target pada input retain
Kombinasi ini berupaya menyeimbangkan kinerja melupakan dan utilitas model, tetapi keseimbangan itu dapat runtuh dalam lingkungan quantization

Hasil eksperimen: quantization menghidupkan kembali pengetahuan yang terlupakan

Eksperimen dilakukan dengan menerapkan unlearning pada model target dan dataset forget untuk membuat unlearned model, lalu membandingkan performa pada full precision dan setelah quantization
Pada full precision, model unlearning menunjukkan kinerja unlearning yang kuat, tetapi hanya dengan menerapkan quantization secara sederhana, kinerja unlearning menjadi rusak
Hasil kuantitatif menunjukkan bahwa pemulihan pengetahuan bukan terjadi hanya pada satu pengaturan
- Metode unlearning dengan kendala utilitas mempertahankan rata-rata 21% pengetahuan yang seharusnya dilupakan pada full precision
- Setelah quantization 4-bit, nilai ini meningkat menjadi 83%
- Saat GA_KLR diterapkan pada dataset BOOKS, hanya 13% pengetahuan asli yang tersisa pada full precision, tetapi setelah quantization pulih menjadi sekitar 89%
Fenomena yang sama tervalidasi pada berbagai teknik quantization, tingkat presisi, dan benchmark

Kerentanan yang muncul dari perubahan bobot kecil

Hipotesis utamanya adalah bahwa unlearning yang ada bergantung pada perubahan bobot kecil
- Untuk menjaga utilitas model, digunakan learning rate kecil dan regularisasi pada retain set
- Akibatnya, bobot LLM target dan LLM yang telah di-unlearn menjadi sangat berdekatan
Quantization dapat memetakan bobot yang berdekatan ke nilai yang sama
- LLM target dan LLM yang telah di-unlearn dapat memiliki bobot yang mirip setelah quantization
- Karena LLM target yang telah di-quantize tetap mempertahankan sebagian besar pengetahuan yang seharusnya dilupakan, LLM unlearning yang telah di-quantize juga dapat memulihkan pengetahuan tersebut
Masalah ini penting dalam deployment nyata
- Quantization digunakan secara luas untuk menerapkan LLM di lingkungan dengan keterbatasan sumber daya
- Jika sebuah model telah di-fine-tuning agar melupakan konten berbahaya atau informasi pribadi, maka konten tersebut seharusnya tidak pulih kembali setelah quantization

Strategi mitigasi dan keterbatasan yang tersisa

Strategi quantization-robust unlearning yang diusulkan berfokus pada pengurangan ketidaksesuaian pelupaan antara model full-precision dan model quantized
Ide dasarnya adalah menerapkan learning rate yang lebih besar pada forgetting loss maupun retaining loss
- forgetting loss memberi penalti pada model yang mempertahankan informasi dari forget set
- retaining loss membantu menjaga utilitas pada dataset retain
Learning rate yang besar dapat mengurangi pemulihan pengetahuan, tetapi juga memiliki efek samping yang signifikan
- forgetting gradient dapat mendorong pembaruan yang agresif sehingga model bisa terubah secara berlebihan
- penggunaan learning rate besar pada dataset retain dapat menimbulkan bias ke arah retain data dan menurunkan performa pada tugas di luar retain
Untuk mengurangi efek samping, disusun saliency map tingkat modul dan hanya komponen yang paling berpengaruh terkait data yang harus dilupakan yang diperbarui secara selektif
- Secara eksperimen, targeted strategy ini membantu mengurangi risiko pembaruan agresif, menjaga utilitas model, dan menghasilkan unlearning yang lebih seimbang
Namun, framework ini sangat sensitif terhadap pemilihan hyperparameter sehingga model yang telah di-unlearn bisa menjadi tidak stabil
Kode tersedia di FailureLLMUnlearning

1 komentar

GN⁺ 2024-11-05

Komentar Hacker News

Singkatnya, temuan makalah ini adalah bahwa jika model dikuantisasi, berbagai teknik “unlearning” dibalikkan
Teknik unlearning adalah cara membuat model melupakan fakta tertentu dengan memperbarui bobot model dengan cara tertentu, dan biasanya ditujukan untuk memenuhi tuntutan hak cipta, meski saya tidak yakin apakah benar-benar dipakai di praktik
Sepertinya dibutuhkan analisis model ancaman yang baik di sini. Misalnya, jika saya memiliki model fp32 yang telah di-fine-tune agar melupakan fakta tertentu, lalu saya bisa mengkuantisasinya untuk memulihkan fakta itu, kita perlu menilai dalam situasi seperti apa hal tersebut menjadi berbahaya
- Unlearning dijelaskan sebagai “proses menghapus pengetahuan tertentu dari LLM sambil sebisa mungkin mempertahankan kegunaan model”
  Jadi ini tampak seperti, “Kami tahu model kami tidak akan berguna tanpa materi sumber Anda. Jadi kami akan mengambil bagian yang berguna dari materi Anda dan mengaburkan sisanya, lalu menagih pengguna atas kegunaan yang Anda sediakan tanpa membayar Anda apa pun”
- Ke depannya, akan muncul LLM yang mencoba menemukan “LLM gaya negara boneka Manchukuo”
- Lebih umum dari sekadar “unlearning”, saya juga penasaran apakah menjalankan model fp16 sebagai fp32 atau fp64 membuat sesuatu jadi lebih baik
  Misalnya apakah pengetahuan yang tidak bisa diakses pada presisi rendah menjadi muncul
- Jika ada orang dengan jabatan AI safety di sebuah organisasi, saya rasa mereka akan memakai teknik unlearning agar model tidak mengingat resep umum untuk membuat obat terlarang, racun, atau bahan peledak ilegal
  Model ancamannya kemungkinan besar adalah situasi ketika model yang secara tidak sengaja “menghidupkan kembali” fakta-fakta semacam itu dirilis. Ini makin penting karena distribusi model terkuantisasi itu umum
  Sebagian besar informasi “berbahaya” seperti ini sebenarnya sudah ada di buku teks, paten, dan forum kimia amatir, tetapi secara sosial kita umumnya berasumsi bahwa orang yang cukup cerdas untuk mencari dan memahami informasi itu tidak akan menyalahgunakannya. Yang tidak diinginkan adalah jika Mythbusters menjelaskannya di TV jam tayang utama atau ChatGPT menjelaskannya ke sembarang orang
Saya melihat kuantisasi sebagai faktor yang mengaburkan inti persoalan. Jika ada satu saja cara untuk membalikkan unlearning, itu berarti pengetahuan tersebut masih ada di dalam bobot, dan ini adalah teori informasi dasar
Rasanya akan ada sangat banyak cara untuk memulihkan pengetahuan yang hilang bahkan tanpa memakai kuantisasi
- Bisa jadi kuantisasi atau downsampling itu sendiri adalah cara mendasar untuk menangani masalah ini
  1. Latih model normal dengan presisi penuh
  2. Kuantisasikan sampai kinerjanya mendekati batas lalu lakukan proses unlearning
  3. Setelah itu latih/konversi/upsampling kembali ke FP untuk iterasi tuning berikutnya
    Dengan cara seperti ini, kita mungkin bisa membuat bottleneck informasi. Gema dari hal-hal yang telah dilupakan mungkin sulit melewati bottleneck yang sesempit itu
- Benar bahwa kuantisasi bukan sesuatu yang istimewa, tetapi ungkapan “mengaburkan inti persoalan” tidak tepat. Seperti judulnya, ini hanyalah pendekatan yang sangat sederhana sampai terasa memalukan
- Itu mirip seperti mengatakan enkripsi mengaburkan inti persoalan
  Informasinya memang ada di sana, tetapi pemulihannya adalah masalah yang terpisah. Dalam kasus ini, perbedaan pentingnya adalah bahwa kuantisasi memungkinkan pemulihan informasi tanpa mengetahui sandi yang membuatnya “terlupakan”
- Jika ada cara untuk membalikkan unlearning, maka ada juga cara untuk mengidentifikasi bobot yang memuat informasi tersebut dan mencegah informasi itu diteruskan. Inti dari pembelajaran adalah deteksi
  Informasi itu mungkin masih ada di dalam, tetapi bisa jadi tidak dapat dideteksi dengan metode apa pun yang diketahui. Jika semua bobot model dibuat 0, informasi itu jelas terhapus. Masalahnya mungkin adalah mustahil untuk mengidentifikasi kapan kita telah benar-benar mencapai tujuan menghapus informasi sepenuhnya tanpa merusak informasi lain
  Mungkin nanti akan muncul sesuatu seperti kerentanan zero-day pembalikan unlearning
Mirip seperti menyuruh bayi untuk melupakan “hal buruk” yang baru dipelajari. Alih-alih benar-benar lupa, hampir pasti pengetahuan itu justru akan makin tertanam
Setiap kali mendengar soal demam AI, saya teringat demam printer 3D sekitar 10–15 tahun lalu. Waktu itu ada omongan seperti “pukulan telak bagi pabrik”, “mencetak mobil kita sendiri”, atau “mencetak makanan sendiri”. AI berbasis LLM sepertinya akan mengalami nasib yang sama. Secara teknis mungkin, tetapi dalam praktiknya kemungkinan tidak seperti itu
- “Demam” saat ini bukan semata gagasan bahwa AI berbasis LLM adalah satu teknologi tunggal yang akan mengubah segalanya, melainkan lebih dekat ke harapan bahwa semua terobosan AI/machine learning—termasuk teknik-teknik yang bahkan belum terbayangkan—akan bergabung menjadi teknologi teoretis yang mengubah segalanya dalam waktu dekat
  Lagi pula, 10–15 tahun itu bukan apa-apa. Saya tidak menganggap printer 3D sebagai teknologi yang benar-benar transformatif dibanding AI, tetapi perlu diingat bahwa, selain pengecualian Perang Dunia II, pesawat terbang dan komputer juga membutuhkan 30–40 tahun untuk memberi dampak sosial dan konsumen yang luas di luar penggunaan militer
- Maksudnya, mungkin tidak sampai level Star Trek, tetapi akan menjadi luar biasa dan sangat berguna?
- Kita cenderung melebih-lebihkan dampak jangka pendek teknologi dan meremehkan dampak jangka panjangnya
  Printer 3D pada akhirnya mungkin saja mengubah seluruh manufaktur secara drastis, tetapi untuk sampai ke sana masih perlu banyak iterasi. Bahkan sekarang, secara teoretis kita bisa mencetak 3D banyak hal yang kita buat, tetapi metode manufaktur yang ada masih lebih murah dan bekerja lebih baik, jadi tidak ada pendorong yang memaksa perubahan. Jika kita membangun permukiman mandiri di luar angkasa, itu akan menjadi lingkungan tempat 3D printing bisa melangkah jauh lebih jauh. Karena di sana tidak ada banyak tenaga kerja manusia atau rantai pasok besar, jadi dibutuhkan manufaktur yang portabel, mandiri, dan serbaguna
  LLM dalam waktu dekat tidak akan menggantikan penulis manusia, programmer, dan sebagainya, kecuali untuk tugas-tugas yang paling sederhana. Sebaliknya, ia akan memperkuat mereka. Dalam pemrograman, ini lebih mirip autocomplete yang lebih cerdas dan serbabisa. Ini juga berguna untuk menemukan konsep, riset, serta merangkum dan mendokumentasikan kode maupun teks. Hal-hal itu tidak menggantikan saya, tetapi membuat saya bisa melakukan lebih banyak hal sedikit lebih cepat
  Dalam jangka yang sangat panjang, LLM mungkin menjadi cukup kuat untuk benar-benar menyintesis aplikasi utuh, bukan sekadar contoh-contoh yang dipaksakan. Tetapi seperti 3D printing yang menggantikan seluruh manufaktur, itu akan membutuhkan banyak iterasi, dan mungkin juga membutuhkan faktor pendorong
- Saya tidak terlalu setuju di sini
  Saya ingat demam itu. Terutama karena saya sering mendengarnya bahkan sebelum masuk ke perusahaan seperti Autodesk yang cukup serius menekuni 3D printing
  Saya tidak punya pengalaman sebelumnya dengan 3D printing, tetapi saya hanya butuh sekitar dua bulan untuk menyadari bahwa banyak hal yang dikatakan media itu omong kosong. Secara teknis, teknologinya sama sekali belum mendekati apa yang diklaim beberapa artikel—misalnya mencetak mobil sendiri—dan secara bisnis pun ternyata sangat sedikit titik di mana penggunaan 3D printing benar-benar lebih baik daripada manufaktur yang sudah ada
  Bukan bermaksud mengecilkan. 3D printing itu hebat dan memang punya banyak kegunaan nyata. Masalahnya adalah media di sekitarnya terlalu membesar-besarkannya
  Kebanyakan orang yang benar-benar paham 3D printing tahu bahwa media, kalau mau dibilang baik-baik, terlalu bersemangat. Dan bahkan sekarang, setelah bertahun-tahun berlalu, visi besar itu tetap belum terwujud
  Sebaliknya, ada dua perbedaan besar pada AI. Pertama, kegunaannya sudah terbukti sangat besar dan dampaknya bahkan sudah 100 kali lebih besar daripada yang pernah dihasilkan 3D printing. Coba pikirkan, kapan terakhir ada produk yang pada dasarnya baru dirilis sekitar 4 tahun lalu tetapi sudah mencapai penetrasi pasar yang sedemikian luar biasa. ChatGPT memang merupakan produk dengan pertumbuhan tercepat dalam sejarah jika dilihat dari jumlah pengguna
  Kedua, para insider umumnya sangat antusias terhadap teknologi ini, dan melihat bahwa teknologinya bisa menjadi jauh lebih baik lagi serta potensi saat ini pun masih belum dimanfaatkan sepenuhnya. Saya pribadi jelas cenderung sependapat dengan itu
Dari sudut pandang teori informasi, ini terdengar agak di luar dugaan. Dalam representasi 32-bit penuh model, pengetahuan ini tampak seperti sudah dihapus, tetapi saat dikompresi menjadi 4-bit, pengetahuan itu muncul lagi
Jadi muncul pertanyaan: informasi apa sebenarnya yang hilang pada tahap kompresi/kuantisasi?
- Penjelasan sederhananya, sebagian besar metode “melupakan” bisa dipandang sebagai menambahkan delta w ke parameter jaringan saraf, tetapi sebagian besar w itu begitu saja “dibulatkan habis” selama kuantisasi. Artinya quantize(X+w) ~= quantize(X)
  Ini ide yang cukup cerdik, mengingat banyak metode yang dikutip secara eksplisit mengoptimalkan/menormalkan agar w tetap kecil demi menghindari penurunan akurasi evaluasi
  Karena itu, muncul pertanyaan apakah metode seperti ini benar-benar bisa disebut pelupaan dari sudut pandang teori informasi, atau hanya seperti memasang if (false) di sekitar pengetahuan laten
- Yang dihapus pada versi 32-bit tampaknya bukan pengetahuan itu sendiri, melainkan representasi dari pengetahuan tersebut. Dan mungkin ada sebagian ruang yang dialokasikan untuk menyimpan informasi bahwa model tidak boleh berbicara tentang topik tertentu
  Misalnya, manusia juga mengetahui berbagai hinaan rasial, tetapi juga tahu bahwa pengetahuan itu tidak boleh diakses atau digunakan
  Namun ketika manusia atau model AI mengalami sesuatu seperti benturan di kepala atau kuantisasi, pengetahuan tentang X bisa tetap ada, sementara pengetahuan bahwa X tidak boleh dibicarakan bisa hilang. Jika dilihat seperti ini, rasanya cukup intuitif
- Mungkin pengetahuannya tidak hilang, hanya tertutup
  Jika jaringan saraf dianggap sebagai kode, maka bobot adalah semacam kode sumbernya. Fine-tuning bisa jadi pada dasarnya adalah tindakan meretas kode itu agar tidak mengembalikan keluaran tertentu
  Dan memang, fine-tuning sampai batas tertentu cukup mirip dengan itu
  Jadi bisa saja ini cuma membangun firewall di sekitar keluaran tertentu. Namun saat dikuantisasi, modifikasi terbaru itu bisa hilang. Perubahannya terlalu halus untuk bisa bertahan
  Di sisi lain, fakta bahwa kuantisasi tidak menghancurkan semua pengetahuan juga ditunjukkan oleh model kuantisasi populer
  Tambahan, jika @simonw menyalakan notifikasi, topik ini terasa pas sekali untuk dijadikan tulisan
- Pengetahuannya tidak dihapus, hanya saja tidak pernah digunakan karena bobot tertentu
  Kuantisasi mengubah perhitungannya, dan kini pengetahuan itu menjadi bisa diakses
- Sebenarnya ini tidak terlalu mengejutkan
  Floating point selalu terasa seperti cara yang aneh untuk merepresentasikan bahasa. Jika kita perbesar hanya satu variabel, mungkinkah ada himpunan makna seperti https://vinaire.me/2019/07/17/scn-8-8008-the-emotional-scale... yang berada di atas suatu gradien, tetapi tiap rentang tertentu punya makna khusus? Kita bisa membayangkan rangkaian saraf yang dirancang dengan hati-hati untuk mendekode variabel semacam itu, dan bahkan bisa membayangkan cara membangun jaringan dengan struktur seperti itu, tetapi tidak intuitif bahwa jaringan saraf akan mempelajari struktur seperti itu sendiri. Skala dari “baik” ke “buruk” masih bisa dipercaya, tetapi sulit dipercaya bahwa banyak makna spesifik melekat pada nilai-nilai yang berbeda
  Kalau dipikir seperti itu, suatu bentuk jaringan saraf biner seharusnya sangat efektif, tetapi dalam praktiknya tampaknya tidak demikian. Meski begitu, jaringan saraf memang terlihat tidak terlalu menggunakan presisi internal lebih dari kira-kira 4-bit
  Sistem “pelupaan” seperti ini lebih mirip mempelajari perilaku baru untuk menekan keluaran tertentu, bukan benar-benar menghapus “engram” ingatan di dalam jaringan. Ini tidak jauh berbeda dari masalah menambahkan pengetahuan baru ke jaringan secara bertahap, hanya saja apa yang dipelajari pada tahap kedua cukup berbeda dari pembelajaran biasa. Jika Anda tidak ingin merusak jaringan, Anda bisa membayangkan menambahkan satu bit presisi lagi untuk menambahkan perilaku baru. Pada presisi rendah, perilaku lama dipertahankan, dan pada presisi tinggi, dibuat pembedaan penting untuk perilaku yang “dilupakan/dipelajari”
Hipotesis intinya adalah bahwa untuk mencapai pelupaan tanpa merusak kegunaan model, metode yang ada biasanya memakai learning rate kecil dan regularisasi terhadap himpunan yang dipertahankan, sehingga perubahan bobot model selama pelupaan dibuat seminimal mungkin
Akibatnya, bobot model target LLM dan LLM yang sudah melupakan menjadi sangat berdekatan
Jika demikian, tampaknya konten yang tidak diinginkan harus dicegah agar tidak dipelajari pada tahap pretraining, atau proses pelupaan pada model dasar harus dibuat sadar terhadap kuantisasi
Saya sama sekali bukan ahli di bidang ini, jadi mungkin ini pertanyaan bodoh. Jika llama3 dikuantisasi ke 4-bit, apakah itu berarti kita bisa mengakses informasi tersembunyi seperti cara mensintesis senyawa tertentu? Tentu kualitasnya akan menurun
- Saya juga penasaran persis tentang itu. Apakah pelupaan = guardrail? Kedengarannya seperti bobotnya disetel sangat sedikit agar model menyensor dirinya sendiri, dan penyesuaian itu tampaknya terlalu halus untuk bertahan pada resolusi rendah
  Tapi kalau menembus guardrail semudah itu, rasanya kita pasti sudah pernah mendengarnya
- Itu hanya mungkin jika “cara mensintesis senyawa tertentu” memang sudah ada di model aslinya
Bagian yang mengatakan “meskipun metode pelupaan saat ini efektif, hampir tidak ada perhatian yang diberikan pada apakah metode pelupaan LLM yang ada benar-benar mencapai pelupaan sejati atau hanya menyembunyikan pengetahuan” adalah pertanyaan yang bagus
Dalam konteks LLM, dan juga dalam konteks filosofis tentang pengetahuan secara umum, kita perlu menelaah apa arti melupakan dan mengingat, apakah LLM bisa “melupakan” apa yang telah “dipelajarinya”, dan jika bisa, secara matematis dan komputasional itu tepatnya berarti apa
Juga menarik untuk bertanya apakah LLM dapat diajari kembali hal-hal yang dulu telah dilupakannya melalui proses penalaran, implikasi, derivasi, inferensi induktif, inferensi deduktif, dan sebagainya dari pengetahuan yang sudah dimiliki
Jika bisa, apa inti minimum terkecil dari LLM yang memungkinkan hal itu, dan mengapa demikian, juga menjadi pertanyaan
Rasanya ini bukan makalah pertama tentang topik ini, dan pasti juga bukan yang terakhir
Kami memang menggunakan LLM terkuantisasi di lingkungan produksi, tetapi saya tidak pernah merasa modelnya menjadi kurang tersensor
Untuk pelupaan atas perilaku yang diperkuat, teknik abliteration [1] tampak jauh lebih kuat
1 https://huggingface.co/blog/mlabonne/abliteration
- Apakah Anda secara spesifik menggunakan model yang dilupakan dengan gradient ascent?
Masalah model saat ini bukanlah belajar, melainkan dicuci otak secara indoktrinatif
Ada kekurangan berpikir kritis pada tahap pembelajaran
- Mempersonifikasikan LLM tidak tepat secara teknis dan juga tidak terlalu bermanfaat
- Kalau tidak begitu, bagaimana LLM bisa disensor? Apakah Anda benar-benar ingin LLM bisa berbicara sebebas-bebasnya?
Bahkan tidak perlu memakai kuantisasi. Sebagian besar benchmark bisa ditembus hanya dengan prompt saja
https://arxiv.org/abs/2410.02879

Pendekatan yang Membingungkan Sederhananya untuk Memulihkan Pengetahuan yang Terlupakan bagi LLM

Apakah unlearning menghapus pengetahuan, atau menyembunyikannya

Metode unlearning yang ada untuk menjaga utilitas

Hasil eksperimen: quantization menghidupkan kembali pengetahuan yang terlupakan

Kerentanan yang muncul dari perubahan bobot kecil

Strategi mitigasi dan keterbatasan yang tersisa

Bacaan terkait

1 komentar

Komentar Hacker News