- Artikel ini membahas kompleksitas dalam melatih jaringan saraf pada data, alih-alih dengan aturan, yang menyebabkan pembaruan pada jutaan atau miliaran parameter.
- Tantangannya adalah memahami mengapa operasi matematis tiap neuron menghasilkan perilaku yang diamati, sehingga sulit untuk mendiagnosis dan memperbaiki mode kegagalan serta memverifikasi keamanan model.
- Artikel ini menarik analogi antara memahami jaringan saraf buatan dan memahami dasar biologis dari perilaku manusia.
- Para penulis menunjukkan bahwa neuron individual tidak memiliki hubungan yang konsisten dengan perilaku jaringan, dan satu neuron dapat aktif dalam banyak konteks berbeda yang tidak saling terkait.
- Makalah berjudul "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning" mengusulkan bahwa ada unit analisis yang lebih baik daripada neuron individual, yang disebut fitur, dan ini sesuai dengan pola aktivasi neuron.
- Para penulis menguraikan sebuah lapisan yang terdiri dari 512 neuron menjadi lebih dari 4.000 fitur yang merepresentasikan beragam hal seperti sekuens DNA, bahasa hukum, permintaan HTTP, teks Ibrani, dan informasi nutrisi.
- Fitur-fitur ini terbukti jauh lebih dapat diinterpretasikan daripada neuron-neuron model, sebagaimana divalidasi oleh evaluator manusia yang dibutakan.
- Para penulis juga menggunakan pendekatan "interpretabilitas otomatis", dengan memakai model bahasa besar untuk menghasilkan deskripsi singkat tentang fitur-fitur dari model yang lebih kecil, dan pendekatan ini mendapat skor lebih tinggi daripada neuron.
- Fitur menyediakan cara yang berorientasi tujuan untuk menyetel model, dan aktivasi buatan menghasilkan perubahan perilaku model yang dapat diprediksi.
- Fitur yang dipelajari sebagian besar bersifat universal di antara model yang berbeda, yang menunjukkan bahwa pelajaran dari mempelajari fitur pada satu model dapat digeneralisasi ke model lain.
- Para penulis memandang pekerjaan ini sebagai satu langkah penting menuju pemahaman mekanisme model bahasa, yang dapat memungkinkan pemantauan dan penyesuaian perilaku model dari dalam untuk meningkatkan keamanan dan keandalan.
- Tantangan berikutnya adalah memperluas pendekatan ini dari model kecil yang telah didemonstrasikan ke model yang lebih besar dan kompleks, dan hambatan utama saat ini adalah rekayasa, bukan sains.
Belum ada komentar.