Mengurai Model Bahasa Menjadi Komponen yang Dapat Dipahami

(anthropic.com)

1 poin oleh GN⁺ 2023-10-09 | 1 komentar | Bagikan ke WhatsApp

Anthropic membahas cara menemukan fitur (feature) yang lebih mudah diinterpretasikan daripada neuron individual pada model bahasa Transformer kecil, lalu membagi bagian dalam jaringan saraf menjadi unit yang dapat dipahami
Satu neuron dapat aktif bersamaan dalam konteks yang tidak berhubungan, seperti sitasi akademik, percakapan bahasa Inggris, permintaan HTTP, dan teks bahasa Korea, sehingga sulit dipetakan secara andal ke perilaku model
Studi ini mengurai satu lapisan berisi 512 neuron menjadi lebih dari 4.000 fitur, yang secara terpisah menampilkan atribut seperti sekuens DNA, gaya bahasa hukum, permintaan HTTP, teks Ibrani, dan tabel informasi gizi
Dalam evaluasi manusia secara buta dan evaluasi interpretabilitas otomatis berbasis LLM, fitur lebih mudah diinterpretasikan daripada neuron; ketika fitur tertentu diaktifkan secara artifisial, perilaku model juga berubah dengan cara yang dapat diprediksi
Jika fitur yang dipelajari pada berbagai model secara umum bersifat universal, tantangan untuk memperluas pendekatan ini ke frontier model yang lebih besar menjadi lebih dekat ke rekayasa daripada sains

Mengapa jaringan saraf sulit diinterpretasikan

Jaringan saraf tidak diprogram langsung oleh manusia dengan aturan, melainkan dilatih menggunakan data, dan selama proses pelatihan ratusan juta hingga puluhan miliar parameter diperbarui
Perhitungan matematis pada jaringan yang telah dilatih dapat dilacak
- Setiap neuron melakukan operasi aritmetika sederhana
- Namun alasan mengapa operasi itu mengarah pada perilaku yang diamati tidak jelas
Ketidakjelasan seperti ini membuat diagnosis mode kegagalan, penentuan cara perbaikan, dan sertifikasi keamanan model menjadi sulit

Neuron individual bukan unit interpretasi yang stabil

Ilmu saraf juga menangani masalah serupa dalam memahami dasar biologis perilaku manusia, tetapi pada jaringan saraf buatan eksperimen dapat dilakukan jauh lebih mudah
- Aktivasi semua neuron dapat direkam secara bersamaan
- Intervensi untuk membisukan atau menstimulasi neuron dimungkinkan
- Respons jaringan terhadap input yang mungkin dapat diuji
Namun neuron individual tidak memiliki hubungan yang konsisten dengan perilaku jaringan
- Satu neuron pada model bahasa kecil aktif dalam berbagai konteks yang tidak berhubungan, seperti sitasi akademik, percakapan bahasa Inggris, permintaan HTTP, dan teks bahasa Korea
- Satu neuron pada model visi klasik merespons baik wajah kucing maupun bagian depan mobil
Aktivasi neuron yang sama dapat memiliki makna berbeda tergantung konteks

Pendekatan mengurai model dengan fitur (feature)

Makalah Towards Monosemanticity: Decomposing Language Models With Dictionary Learning membahas adanya unit analisis yang lebih baik daripada neuron individual
Unit ini, yaitu fitur (feature), sesuai dengan pola aktivasi neuron, yakni kombinasi linear
Anthropic membangun perangkat untuk menemukan fitur semacam ini pada model Transformer kecil
Pendekatan ini merupakan jalur untuk membagi jaringan saraf kompleks menjadi bagian-bagian yang dapat dipahami, dan berdiri di atas pekerjaan sebelumnya dalam ilmu saraf, machine learning, dan statistika yang berupaya menginterpretasikan sistem berdimensi tinggi

Mengurai 512 neuron menjadi lebih dari 4.000 fitur

Pada sebuah model bahasa Transformer, satu lapisan dengan 512 neuron diurai menjadi lebih dari 4.000 fitur
Fitur yang diurai merepresentasikan atribut berbeda secara terpisah
- Sekuens DNA
- Bahasa hukum
- Permintaan HTTP
- Teks Ibrani
- Tabel informasi gizi
Sebagian besar atribut model seperti ini tidak tampak jika hanya melihat aktivasi neuron individual secara terpisah

Verifikasi interpretabilitas

Penilai manusia secara buta memberi skor interpretabilitas fitur dan neuron
- Fitur memperoleh skor jauh lebih tinggi daripada neuron
Evaluasi interpretabilitas otomatis menggunakan LLM juga dipakai
- Model bahasa besar membuat deskripsi singkat tentang fitur pada model kecil
- Model lain memberi skor seberapa baik aktivasi fitur dapat diprediksi hanya dari deskripsi tersebut
- Dalam evaluasi ini pun, fitur memperoleh skor lebih tinggi daripada neuron
Hasilnya, bukti bahwa aktivasi fitur dan efek hilirnya pada perilaku model dapat diinterpretasikan secara konsisten semakin bertambah

Mengarahkan model menggunakan fitur

Fitur juga menyediakan sarana untuk mengarahkan model secara tertarget
Ketika fitur tertentu diaktifkan secara artifisial, perilaku model berubah dengan cara yang dapat diprediksi
Karena itu, fitur dapat diperlakukan bukan hanya sebagai unit observasi, tetapi juga sebagai komponen internal yang memengaruhi perilaku model

Universalitas dan pengaturan resolusi

Fitur yang dipelajari secara umum bersifat universal di antara model yang berbeda
- Temuan dari mempelajari fitur pada satu model dapat digeneralisasi ke model lain
Dengan mengatur jumlah fitur yang dipelajari, resolusi dalam melihat model dapat diubah
- Mengurai model menjadi kumpulan fitur kecil memberikan sudut pandang kasar yang mudah dipahami
- Mengurai model menjadi kumpulan fitur besar menampilkan atribut model yang halus dari sudut pandang yang lebih rinci
Penjelasan terkait terhubung dengan eksperimen perubahan resolusi

Keamanan AI dan tantangan berikutnya

Pekerjaan ini merupakan hasil investasi riset interpretabilitas mekanistik Anthropic, dan menjadi salah satu arah riset jangka panjang untuk keamanan AI
Fakta bahwa neuron individual tidak dapat diinterpretasikan merupakan hambatan besar dalam memahami model bahasa secara mekanistik
Mengurai kelompok neuron menjadi fitur yang dapat diinterpretasikan dapat membuka kemungkinan untuk melampaui hambatan ini
Dalam jangka panjang, hal ini dapat terhubung dengan pemantauan dan pengarahan perilaku model dari dalam, sehingga meningkatkan keamanan dan keandalan yang dibutuhkan untuk adopsi oleh perusahaan dan masyarakat
Tantangan berikutnya adalah memperluas metode yang berhasil pada model kecil ke frontier model yang jauh lebih besar dan kompleks
- Untuk pertama kalinya, hambatan besar berikutnya dalam interpretasi model bahasa besar dipandang lebih dekat ke rekayasa daripada sains
Detail selengkapnya dapat dilihat di Towards Monosemanticity: Decomposing Language Models With Dictionary Learning

1 komentar

GN⁺ 2023-10-09

Pendapat di Hacker News

Saya kebetulan melihat tulisan yang berguna yang membandingkannya dengan makalah lain yang sangat baru, dan tampaknya secara praktis mendukung sebagian temuan utamanya. Sepertinya tulisan perbandingan itu ditulis oleh penulis makalah lain tersebut: https://www.lesswrong.com/posts/F4iogK5xdNd7jDNyw/comparing-...
Kebetulan saya sedang mengerjakan hal yang hampir persis sama sebagai proyek sampingan. Berawal dari rasa ingin tahu murni, dan meski tidak persis sama, saya sedang menyempurnakan algoritme yang mengambil beberapa output yang dikalibrasi dengan cermat dari LLM tertentu lalu menyimpulkan kumpulan parameter yang kemungkinan ada di baliknya
Saya memperkirakan akan muncul klaster parameter yang mirip dengan yang diamati. Secara informal saya menyebut masalah ini “rekayasa balik LLM”, dan tentu saja ini tidak mudah dipecahkan. Namun bukan berarti sepenuhnya mustahil, dan sejauh ini saya sudah menemukan aproksimasi yang cukup baik
Hipotesis di bagian akhir naskah yang ditautkan, bahwa “sebagian fitur sebenarnya adalah manifold fitur berdimensi tinggi, dan dictionary learning mungkin sedang mengaproksimasinya”, juga menarik. Dalam arti bahwa ada sesuatu yang berperilaku seperti ruang kontinu dan halus sehingga kita bisa mendefinisikan manifold sebanyak yang diperlukan, itu benar. Terlepas dari perdebatan ketatnya, saya rasa itulah yang memang terjadi dan merupakan kerangka yang tepat untuk mendekati masalah ini
Pencerahan mengejutkan yang bisa didapat di sini adalah apa padanan konseptual dari fungsi transisi yang menghubungkan berbagai manifold berbeda di dalam ruang LLM ini. Saat melihatnya, kepala Anda mungkin terasa mau meledak bukan karena rumit, melainkan karena justru luar biasa sederhana
- Bisa jelaskan lebih lanjut apa tepatnya yang dimaksud dengan “fungsi transisi” di sini?
- Saya penasaran pendekatan apa yang Anda pakai saat mulai mengerjakan ini. Saya juga ingin belajar lebih banyak tentang cara kerja LLM
- Apakah maksudnya hierarkis? Atau saya benar-benar melewatkan intinya?
Ini terlihat seperti kemajuan besar dalam riset alignment. Masalah besar selama ini adalah LLM merupakan tumpukan angka yang sulit ditafsirkan, dan kita hampir tidak tahu apa yang terjadi di dalamnya
Jika teknik ini bisa diskalakan ke ukuran yang lebih besar, Anthropic berarti sudah banyak memperbaiki masalah itu. Kita bisa mengetahui apa yang sebenarnya dilakukan oleh berbagai kelompok neuron, lalu menggunakannya untuk mengendalikan perilaku LLM. Ini bisa membantu mencegah AI yang alignment-nya melenceng tanpa sengaja
- Bagi saya ini lebih terdengar seperti petunjuk bagus untuk pruning
- Bagian “fitur yang dipelajari umumnya bersifat universal di antara model yang berbeda, sehingga pelajaran dari mempelajari fitur satu model dapat digeneralisasi ke model lain” seharusnya dijelaskan lebih rinci
  Apakah maksudnya mereka menemukan pendeteksi fitur yang sama ketika dilatih dengan data pelatihan yang sama? Atau maksudnya lain? Itu memang memberi tahu sesuatu, tapi agak tidak jelas persis apa yang diberitahukannya
Saya penasaran apa yang terjadi jika kita memasukkan komponen yang diprogram secara manual ke dalam jaringan saraf. Komponen sederhana seperti pendeteksi urutan DNA tampaknya bisa dimasukkan dengan mengatur bobotnya secara langsung
Dengan cara yang sama, kita juga bisa memberi komponen matematika pada jaringan saraf. Dalam proses pelatihan, apakah jaringan akan menemukan dan memanfaatkan komponen yang telah didefinisikan sebelumnya ini, atau mengabaikannya lalu membuat caranya sendiri untuk mendeteksi urutan DNA?
- Jika ingin menelusuri lebih lanjut, sejarah dan pemanfaatan ide ini disebut feature engineering
  Tokenisasi juga salah satu bentuknya. Sebab data diubah terlebih dahulu agar model tidak perlu mempelajari sendiri pola yang kita tahu penting
- Transformer bisa diprogram secara manual: https://srush.github.io/raspy/
  Namun saya tidak tahu apakah itu bisa diintegrasikan ke dalam model. Hal-hal seperti ini tidak ambigu, sehingga memakan jauh lebih banyak “ruang” dibanding neuron yang dipelajari, dan pada akhirnya mungkin kehabisan ruang
- Ini juga bisa dilihat sebagai menambahkan transformasi input spekulatif sebagai bagian dari input suatu layer, lalu membiarkan jaringan memutuskan apakah akan memakai transformasi itu atau tidak. Mirip dengan layer konvolusi pada CNN, tetapi jauh lebih disesuaikan untuk domain tertentu
  Namun saya tidak begitu tahu seberapa banyak penelitian tentang layer-layer aneh seperti ini
- Untuk beberapa use case yang sangat menuntut akurasi, kita bisa memilih kode buatan tangan untuk komputasi. Dengan begitu kita bisa yakin pada efisiensi metode buatan manusia ketimbang menyerahkan tugas tertentu kepada LLM
  Namun masih belum jelas apakah ini akan diintegrasikan langsung ke jaringan, atau menjadi alat yang bisa digunakan LLM. Menariknya, ini tampak mirip dengan pilihan apakah memperkuat otak manusia dengan sesuatu seperti Neuralink, atau sekadar memberi kita kalkulator
Saya berharap riset semacam ini mengarah pada cara membuat model yang jauh lebih kecil dan efisien, tetapi juga bisa disetel secara presisi dan steerable
Jika kita bisa melihat apa yang dilakukan tiap bagian, secara teori kita bisa menemukan cara untuk membuat hanya kumpulan fitur yang kita inginkan. Atau kita mungkin bisa menyesuaikan fitur yang memiliki kapasitas redundan
Dengan mempelajari fitur, mungkin kita bisa sampai pada titik di mana pengetahuan dapat didistilasi menjadi bentuk yang mendekati knowledge graph yang sangat kaya dan terdefinisi halus
- Anthropic sepertinya sedang berjalan di tali multidimensi. Mereka menginginkan keselamatan AI, dan mungkin juga ingin menghindari sembarang orang memiliki model yang kuat
  Namun jika hasil risetnya diserap oleh Meta atau berbagai grup Discord, LLM yang sekarang masih seperti makhluk berbulu kasar bisa berubah menjadi pesaing kuat, dan semua orang akan mendapat akses ke kekuatan itu. Saya tidak punya keyakinan kuat mana yang lebih baik, tetapi sedikit condong ke model terbuka
  Bagaimanapun, orang biasa seperti kita sudah diizinkan memakai komputer, CPU modern, internet, dan semacamnya. Hal buruk seperti penipuan, bahkan yang lebih buruk, memang terjadi, tetapi menurut saya itu lebih baik daripada membatasi apa yang bisa dilakukan orang
Satu model raksasa bukanlah cara kerja otak. Itu juga bukan cara kerja bagan organisasi
Fakta bahwa LLM menunjukkan kemampuan sebesar ini pada kepadatan komputasi saat ini menurut saya adalah sinyal kuat bahwa tugas membuat pekerja pengetahuan yang produktif sudah memasuki wilayah potensi berlebih
Potongan yang hilang bukanlah kemajuan LLM, melainkan manajemen LLM. Intinya adalah membuat bagan organisasi LLM yang secara internal bersifat adversarial melapor kepada saya, lalu membangun kepercayaan di dalamnya
- Cara kerja sistem seperti ini terasa sangat tidak efisien
  Kita tidak mengevaluasi ulang model astrofisika setiap kali membaca buku resep
Saya penasaran seberapa polisemik tiap neuron di otak manusia. Yang benar-benar diinginkan, dan mungkin juga dimiliki otak manusia, terasa seperti jaringan saraf monosemik dengan kandungan informasi tinggi, yaitu jaringan berbasis fitur, berbasis konsep, dan berbasis pola makro
Kalaupun ada neuron polisemik, kemungkinan neuron-neuron itu berbagi informasi yang mirip atau sama di dalam fitur tempat mereka berada, demi efisiensi ruang dan komputasi. Sebaliknya, dalam model Transformer seperti ini, tampaknya seperti menumpuk sejuta otak manusia di atas jaringan yang sama, lalu entah bagaimana merata-ratakan semua fitur dalam training set menjadi neuron-neuron unik. Maka secara alami hasilnya menjadi “otak” yang jauh lebih besar
Makalahnya mengatakan neuron monosemik di dalam jaringan tidak bekerja dengan baik, tetapi intuisi saya adalah karena neuron-neuron itu terlalu “presisi tinggi” dan tidak mengodekan informasi yang cukup pada level fitur. Bisa jadi fitur itu berdimensi rendah, sementara neuron berdimensi tinggi yang monosemik hanya mengodekan terlalu sedikit informasi. Namun ini pemikiran dengan pengetahuan yang kurang tentang otak manusia, jadi mungkin ada jauh lebih banyak kemiripan yang tidak saya ketahui
Menurut saya ini benar-benar keren. Semua LLM tampaknya berkumpul di sekitar fitur-fitur umum semacam ini
Sebagai non-ahli, pemahaman saya adalah model terlatih mendeskripsikan transisi dari satu simbol ke simbol berikutnya sebagai probabilitas di antara node. Graf ini memiliki struktur. Jika tidak ada struktur, pelatihan sejak awal tidak akan mungkin dilakukan
Namun struktur itu seperti definisi tiap node yang ditimpa berlapis-lapis dengan tinta warna berbeda di atas selembar kertas. Riset ini, serta makalah induk dan saudara yang disebut dalam tulisan LessWrong, tampak seperti pekerjaan memilah komponen graf dengan warna berbeda dari dalam sup floating-point itu

Mengurai Model Bahasa Menjadi Komponen yang Dapat Dipahami

Mengapa jaringan saraf sulit diinterpretasikan

Neuron individual bukan unit interpretasi yang stabil

Pendekatan mengurai model dengan fitur (feature)

Mengurai 512 neuron menjadi lebih dari 4.000 fitur

Verifikasi interpretabilitas

Mengarahkan model menggunakan fitur

Universalitas dan pengaturan resolusi

Keamanan AI dan tantangan berikutnya

Bacaan terkait

1 komentar

Pendapat di Hacker News