Ekstraksi Konsep dari GPT-4

(openai.com)

2 poin oleh GN⁺ 2024-06-07 | 1 komentar | Bagikan ke WhatsApp

OpenAI mengumumkan metode yang dapat diskalakan untuk menguraikan representasi GPT‑4 menjadi 16 juta fitur agar dapat lebih memahami bagian dalam model bahasa
Alat utamanya adalah sparse autoencoder, yaitu pendekatan yang mencoba menghubungkan sejumlah kecil pola aktivasi yang memengaruhi keluaran dengan konsep yang dapat dipahami manusia
Metode baru ini menunjukkan scaling yang lebih dapat diprediksi dibanding teknik sebelumnya, dan digunakan untuk melatih beberapa autoencoder pada aktivasi GPT‑2 small dan GPT‑4
Keterbatasannya juga jelas: banyak fitur masih sulit ditafsirkan, dan aktivasi GPT‑4 yang melewati sparse autoencoder hanya mencapai performa setara model dengan sekitar 10 kali lebih sedikit komputasi pelatihan
Makalah, kode, dan alat visualisasi fitur yang dipublikasikan menjadi dasar untuk riset lanjutan, dan dalam jangka pendek mereka berencana menguji apakah ini berguna untuk pemantauan dan pengendalian perilaku model bahasa

Mengapa sulit menafsirkan bagian dalam jaringan saraf

Saat ini belum ada metode yang benar-benar mapan untuk memahami aktivitas saraf di dalam model bahasa
Artefak buatan seperti mobil bisa dirancang, dievaluasi, dan diperbaiki berdasarkan spesifikasi komponennya, tetapi jaringan saraf bukan kumpulan komponen yang dirancang langsung, melainkan hasil dari algoritme pelatihan
Karena itu, jaringan saraf tidak mudah diuraikan menjadi komponen yang dapat diidentifikasi, sehingga menangani keselamatan AI tidak semudah menalar soal keselamatan mobil
Untuk menafsirkan jaringan saraf, pertama-tama perlu ditemukan unit penyusun yang berguna untuk menjelaskan komputasi saraf

Pendekatan sparse autoencoder

Aktivasi internal model bahasa menyala dalam pola yang sulit diprediksi, dan tampak merepresentasikan beberapa konsep sekaligus
Aktivasi muncul secara padat, dengan banyak elemen aktif bersama untuk setiap input
Konsep di dunia nyata biasanya hanya relevan pada sebagian kecil dari keseluruhan dalam konteks tertentu, sehingga sparsitas menjadi penting
Sparse autoencoder adalah metode untuk mengidentifikasi sejumlah kecil fitur yang penting dalam menghasilkan keluaran tertentu
- Diharapkan memiliki struktur yang mirip dengan sejumlah kecil konsep yang dipertimbangkan manusia saat menalar suatu situasi
- Meski tidak secara langsung memberi penghargaan pada interpretabilitas, fitur-fitur tersebut menunjukkan pola aktivasi sparse yang secara alami selaras dengan konsep yang mudah dipahami manusia
Model bahasa besar merepresentasikan sangat banyak konsep, sehingga untuk cukup mencakup konsep dalam frontier model, autoencoder juga harus sangat besar

Fitur skala besar yang ditemukan di GPT‑4

OpenAI mengembangkan metodologi untuk memperluas sparse autoencoder pada frontier AI model hingga skala puluhan juta fitur
Metodologi ini menunjukkan hasil scaling yang lebih baik dibanding teknik sebelumnya, dengan karakteristik perluasan yang mulus dan dapat diprediksi
Mereka juga memperkenalkan beberapa metrik baru untuk mengevaluasi kualitas fitur
Dengan resep ini, mereka melatih berbagai autoencoder pada aktivasi GPT‑2 small dan GPT‑4
- Untuk GPT‑4, mereka melatih autoencoder dengan 16 juta fitur
Interpretabilitas fitur diperiksa dengan memvisualisasikan dokumen-dokumen tempat fitur tertentu aktif
- Contohnya mencakup cacat manusia, kenaikan harga, X dan Y, log pelatihan, pertanyaan retoris, ring aljabar, dan fitur terkait dopamine
- Di GPT‑4 juga ditemukan fitur yang terkait dengan “ungkapan bahwa benda, khususnya manusia, memiliki flaw”
Lebih banyak fitur dapat dijelajahi di alat visualisasi fitur

Keterbatasan yang masih tersisa

Ada harapan bahwa interpretabilitas dapat meningkatkan keandalan model dan kemampuan pengendaliannya, tetapi pekerjaan saat ini masih berada pada tahap awal
Banyak fitur yang ditemukan masih sulit ditafsirkan
- Ada kasus ketika fitur aktif tanpa pola yang jelas
- Ada kasus muncul aktivasi palsu yang tidak terkait dengan konsep yang tampaknya biasanya dikodekan
- Belum ada metode yang baik untuk memverifikasi validitas interpretasi
Sparse autoencoder tidak dapat menangkap seluruh perilaku model asli
- Jika aktivasi GPT‑4 dilewatkan melalui sparse autoencoder, performanya setara dengan model yang dilatih menggunakan sekitar 10 kali lebih sedikit komputasi pelatihan
- Untuk memetakan konsep dalam frontier LLM secara lengkap, mungkin perlu diperluas hingga miliaran atau triliunan fitur
- Bahkan dengan teknik scaling yang ditingkatkan, skala seperti itu tetap menantang
Sparse autoencoder dapat menemukan fitur pada satu titik di dalam model, tetapi itu baru satu langkah menuju interpretasi model secara menyeluruh
- bagaimana model menghitung fitur tersebut
- bagaimana fitur itu kemudian digunakan oleh bagian model berikutnya
- memahami dua masalah ini memerlukan jauh lebih banyak pekerjaan

Materi publik dan langkah berikutnya

OpenAI merilis makalah yang memuat eksperimen dan metodenya
Mereka menyediakan kumpulan lengkap autoencoder untuk GPT‑2 small beserta kode untuk menggunakannya
Mereka juga merilis alat visualisasi fitur untuk melihat fitur GPT‑2 dan GPT‑4 mungkin berkaitan dengan apa
Dalam jangka pendek, mereka berencana menguji pada frontier model apakah fitur yang ditemukan benar-benar berguna secara praktis untuk pemantauan dan pengendalian perilaku model bahasa
Dalam jangka panjang, mereka menargetkan agar interpretabilitas menyediakan cara baru untuk menalar keselamatan dan ketangguhan model, serta secara signifikan meningkatkan kepercayaan melalui jaminan atas perilaku model AI yang kuat

1 komentar

GN⁺ 2024-06-07

Pendapat Hacker News

Salah satu contoh pertama adalah fitur GPT-4: akhir frasa yang terkait dengan kenaikan harga, tetapi 2 dari 5 respons tampaknya sama sekali tidak terkait dengan kenaikan harga
Misalnya, ada kalimat tentang harga minyak mentah yang turun, atau kalimat faktur laundry yang menyebutkan harga kontrak
Sepertinya ada sesuatu yang disalahpahami, dan saya penasaran mengapa mereka memilih contoh seperti ini padahal mestinya ada banyak contoh yang memungkinkan
- Perlu diperhatikan bahwa sebagian besar contoh tidak memiliki penghitung sorotan hijau
  Sorotan hijau muncul pada kalimat seperti small losses. KEEPING SCORE: The Dow Jones industrial average rose..., dan kalimat-kalimat lainnya tampaknya dimaksudkan untuk membandingkan seberapa kuat neuron ini merespons pola tertentu
Ini benar-benar keren, terasa seperti bergerak ke arah pencarian makna mendalam yang sudah saya tunggu-tunggu
Saya suka contoh menyaring dokumen berdasarkan konsep “kenaikan harga”, atau mencari konsep tingkat lebih tinggi seperti “pertanyaan retoris”
Saya penasaran bagaimana perbandingannya dengan cara melatih atau melakukan fine-tuning model memakai contoh pertanyaan retoris agar menemukannya dalam dokumen
Karena caranya hanya melihat aktivasi jaringan saraf alih-alih memasukkan input lalu membuatnya menghasilkan jawaban, ini mungkin bisa lebih cepat atau lebih akurat
- Exa sedang mencoba hal semacam ini
  Saya memang menemukan beberapa hasil menarik dengan cara ini, tetapi untuk saat ini belum terasa cukup bagus
  https://exa.ai/search?c=all
Menarik, dan mengingatkan saya pada pekerjaan serupa yang dilakukan Anthropic dengan Claude 3 Sonnet
[0] https://transformer-circuits.pub/2024/scaling-monosemanticit...
- Halaman webnya terasa sangat mengisyaratkan seolah-olah sparse autoencoder ditemukan oleh OpenAI untuk proyek ini
  Cukup aneh bahwa mereka tidak mengutipnya di halaman web dan malah menyembunyikan sumbernya di dalam makalah
- Metodenya sama, dan ini lebih seperti OpenAI menerapkan riset Anthropic pada model mereka sendiri
- Ada cerita bahwa untuk melatih ini dibutuhkan sumber daya komputasi yang hampir setara dengan saat melatih model aslinya
Menarik bahwa hasil seperti ini muncul kurang dari 3 minggu setelah “Mapping the Mind of a Large Language Model” dari Anthropic
Upaya-upaya seperti ini benar-benar menjanjikan, dan meski kita masih sering mendengar orang berkata “kita sama sekali tidak tahu bagaimana LLM atau deep learning bekerja”, melihat riset seperti ini membuat pernyataan itu terasa seperti generalisasi berlebihan
Saya penasaran apakah ini dirilis agak terburu-buru sebagai respons terhadap pengumuman Anthropic dan keluarnya Jan Leike dari OpenAI
Tautan makalahnya juga tidak menuju Arxiv dan kedalaman analisisnya terlihat jauh lebih dangkal, meski bisa saja itu tidak terkait
- Di tulisan itu sendiri berulang kali ada kalimat seperti “saat ini kami tidak tahu bagaimana harus menafsirkan aktivitas saraf di dalam model bahasa”, “tidak seperti kebanyakan ciptaan manusia, kami tidak memahami dengan baik cara kerja internal jaringan saraf”, dan “jaringan tidak dipahami dengan baik dan tidak mudah diuraikan menjadi bagian-bagian yang dapat diidentifikasi”
  Alasan orang mengatakan bahwa saat ini kita tidak tahu mengapa model menghasilkan keluaran seperti itu adalah, sebagaimana dinyatakan jelas oleh tulisan tersebut, karena memang kita belum tahu
- Mereka memang sudah berencana merilis makalah pada periode ini, terlepas dari peristiwa lain yang disebutkan
  Menurut saya, mengatakan bahwa kita masih hampir tidak tahu bagaimana LLM bekerja masih secara umum akurat
  Sparse autoencoder mungkin suatu hari mengubah itu, tetapi jalannya masih panjang
- Menurut saya, riset seperti ini justru memperkuat bahwa pemahaman kita tentang cara kerja internalnya masih sangat sedikit
  Tulisan blognya juga berulang kali mengatakan bahwa pekerjaan ini masih tahap awal dan memiliki banyak keterbatasan
- Saya malas mencari sumbernya, tetapi di Twitter seseorang menemukan bahwa commit pertamanya adalah 6 bulan lalu
  Mungkin semua orang berada dalam suasana yang sama di San Francisco, dan tren seperti ini sudah menyebar di seluruh industri
- Fakta bahwa judul makalahnya mengisyaratkan seolah-olah LLM memiliki pikiran bukanlah sinyal yang terlalu baik tentang para penulisnya
  Omong kosong tentang “keselamatan” juga terus berlanjut
  Akan bagus jika mereka menunjukkan pekerjaan mereka agar bisa direproduksi, tetapi sebagai iklan ini tidak buruk
Dalam contoh lain, tampaknya dokumen yang terlihat seperti penjelasan ilmiah tentang anatomi reproduksi diklasifikasikan sebagai konten seksual
Tautan konsepnya ada di sini [peringatan konten]: https://openaipublic.blob.core.windows.net/sparse-autoencode...
DocID: 191632
Saya penasaran bagaimana pendekatan ini berbeda dari, atau lebih baik dibandingkan dengan, menerapkan sesuatu seperti SHAP[0][1] pada model
Kalimat pertama, “saat ini kami tidak tahu bagaimana harus menafsirkan aktivitas saraf di dalam model bahasa”, rasanya bukankah itu sekadar salah?
[0] https://github.com/shap/shap
[1] https://en.wikipedia.org/wiki/Shapley_value#In_machine_learn...
- Menurut saya SHAP adalah hal yang cukup terpisah
  Analisis Shapley pada dasarnya adalah metodologi teori permainan dan bersifat model-agnostic; ia hanya melihat seberapa besar kontribusi bagian-bagian individual dari input terhadap prediksi tertentu, bukan bagaimana model bekerja secara internal untuk menghasilkan output
  Selama ada black box yang bisa dipanggil, kita dapat menghitung nilai Shapley atau aproksimasinya, tetapi itu tidak menjelaskan bagaimana atau mengapa model bekerja secara internal
Bisakah seseorang menjelaskan dengan sederhana mengapa ini penting? Tidak harus sampai level anak 5 tahun, tapi saya penasaran dengan bahasa yang mendasar
- AI berbasis LLM punya banyak “fitur”, dan ini cukup mirip dengan “konsep”
  Misalnya, mulai dari konsep apostrof di dalam kata don't, hingga pola bahwa dalam konteks sejarah awal Amerika, setelah "George Wash" biasanya muncul "ington"
  Di dalam jaringan saraf LLM, hal-hal seperti ini dipetakan ke jalur semacam sirkuit perangkat lunak
  Karena kita belum benar-benar memahami bagaimana fitur-fitur ini terbentuk di dalam LLM, sirkuit mana yang aktif saat menghasilkan keluaran, dan mengapa ia mengikuti sirkuit tersebut, bagian ini sulit di-debug dan model juga sulit ditingkatkan
  Jika LLM/AI sudah cukup maju, kita tentu ingin bisa mengenali apakah ia sengaja menipu kita, tetapi saat ini kita belum bisa melakukannya
  Jadi, bidang yang berusaha memahami apa yang sebenarnya terjadi di dalam jaringan saraf dalam proses membentuk dan menghasilkan konsep disebut interpretabilitas
  OpenAI, DeepMind, dan Anthropic telah menemukan cara untuk melihat sirkuit internal LLM dan mengungkap sebagian fiturnya
  Setelah mengajukan pertanyaan ke model, mereka melihat bagian mana dari sirkuit internal yang “menyala”, lalu sebagai tahap verifikasi menghapus sirkuit tersebut untuk memastikan apakah fitur terkait menjadi lebih sedikit digunakan dalam respons
  Grafik dan kata-kata yang disorot adalah representasi visual dari konsep yang bisa cukup diyakini
  Misalnya, konsep “AND” yang menghubungkan dua bagian kalimat akan menyorot kata “AND”
  Jika tertarik pada interpretabilitas, menurut saya Neel Nanda adalah sumber terbaik
  Namun pendekatannya berbeda dari metodologi OpenAI yang dibahas dalam tulisan ini: https://www.neelnanda.io/mechanistic-interpretability
- Konsep tingkat tinggi yang tersimpan di dalam model besar, misalnya model difusi atau transformer, biasanya sulit dipisahkan satu sama lain dan modelnya hampir seperti kotak hitam
  Banyak riset dilakukan untuk mengintip apa yang diketahui model, dan ini adalah kemajuan lain ke arah itu
  Ini membuat konsep-konsep lebih mudah dipisahkan
  Dengan begitu, muncul kemungkinan untuk menganalisis pengetahuan di dalam model serta menambah, menghapus, atau mengubah tingkat kepentingan konsep tertentu dengan dampak yang lebih kecil pada konsep yang tidak terkait
  Namun presisi yang bisa diperoleh dengan teknik khusus ini selalu patut dipertanyakan, dan beberapa konsep terlalu berdekatan sehingga sulit dipisahkan, jadi hasilnya tidak akan sempurna
- Menurut jawaban ChatGPT sendiri, tulisan ini membahas bagaimana para peneliti menggunakan autoencoder jarang untuk mengidentifikasi dan menafsirkan fitur-fitur inti di dalam model bahasa kompleks seperti GPT-4, sehingga cara kerja internalnya menjadi lebih dapat dipahami
  Kemajuan semacam ini membantu meningkatkan keamanan dan keandalan AI dengan memecah proses pengambilan keputusan model menjadi bagian-bagian yang lebih sederhana dan dapat ditafsirkan manusia
- Secara keseluruhan, ini mengikuti pekerjaan yang dilakukan Anthropic, jadi pada dasarnya tidak ada yang benar-benar baru
  Yang dilakukan di sini adalah menemukan pola di dalam GPT-4 yang berkaitan dengan konsep tertentu yang dapat diidentifikasi
  Pekerjaan ini tampaknya dilakukan oleh tim keamanan OpenAI yang sebagian besar sudah dibubarkan, dan juga mencantumkan nama Ilya serta Jan Leike, para co-lead yang baru-baru ini pergi
  Secara nominal tujuannya adalah keselamatan, yaitu agar aktivasi konsep tertentu dapat diperkuat atau ditekan saat model berjalan
  Contohnya adalah demonstrasi Anthropic yang membuat model terobsesi pada Golden Gate Bridge: https://www.anthropic.com/news/golden-gate-claude
  Pekerjaan seperti ini tampaknya punya potensi pemanfaatan fungsional, bukan hanya untuk keselamatan, karena memungkinkan model dikendalikan dengan cara tertentu
Apakah ini berarti praktik yang baik nantinya adalah merilis autoencoder yang dilatih di atas jaringan saraf tersebut bersama-sama, untuk menjelaskan keluaran jaringan saraf itu?
Sepertinya akan berguna jika semua model publik di Hugging Face punya lampiran semacam ini
- Encoder seperti itu sepertinya akan bergantung pada model tertentu
Apakah ini semacam fMRI untuk jaringan saraf?
Dengan kata lain, kita bisa melihat area mana yang menyala tergantung topiknya
Saya juga penasaran apakah mungkin memasang jaringan saraf evaluasi yang secara otomatis menilai area yang menyala
Rasanya mungkin saja, seperti ketika AI merekonstruksi apa yang sedang dilihat pasien hanya dari pemindaian fMRI
Salah satu fungsi yang diharapkan dari riset semacam ini adalah mengidentifikasi hotspot yang digunakan saat inferensi
Seperti mesin virtual, bagian-bagian seperti ini mungkin bisa di-cache seluruhnya atau sebagian untuk mengurangi waktu respons dan juga menurunkan siklus komputasi yang dibutuhkan

Ekstraksi Konsep dari GPT-4

Mengapa sulit menafsirkan bagian dalam jaringan saraf

Pendekatan sparse autoencoder

Fitur skala besar yang ditemukan di GPT‑4

Keterbatasan yang masih tersisa

Materi publik dan langkah berikutnya

Bacaan terkait

1 komentar

Pendapat Hacker News