- Kemajuan besar dalam memahami cara kerja internal model AI
- Mereka memverifikasi bagaimana jutaan konsep direpresentasikan di dalam Claude Sonnet LLM.
- Ini merupakan kasus pertama yang melihat bagian dalam LLM kelas produksi modern secara rinci.
- Temuan tentang interpretabilitas ini dapat membantu membuat model AI lebih aman di masa depan.
- Pendekatan black box dan masalah kepercayaan
- Model AI diperlakukan dengan pendekatan black box yang hanya memeriksa input dan output.
- Sulit untuk memahami mengapa model memberikan respons tertentu.
- Hal ini membuat sulit untuk mempercayai bahwa model tidak akan memberikan respons yang berbahaya, bias, salah, atau berisiko.
- Kesulitan memahami keadaan internal model
- Keadaan internal model tersusun dari angka-angka tanpa makna yang jelas.
- Setiap konsep direpresentasikan di banyak neuron, dan setiap neuron merepresentasikan beberapa konsep.
- Kemajuan dalam dictionary learning
- Sebelumnya telah dicapai kemajuan dalam mencocokkan pola aktivasi neuron (fitur) dengan konsep yang dapat dipahami manusia.
- Dengan menggunakan teknik "dictionary learning", keadaan internal model dapat direpresentasikan sebagai beberapa fitur aktif alih-alih banyak neuron aktif.
- Keberhasilan pada model bahasa kecil
- Pada Oktober 2023, dictionary learning berhasil diterapkan pada model bahasa yang sangat kecil.
- Konsep seperti teks huruf kapital, urutan DNA, dan gender dalam kutipan berhasil diidentifikasi.
- Ekspansi ke model yang lebih besar
- Dengan memperluas teknik ini ke model bahasa besar, mereka dapat menemukan fitur yang lebih kompleks.
- Ada risiko ilmiah bahwa model besar dapat bekerja berbeda dari model kecil.
- Untungnya, pengalaman melatih model bahasa besar membantu eksperimen ini.
- Fitur di dalam Claude 3.0 Sonnet
- Mereka berhasil mengekstrak jutaan fitur dari lapisan tengah Claude 3.0 Sonnet.
- Fitur-fitur ini berkaitan dengan beragam konsep seperti kota, orang, unsur, bidang akademik, dan sintaks pemrograman.
- Fitur abstrak
- Claude juga merespons fitur yang lebih abstrak seperti bug pada kode komputer, bias gender dalam profesi, dan diskusi tentang menjaga rahasia.
- Mengukur jarak antar fitur
- Dengan mengukur "jarak" antar fitur, mereka dapat menemukan fitur yang mirip.
- Misalnya, di dekat fitur "Golden Gate Bridge", mereka menemukan fitur terkait Alcatraz Island, Ghirardelli Square, dan lainnya.
- Eksperimen manipulasi fitur
- Mereka dapat mengubah respons Claude dengan memperkuat atau menekan fitur tertentu.
- Misalnya, jika fitur "Golden Gate Bridge" diperkuat, Claude mulai menganggap bentuk fisiknya adalah Golden Gate Bridge.
- Keamanan dan manipulasi fitur
- Mereka mengeksplorasi kemungkinan mengidentifikasi dan meningkatkan fitur yang terkait dengan keamanan model dengan memanipulasi fungsi Claude.
- Claude dilatih agar tidak membuat email penipuan, tetapi saat fitur tertentu diaktifkan, ia dapat menulis email penipuan.
- Arah riset ke depan
- Mereka berencana memanfaatkan temuan ini untuk meningkatkan keamanan model.
- Ini dapat digunakan untuk memantau perilaku berbahaya dalam sistem AI, mengarahkannya ke hasil yang diinginkan, atau menghilangkan topik berbahaya.
- Teknik ini juga dapat memperkuat teknologi keamanan lain seperti Constitutional AI.
- Tantangan selanjutnya
- Dengan teknologi saat ini, menemukan semua konsep yang dipelajari model masih memerlukan biaya besar.
- Penting untuk memahami bagaimana model menggunakan fitur-fitur tersebut.
- Perlu ditunjukkan apakah fitur terkait keamanan benar-benar dapat digunakan untuk meningkatkan keamanan.
- Peluang berpartisipasi dalam riset
- Mereka sedang mencari ilmuwan riset, engineer riset, dan lainnya untuk bekerja bersama dalam menafsirkan dan meningkatkan model AI.
- Untuk detail lebih lanjut, lihat makalah "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet".
- Riset ini merupakan kemajuan penting dalam meningkatkan interpretabilitas model AI dan memperkuat keamanannya. Masih diperlukan lebih banyak riset ke depan.
2 komentar
Perbedaannya dengan otak tampaknya adalah bahwa kita bisa mengetahui dengan pasti perceptron mana yang aktif.
Rasanya memahami black box yang sulit dipahami itu mirip seperti saat meneliti otak.
Malah dari sudut pandang bahwa mengambil snapshot lebih mudah, mungkin keterinterpretasiannya lebih tinggi daripada otak.