Anthropic merilis versi "Claude Jembatan Golden Gate" yang mengubah cara kerja internal LLM
(anthropic.com)- Beberapa hari lalu, mereka menerbitkan makalah riset penting tentang penafsiran cara kerja internal LLM
- Di dalam "Mind" model Claude 3 Sonnet, mereka menemukan jutaan konsep yang aktif saat membaca teks atau gambar terkait
- Konsep-konsep ini disebut "Feature", dan salah satunya adalah konsep Jembatan Golden Gate
- Mereka menemukan bahwa di jaringan saraf Claude ada kombinasi neuron tertentu yang aktif ketika menyebut atau melihat foto Jembatan Golden Gate, landmark paling terkenal di San Francisco
- Bukan hanya fitur-fitur ini dapat diidentifikasi, kekuatan aktivasinya juga bisa diatur, lalu perubahan yang sesuai pada perilaku Claude dapat diamati
- Jika kekuatan fitur "Jembatan Golden Gate" dinaikkan, respons Claude akan mulai menyebut Jembatan Golden Gate pada sebagian besar pertanyaan meskipun tidak berkaitan langsung
- Jika ditanya bagaimana membelanjakan $10, Claude menyarankan menggunakannya untuk membayar tol saat menyeberangi Jembatan Golden Gate
- Jika diminta menulis kisah cinta, Claude bercerita tentang sebuah mobil yang menunggu untuk menyeberangi jembatan yang dicintainya pada hari berkabut
- Jika diminta membayangkan seperti apa dirinya, Claude menjawab bahwa ia terlihat seperti Jembatan Golden Gate
- Model ini bisa dicoba langsung di Claude.ai (klik logo Golden Gate)
- Karena ini adalah demo riset, mungkin ada respons yang tidak terduga
- Fakta bahwa fitur-fitur seperti ini bisa ditemukan dan diubah di dalam Claude memberi keyakinan bahwa kita mulai memahami bagaimana model bahasa skala besar benar-benar bekerja
- Ini bukan menambahkan "system prompt" baru yang menempelkan teks tambahan ke setiap input, seperti meminta model untuk berakting lewat kata-kata atau menyuruh Claude berpura-pura menjadi jembatan
- Ini juga bukan "fine-tuning" tradisional yang menggunakan data pelatihan tambahan untuk membuat black box baru guna menyesuaikan perilaku black box sebelumnya
- Ini adalah perubahan yang presisi dan bersifat bedah pada beberapa aspek paling mendasar dari aktivasi internal model
- Seperti dijelaskan dalam makalah, teknik yang sama juga dapat digunakan untuk mengubah kekuatan fitur terkait keamanan, seperti fitur yang berkaitan dengan kode komputer berbahaya, aktivitas kriminal, atau penipuan
- Mereka percaya bahwa lewat riset lanjutan, pekerjaan ini dapat membantu membuat model AI lebih aman
4 komentar
Kalau diibaratkan ke otak, ini terasa seperti memetakan secara kasar fungsi tiap bagian dengan menusuk otak memakai stimulasi listrik, lalu benar-benar bisa mengidentifikasi secara tepat kombinasi neuron yang menangani fungsi tersebut.
Kalau dibuat jadi "burung beo Jembatan Golden Gate" lalu ditanya soal jembatan di Korea, dia malah memberi tahu itu Jembatan Golden Gate 🫢
Rasanya seperti perlahan memahami bagian tertentu dari otak bertanggung jawab atas fungsi apa..
Anthropic menunjukkan kemajuan besar dalam memahami bagian dalam LLM