Anthropic merilis versi "Claude Jembatan Golden Gate" yang mengubah cara kerja internal LLM

xguru · 2024-05-24T11:10:26+09:00

Beberapa hari lalu, mereka menerbitkan makalah riset penting tentang penafsiran cara kerja internal LLM Di dalam "Mind" model Claude 3 Sonnet, mereka menemukan jutaan konsep yang aktif saat membaca teks atau gambar terkait Konsep-konsep ini disebut "Feature", dan salah satunya adalah konsep Jembatan Golden Gate Mereka menemukan bahwa di jaringan saraf Claude ada kombinasi neuron tertentu yang aktif ketika menyebut atau melihat foto Jembatan Golden Gate, landmark paling terkenal di San Francisco Bukan hanya fitur-fitur ini dapat diidentifikasi, kekuatan aktivasinya juga bisa diatur, lalu perubahan yang sesuai pada perilaku Claude dapat diamati Jika kekuatan fitur "Jembatan Golden Gate" dinaikkan, respons Claude akan mulai menyebut Jembatan Golden Gate pada sebagian besar pertanyaan meskipun tidak berkaitan langsung Jika ditanya bagaimana membelanjakan $10, Claude menyarankan menggunakannya untuk membayar tol saat menyeberangi Jembatan Golden Gate Jika diminta menulis kisah cinta, Claude bercerita tentang sebuah mobil yang menunggu untuk menyeberangi jembatan yang dicintainya pada hari berkabut Jika diminta membayangkan seperti apa dirinya, Claude menjawab bahwa ia terlihat seperti Jembatan Golden Gate Model ini bisa dicoba langsung di Claude.ai (klik logo Golden Gate) Karena ini adalah demo riset, mungkin ada respons yang tidak terduga Fakta bahwa fitur-fitur seperti ini bisa ditemukan dan diubah di dalam Claude memberi keyakinan bahwa kita mulai memahami bagaimana model bahasa skala besar benar-benar bekerja Ini bukan menambahkan "system prompt" baru yang menempelkan teks tambahan ke setiap input, seperti meminta model untuk berakting lewat kata-kata atau menyuruh Claude berpura-pura menjadi jembatan Ini juga bukan "fine-tuning" tradisional yang menggunakan data pelatihan tambahan untuk membuat black box baru guna menyesuaikan perilaku black box sebelumnya Ini adalah perubahan yang presisi dan bersifat bedah pada beberapa aspek paling mendasar dari aktivasi internal model Seperti dijelaskan dalam makalah, teknik yang sama juga dapat digunakan untuk mengubah kekuatan fitur terkait keamanan, seperti fitur yang berkaitan dengan kode komputer berbahaya, aktivitas kriminal, atau penipuan Mereka percaya bahwa lewat riset lanjutan, pekerjaan ini dapat membantu membuat model AI lebih aman

(anthropic.com)

19 poin oleh xguru 2024-05-24 | 4 komentar | Bagikan ke WhatsApp

Beberapa hari lalu, mereka menerbitkan makalah riset penting tentang penafsiran cara kerja internal LLM
Di dalam "Mind" model Claude 3 Sonnet, mereka menemukan jutaan konsep yang aktif saat membaca teks atau gambar terkait
Konsep-konsep ini disebut "Feature", dan salah satunya adalah konsep Jembatan Golden Gate
Mereka menemukan bahwa di jaringan saraf Claude ada kombinasi neuron tertentu yang aktif ketika menyebut atau melihat foto Jembatan Golden Gate, landmark paling terkenal di San Francisco
Bukan hanya fitur-fitur ini dapat diidentifikasi, kekuatan aktivasinya juga bisa diatur, lalu perubahan yang sesuai pada perilaku Claude dapat diamati
Jika kekuatan fitur "Jembatan Golden Gate" dinaikkan, respons Claude akan mulai menyebut Jembatan Golden Gate pada sebagian besar pertanyaan meskipun tidak berkaitan langsung
- Jika ditanya bagaimana membelanjakan $10, Claude menyarankan menggunakannya untuk membayar tol saat menyeberangi Jembatan Golden Gate
- Jika diminta menulis kisah cinta, Claude bercerita tentang sebuah mobil yang menunggu untuk menyeberangi jembatan yang dicintainya pada hari berkabut
- Jika diminta membayangkan seperti apa dirinya, Claude menjawab bahwa ia terlihat seperti Jembatan Golden Gate
Model ini bisa dicoba langsung di Claude.ai (klik logo Golden Gate)
- Karena ini adalah demo riset, mungkin ada respons yang tidak terduga
Fakta bahwa fitur-fitur seperti ini bisa ditemukan dan diubah di dalam Claude memberi keyakinan bahwa kita mulai memahami bagaimana model bahasa skala besar benar-benar bekerja
Ini bukan menambahkan "system prompt" baru yang menempelkan teks tambahan ke setiap input, seperti meminta model untuk berakting lewat kata-kata atau menyuruh Claude berpura-pura menjadi jembatan
Ini juga bukan "fine-tuning" tradisional yang menggunakan data pelatihan tambahan untuk membuat black box baru guna menyesuaikan perilaku black box sebelumnya
Ini adalah perubahan yang presisi dan bersifat bedah pada beberapa aspek paling mendasar dari aktivasi internal model
Seperti dijelaskan dalam makalah, teknik yang sama juga dapat digunakan untuk mengubah kekuatan fitur terkait keamanan, seperti fitur yang berkaitan dengan kode komputer berbahaya, aktivitas kriminal, atau penipuan
Mereka percaya bahwa lewat riset lanjutan, pekerjaan ini dapat membantu membuat model AI lebih aman

4 komentar

chanran 2024-05-27

Kalau diibaratkan ke otak, ini terasa seperti memetakan secara kasar fungsi tiap bagian dengan menusuk otak memakai stimulasi listrik, lalu benar-benar bisa mengidentifikasi secara tepat kombinasi neuron yang menangani fungsi tersebut.

laeyoung 2024-05-24

Kalau dibuat jadi "burung beo Jembatan Golden Gate" lalu ditanya soal jembatan di Korea, dia malah memberi tahu itu Jembatan Golden Gate 🫢

superwoou 2024-05-24

Rasanya seperti perlahan memahami bagian tertentu dari otak bertanggung jawab atas fungsi apa..

xguru 2024-05-24

Anthropic menunjukkan kemajuan besar dalam memahami bagian dalam LLM

Anthropic merilis versi "Claude Jembatan Golden Gate" yang mengubah cara kerja internal LLM

Bacaan terkait

4 komentar