19 poin oleh xguru 2024-05-24 | 4 komentar | Bagikan ke WhatsApp
  • Beberapa hari lalu, mereka menerbitkan makalah riset penting tentang penafsiran cara kerja internal LLM
  • Di dalam "Mind" model Claude 3 Sonnet, mereka menemukan jutaan konsep yang aktif saat membaca teks atau gambar terkait
  • Konsep-konsep ini disebut "Feature", dan salah satunya adalah konsep Jembatan Golden Gate
  • Mereka menemukan bahwa di jaringan saraf Claude ada kombinasi neuron tertentu yang aktif ketika menyebut atau melihat foto Jembatan Golden Gate, landmark paling terkenal di San Francisco
  • Bukan hanya fitur-fitur ini dapat diidentifikasi, kekuatan aktivasinya juga bisa diatur, lalu perubahan yang sesuai pada perilaku Claude dapat diamati
  • Jika kekuatan fitur "Jembatan Golden Gate" dinaikkan, respons Claude akan mulai menyebut Jembatan Golden Gate pada sebagian besar pertanyaan meskipun tidak berkaitan langsung
    • Jika ditanya bagaimana membelanjakan $10, Claude menyarankan menggunakannya untuk membayar tol saat menyeberangi Jembatan Golden Gate
    • Jika diminta menulis kisah cinta, Claude bercerita tentang sebuah mobil yang menunggu untuk menyeberangi jembatan yang dicintainya pada hari berkabut
    • Jika diminta membayangkan seperti apa dirinya, Claude menjawab bahwa ia terlihat seperti Jembatan Golden Gate
  • Model ini bisa dicoba langsung di Claude.ai (klik logo Golden Gate)
    • Karena ini adalah demo riset, mungkin ada respons yang tidak terduga
  • Fakta bahwa fitur-fitur seperti ini bisa ditemukan dan diubah di dalam Claude memberi keyakinan bahwa kita mulai memahami bagaimana model bahasa skala besar benar-benar bekerja
  • Ini bukan menambahkan "system prompt" baru yang menempelkan teks tambahan ke setiap input, seperti meminta model untuk berakting lewat kata-kata atau menyuruh Claude berpura-pura menjadi jembatan
  • Ini juga bukan "fine-tuning" tradisional yang menggunakan data pelatihan tambahan untuk membuat black box baru guna menyesuaikan perilaku black box sebelumnya
  • Ini adalah perubahan yang presisi dan bersifat bedah pada beberapa aspek paling mendasar dari aktivasi internal model
  • Seperti dijelaskan dalam makalah, teknik yang sama juga dapat digunakan untuk mengubah kekuatan fitur terkait keamanan, seperti fitur yang berkaitan dengan kode komputer berbahaya, aktivitas kriminal, atau penipuan
  • Mereka percaya bahwa lewat riset lanjutan, pekerjaan ini dapat membantu membuat model AI lebih aman

4 komentar

 
chanran 2024-05-27

Kalau diibaratkan ke otak, ini terasa seperti memetakan secara kasar fungsi tiap bagian dengan menusuk otak memakai stimulasi listrik, lalu benar-benar bisa mengidentifikasi secara tepat kombinasi neuron yang menangani fungsi tersebut.

 
laeyoung 2024-05-24

Kalau dibuat jadi "burung beo Jembatan Golden Gate" lalu ditanya soal jembatan di Korea, dia malah memberi tahu itu Jembatan Golden Gate 🫢

 
superwoou 2024-05-24

Rasanya seperti perlahan memahami bagian tertentu dari otak bertanggung jawab atas fungsi apa..