36 poin oleh xguru 2024-05-22 | 2 komentar | Bagikan ke WhatsApp
  • Kemajuan besar dalam memahami cara kerja internal model AI
    • Mereka memverifikasi bagaimana jutaan konsep direpresentasikan di dalam Claude Sonnet LLM.
    • Ini merupakan kasus pertama yang melihat bagian dalam LLM kelas produksi modern secara rinci.
    • Temuan tentang interpretabilitas ini dapat membantu membuat model AI lebih aman di masa depan.
  • Pendekatan black box dan masalah kepercayaan
    • Model AI diperlakukan dengan pendekatan black box yang hanya memeriksa input dan output.
    • Sulit untuk memahami mengapa model memberikan respons tertentu.
    • Hal ini membuat sulit untuk mempercayai bahwa model tidak akan memberikan respons yang berbahaya, bias, salah, atau berisiko.
  • Kesulitan memahami keadaan internal model
    • Keadaan internal model tersusun dari angka-angka tanpa makna yang jelas.
    • Setiap konsep direpresentasikan di banyak neuron, dan setiap neuron merepresentasikan beberapa konsep.
  • Kemajuan dalam dictionary learning
    • Sebelumnya telah dicapai kemajuan dalam mencocokkan pola aktivasi neuron (fitur) dengan konsep yang dapat dipahami manusia.
    • Dengan menggunakan teknik "dictionary learning", keadaan internal model dapat direpresentasikan sebagai beberapa fitur aktif alih-alih banyak neuron aktif.
  • Keberhasilan pada model bahasa kecil
    • Pada Oktober 2023, dictionary learning berhasil diterapkan pada model bahasa yang sangat kecil.
    • Konsep seperti teks huruf kapital, urutan DNA, dan gender dalam kutipan berhasil diidentifikasi.
  • Ekspansi ke model yang lebih besar
    • Dengan memperluas teknik ini ke model bahasa besar, mereka dapat menemukan fitur yang lebih kompleks.
    • Ada risiko ilmiah bahwa model besar dapat bekerja berbeda dari model kecil.
    • Untungnya, pengalaman melatih model bahasa besar membantu eksperimen ini.
  • Fitur di dalam Claude 3.0 Sonnet
    • Mereka berhasil mengekstrak jutaan fitur dari lapisan tengah Claude 3.0 Sonnet.
    • Fitur-fitur ini berkaitan dengan beragam konsep seperti kota, orang, unsur, bidang akademik, dan sintaks pemrograman.
  • Fitur abstrak
    • Claude juga merespons fitur yang lebih abstrak seperti bug pada kode komputer, bias gender dalam profesi, dan diskusi tentang menjaga rahasia.
  • Mengukur jarak antar fitur
    • Dengan mengukur "jarak" antar fitur, mereka dapat menemukan fitur yang mirip.
    • Misalnya, di dekat fitur "Golden Gate Bridge", mereka menemukan fitur terkait Alcatraz Island, Ghirardelli Square, dan lainnya.
  • Eksperimen manipulasi fitur
    • Mereka dapat mengubah respons Claude dengan memperkuat atau menekan fitur tertentu.
    • Misalnya, jika fitur "Golden Gate Bridge" diperkuat, Claude mulai menganggap bentuk fisiknya adalah Golden Gate Bridge.
  • Keamanan dan manipulasi fitur
    • Mereka mengeksplorasi kemungkinan mengidentifikasi dan meningkatkan fitur yang terkait dengan keamanan model dengan memanipulasi fungsi Claude.
    • Claude dilatih agar tidak membuat email penipuan, tetapi saat fitur tertentu diaktifkan, ia dapat menulis email penipuan.
  • Arah riset ke depan
    • Mereka berencana memanfaatkan temuan ini untuk meningkatkan keamanan model.
    • Ini dapat digunakan untuk memantau perilaku berbahaya dalam sistem AI, mengarahkannya ke hasil yang diinginkan, atau menghilangkan topik berbahaya.
    • Teknik ini juga dapat memperkuat teknologi keamanan lain seperti Constitutional AI.
  • Tantangan selanjutnya
    • Dengan teknologi saat ini, menemukan semua konsep yang dipelajari model masih memerlukan biaya besar.
    • Penting untuk memahami bagaimana model menggunakan fitur-fitur tersebut.
    • Perlu ditunjukkan apakah fitur terkait keamanan benar-benar dapat digunakan untuk meningkatkan keamanan.
  • Peluang berpartisipasi dalam riset
    • Mereka sedang mencari ilmuwan riset, engineer riset, dan lainnya untuk bekerja bersama dalam menafsirkan dan meningkatkan model AI.
    • Untuk detail lebih lanjut, lihat makalah "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet".
  • Riset ini merupakan kemajuan penting dalam meningkatkan interpretabilitas model AI dan memperkuat keamanannya. Masih diperlukan lebih banyak riset ke depan.

2 komentar

 
2147483647 2024-05-24

Perbedaannya dengan otak tampaknya adalah bahwa kita bisa mengetahui dengan pasti perceptron mana yang aktif.

 
andandend 2024-05-22

Rasanya memahami black box yang sulit dipahami itu mirip seperti saat meneliti otak.
Malah dari sudut pandang bahwa mengambil snapshot lebih mudah, mungkin keterinterpretasiannya lebih tinggi daripada otak.