Hasil riset baru OpenAI: Menguraikan representasi internal GPT-4 menjadi pola yang dapat diinterpretasikan
(openai.com)• OpenAI memperkenalkan metode baru yang dapat diskalakan untuk menguraikan representasi internal GPT-4 menjadi 16 juta pola yang dapat diinterpretasikan, guna memahami aktivitas saraf di dalam model bahasa.
• Jaringan saraf tidak dirancang secara langsung dan tidak memiliki bagian yang mudah diidentifikasi, sehingga sulit untuk diinterpretasikan dan menyulitkan penalaran tentang keamanan AI.
• Dengan menggunakan sparse autoencoder, para peneliti mengidentifikasi "fitur" yang relevan dalam jaringan saraf, yang merepresentasikan konsep yang lebih mudah dipahami manusia.
• Tim riset mengembangkan metodologi canggih untuk menskalakan sparse autoencoder hingga puluhan juta fitur pada model AI tercanggih, dan mendemonstrasikan penskalaan yang mulus serta dapat diprediksi.
• Mereka menunjukkan kemampuan interpretasi fitur melalui visualisasi yang menampilkan aktivasi dokumen untuk fitur tertentu.
• Contoh fitur yang dapat diinterpretasikan mencakup frasa yang berkaitan dengan kekurangan manusia, tren kenaikan harga, frasa berbentuk "X dan Y", log pelatihan machine learning, pertanyaan retoris/emosional, ring aljabar, serta reseptor adenosin dan dopamin.
• Tim riset antusias terhadap potensi interpretabilitas untuk meningkatkan keandalan dan kemampuan penyelarasan model, tetapi juga mengakui keterbatasan seperti sulitnya menafsirkan banyak fitur yang ditemukan dan perlunya metode validasi yang lebih baik.
2 komentar
https://github.com/openai/sparse_autoencoder
https://openaipublic.blob.core.windows.net/sparse-autoencoder/…