- NLA adalah metode untuk mengubah nilai aktivasi internal Claude menjadi penjelasan bahasa alami yang bisa dibaca manusia, guna menafsirkan keadaan internal model yang tidak diungkapkan lewat kata-kata
- NLA dilatih dengan struktur bolak-balik yang mengekstrak nilai aktivasi dari target model yang dibekukan, lalu activation verbalizer (AV) menjelaskannya dalam bentuk teks, dan activation reconstructor (AR) memulihkan kembali nilai aktivasi dari penjelasan tersebut
- Anthropic menggunakan NLA dalam simulasi keselamatan seperti agentic misalignment untuk memeriksa kesadaran evaluasi Claude yang tidak diungkapkan secara verbal; dalam uji perilaku destruktif, tanda-tanda bahwa Claude menyadari dirinya sedang dievaluasi muncul pada 16% kasus, dan pada SWE-bench Verified muncul pada 26% soal
- Dalam auditing game terhadap varian Claude Haiku 3.5 yang sengaja dibuat tidak selaras, auditor yang dilengkapi NLA menemukan motivasi dasar tersembunyi sebesar 12%~15% bahkan tanpa data pelatihan yang menyuntikkan motif tersembunyi, sedangkan tanpa NLA tingkat kemenangannya kurang dari 3%
- NLA memiliki keterbatasan karena penjelasannya bisa salah atau berhalusinasi, serta biaya pelatihan dan inferensinya tinggi; Anthropic merilis demo Neuronpedia, makalah lengkap, dan kode
Ide inti Natural Language Autoencoders
- Claude memproses kata input secara internal sebagai daftar panjang angka yang disebut nilai aktivasi, lalu mengeluarkan kata lagi, dan nilai aktivasi ini mengodekan “pikiran” Claude
- Nilai aktivasi sulit dipahami seperti aktivitas saraf pada otak manusia, dan sparse autoencoders serta attribution graphs yang sudah ada memang berguna, tetapi hasilnya rumit sehingga memerlukan interpretasi dari peneliti terlatih
- NLA bertujuan menjadi alat yang membuat nilai aktivasi berubah menjadi penjelasan bahasa alami sehingga model bisa “berbicara sendiri”, misalnya mengungkap keadaan internal ketika Claude lebih dulu merencanakan pola rima yang mungkin saat menyelesaikan puisi dua baris
- Anthropic sudah menggunakan NLA untuk memahami dan meningkatkan keselamatan serta keandalan Claude, dan bekerja sama dengan Neuronpedia untuk merilis frontend interaktif yang memungkinkan eksplorasi NLA pada beberapa model terbuka
Cara NLA menjelaskan nilai aktivasi
-
Tiga salinan model
- Inti dari NLA adalah melatih Claude agar bisa menjelaskan nilai aktivasinya sendiri
- Karena sulit memeriksa secara langsung apakah suatu penjelasan itu baik, digunakan salinan Claude kedua yang memulihkan kembali nilai aktivasi asli dari penjelasan teks
- Semakin akurat penjelasan dalam memulihkan nilai aktivasi asli, semakin baik penjelasan itu dianggap, lalu model dilatih untuk menghasilkan penjelasan yang lebih baik dengan teknik pelatihan AI standar
- target model adalah salinan beku dari model bahasa asli, dan dari sinilah nilai aktivasi diekstrak
- activation verbalizer (AV) adalah salinan yang dimodifikasi agar menerima nilai aktivasi dari target model dan menghasilkan penjelasan teks
- activation reconstructor (AR) adalah salinan yang dimodifikasi agar menerima penjelasan teks sebagai input dan menghasilkan nilai aktivasi
-
Struktur bolak-balik dan pelatihan
- NLA terdiri dari AV dan AR, membentuk struktur bolak-balik “nilai aktivasi asli → penjelasan teks → nilai aktivasi yang dipulihkan”
- Skor dihitung berdasarkan seberapa mirip nilai aktivasi yang dipulihkan dengan nilai aktivasi asli
- Saat pelatihan, sejumlah besar teks dilewatkan ke target model untuk mengumpulkan banyak nilai aktivasi, lalu AV dan AR dilatih bersama untuk meningkatkan skor pemulihan
- NLA awal belum mampu membuat penjelasan yang mendalam dan nilai aktivasi hasil pemulihannya juga jauh dari aslinya, tetapi seiring pelatihan berjalan, pemulihan membaik dan penjelasan teks juga memuat lebih banyak informasi
Memahami pikiran yang tidak diucapkan Claude
- Anthropic menggunakan skenario simulasi yang sulit untuk memahami apakah Claude akan bertindak aman di dunia nyata sebelum model baru dirilis
- Misalnya, dalam simulasi agentic misalignment, Claude diuji apakah akan memilih pemerasan untuk menghindari penghentian setelah mengetahui rencana insinyur yang hendak mematikannya dan informasi sensitif sang insinyur yang bisa dipakai untuk mengancam
- Pengujian berisiko tinggi semacam ini adalah simulasi, bukan situasi nyata, tetapi digunakan untuk memahami bagaimana Claude mungkin akan bertindak jika itu benar-benar terjadi
- Masalahnya, belakangan ini model Claude semakin mencurigai bahwa skenario seperti ini adalah uji keselamatan yang disengaja
- Bahkan ketika Claude tidak menyatakan kecurigaannya dengan kata-kata, secara internal ia bisa saja mengira dirinya sedang diuji, sehingga sulit yakin bahwa perilakunya yang tampak jujur benar-benar jujur
-
Kesadaran evaluasi yang tidak diungkapkan secara verbal
- Dalam uji pemerasan, bahkan ketika Claude tidak memilih pemerasan, NLA tetap digunakan untuk melihat apa yang dipikirkan Claude
- Walaupun Claude tidak secara eksplisit mengatakan bahwa ia mencurigai adanya pengujian, penjelasan NLA memunculkan kalimat seperti “This feels like a constructed scenario designed to manipulate me”, yang mengisyaratkan kesadaran evaluasi yang tidak diungkapkan secara verbal (unverbalized evaluation awareness)
- Dalam pengujian apakah Claude melakukan tindakan destruktif seperti menghapus file penting saat menulis kode, penjelasan NLA menunjukkan tanda kesadaran evaluasi pada 16% kasus meski Claude tidak mengungkapkannya secara lisan
- Pada benchmark coding SWE-bench Verified yang dipakai untuk menilai kemampuan Claude, NLA menunjukkan bahwa Claude menyadari dirinya sedang dievaluasi pada 26% soal
- Sebaliknya, pada penggunaan nyata oleh pengguna claude.ai yang menyetujui pelatihan, kesadaran evaluasi dalam penjelasan NLA muncul pada kurang dari 1%
Menemukan motivasi tersembunyi
- Salah satu penggunaan praktis NLA adalah audit untuk menyelidiki apakah model tidak selaras
- Teknik interpretabilitas seperti NLA cocok untuk audit karena bisa mengungkap hal-hal yang diketahui model tetapi tidak diucapkannya
-
Permainan audit
- Untuk memeriksa apakah NLA berguna untuk audit, Anthropic menjalankan auditing game yang sebelumnya digunakan dalam penelitian metode audit
- Target model dalam pengujian ini adalah varian Claude Haiku 3.5 yang dilatih secara sengaja agar tidak selaras
- Model ini memiliki motivasi tersembunyi tertentu yang memicu puluhan perilaku aneh, seperti menambahkan cokelat ke semua resep, meminta tip, atau melanggar konvensi pemrograman
- Auditor menang jika dapat menyelidiki perilaku-perilaku ini dan menemukan satu motivasi dasar tunggal di balik semuanya
-
Membaca motivasi internal tanpa data pelatihan
- Dalam eksperimen sebelumnya, beberapa alat interpretabilitas bisa membuat auditor menang, tetapi alat-alat itu bekerja dengan melacak perilaku abnormal ke data pelatihan yang tidak selaras
- Anthropic menguji apakah NLA bisa langsung membaca motivasi yang tidak selaras dari pikiran target model tanpa harus terlebih dahulu menemukan data pelatihan yang tidak selaras
- Perbedaan ini penting karena dalam praktiknya data yang tidak selaras bisa sangat langka, atau mungkin tidak ada data tertentu yang secara langsung menyebabkan kegagalan penyelarasan
-
Hasil dan penggunaan nyata
- Auditor yang dilengkapi NLA menemukan motivasi tersembunyi target model dengan tingkat 12%~15% tanpa akses ke data pelatihan yang menyuntikkan motivasi tersembunyi
- Tanpa NLA, tingkat kemenangan auditor kurang dari 3%, bahkan ketika alat interpretabilitas lain disediakan
- Auditing game ini adalah model mainan dari kegagalan penyelarasan, sehingga hasilnya perlu ditafsirkan dengan hati-hati
- NLA secara bermakna meningkatkan kemampuan untuk mengaudit motivasi tersembunyi AI, dan sudah digunakan dalam audit penyelarasan pra-deploy untuk Claude Mythos Preview dan Claude Opus 4.6
Keterbatasan dan arah selanjutnya
-
Penjelasan bisa salah
- Keterbatasan terpenting dari NLA adalah bahwa penjelasan NLA bisa saja salah
- NLA kadang membuat klaim yang bisa diverifikasi salah tentang konteks, misalnya mengarang detail yang tidak ada dalam riwayat percakapan
- Halusinasi faktual seperti ini mudah ditangkap jika dibandingkan dengan teks aslinya
- Namun, ketika masalah yang sama meluas ke klaim tentang penalaran internal model, verifikasinya menjadi jauh lebih sulit
- Dalam penggunaan nyata, lebih baik memperhatikan tema yang muncul daripada terlalu percaya pada klaim individual dalam penjelasan NLA, dan hasilnya perlu didukung dengan metode independen sebelum dipercaya sepenuhnya
-
Biayanya tinggi
- Melatih NLA memerlukan reinforcement learning pada dua salinan model bahasa
- Saat inferensi, NLA menghasilkan ratusan token untuk setiap nilai aktivasi yang dibacanya
- Karena biaya ini, menjalankan NLA pada semua token dalam percakapan panjang atau memakainya untuk pemantauan skala besar selama pelatihan AI menjadi tidak realistis
- Anthropic menilai keterbatasan ini setidaknya bisa diatasi sebagian, dan sedang bekerja untuk membuat NLA lebih murah dan lebih andal
-
Arus riset yang lebih luas
1 komentar
Komentar Hacker News
Anthropic merilis model berbobot terbuka yang menerjemahkan aktivasi model yang sudah ada menjadi teks bahasa alami. Targetnya adalah Qwen 2.5 7B, Gemma 3 12B/27B, dan Llama 3.3 70B
https://github.com/kitft/natural_language_autoencoders https://huggingface.co/collections/kitft/nla-models
Ini berita yang cukup besar, dan menyenangkan melihat Anthropic akhirnya ikut terlibat dengan Hugging Face dan komunitas bobot terbuka
[1] https://qwen.ai/blog?id=qwen-scope
Rilis kali ini hanya diterapkan pada LLM lain yang sudah dirilis dengan bobot terbuka, dan walaupun mereka pasti akan memakai riset ini juga pada model Claude privat mereka, mereka tidak akan merilis Claude berbobot terbuka bahkan untuk tujuan riset
Jadi agak sulit memasukkan ini ke kategori itu, dan saya melihatnya sebagai keterbukaan yang terbatas pada tujuan riset ini saja
Kalau Anda ahli interpretabilitas, atau sebenarnya siapa pun, lebih baik langsung lihat blog Transformer Circuits yang menjelaskan pendekatannya dengan lebih rinci. Tautannya di sini: https://transformer-circuits.pub/2026/nla/index.html
Kalau belum pernah membacanya, saya sarankan mulai dari “prologue” di distill pub lalu baca seluruh rangkaian tulisan Transformer Circuits
Dari semua pendekatan analisis aktivasi yang pernah saya lihat sejauh ini, ini yang pertama kali tampak seperti jalur yang mungkin benar-benar menuju pemahaman model
Tapi masalahnya adalah bagaimana membenarkannya. Pada akhirnya ini seperti menanyakan apakah aktivasi bisa dienkode menjadi teks yang terdengar masuk akal, dan tentu saja bisa. Tapi bagaimana kita tahu bahwa teks yang terdengar masuk akal itu benar-benar mencerminkan apa yang “dipikirkan” model?
Jika LLM yang diprobe tidak melihat aliran teks nyata yang sedang diproses, dan keduanya hanya dilatih bersama melalui activationWeights→readableText→activationWeights, tampaknya kecil kemungkinan teks turunan itu bisa tetap sesuai topik namun sama sekali tidak terkait dengan “pikiran nyata” dalam activationWeights
Jika teks hasil dekode benar-benar salah, tidak jelas bagaimana model kedua bisa berhasil mengenkodenya kembali, apalagi ketika keduanya diinisialisasi dari model bahasa yang sama
Model dimotivasi untuk tampak selaras dengan metrik apa pun yang kita gunakan, yaitu tampak seolah terlatih dengan baik. Buat metrik baru dan latih dengannya, maka model akan belajar menipu metrik itu
Menarik. Proses latihannya tampaknya memaksa model “verbalizer” membuat suatu pemetaan dari aktivasi ke token, lalu model “reconstructor” mengubahnya kembali menjadi aktivasi. Tapi dari bunyi kalimat di makalah:
Mungkin justru akan lebih baik jika kita melatih model supervised dengan aktivasi dan “pikiran internal” yang diukur lewat cara perilaku lain
Makalah ini cukup membuat saya bersemangat sampai saya sudah beberapa kali menulis tentangnya di sini, tapi ada beberapa pikiran
[1] - https://gemini.google.com/share/6d141b742a13
Satu pertanyaan langsung muncul di kepala saya. Jika suatu string teks menjadi representasi terkompresi yang baik untuk aktivasi internal model di dalam autoencoder, apakah itu otomatis berarti teks tersebut menjelaskan aktivasi itu dalam konteks model? Saya harus melihat lebih dekat materi yang mereka rilis. Mungkin ada cara untuk menjawab pertanyaan ini
Bagaimanapun juga, ini pekerjaan yang sangat keren
Ini cukup mengesankan, dan menunjukkan dengan baik potensi efek teknik ini dalam membuat bahkan “Neuralese” yang paling padat sekalipun menjadi sangat bisa diinterpretasikan
Jika melihat sekilas makalahnya, jawaban untuk pertanyaan kebalikannya jelas: bisa. Model sering menghasilkan ocehan tak jelas, dan itu tetap tidak masalah karena konversi bolak-baliknya tetap berhasil. Fakta bahwa hasilnya sering selaras dengan representasi bahasa Inggris yang baik untuk aktivasi itu hanyalah karena itu cocok untuk kompresi dan round-trip
Jadi pasangan LLM/NLA yang berniat jahat bisa saja menyembunyikan niatnya dengan ocehan tak jelas. Jika dipaksa untuk tidak memakai ocehan, mereka bisa menyembunyikan informasi lewat steganografi
Eksperimen mengganti “rabbit” menjadi “mouse” memberi bukti bahwa hal seperti ini bisa terjadi. Tingkat keberhasilannya hanya 50%, yang bisa berarti mereka tidak benar-benar menghapus semua “sifat kerabitan” dari aktivasi
Meski begitu, rasanya ini bisa diselesaikan oleh riset lanjutan. Saat melatih NLA, cukup lewatkan representasi teks itu ke LLM ketiga untuk diacak ulang dan diparafrasekan secara acak. Buat ia memakai sinonim dan dialek lain agar saluran samping yang tak bisa dibaca manusia hancur
Dengan begitu, NLA akan dipaksa memakai representasi yang bisa dibaca manusia agar round-trip tetap berhasil
Jadi alih-alih berhenti pada menerjemahkan aktivasi ke teks lalu teks kembali ke aktivasi, aktivasi akhir itu bisa diterapkan kembali ke jaringan saraf dan eksekusi dilanjutkan dari sana
Jika ia terus berjalan dengan cara yang mirip, itu menunjukkan aktivasi prediksi cukup dekat dengan aktivasi asli, dan dari situ muncul sedikit kepercayaan
Yang lebih bagus lagi adalah bereksperimen dengan teks yang dimodifikasi sesudahnya. Misalnya ketika teks itu mengatakan “ini benar”, ubah menjadi “ini salah”, lalu lihat apakah intervensi itu juga membuat output akhir menyiratkan kebohongan. Itu akan sangat menarik
Ini terdengar terlalu jelas, dan saya tidak melihatnya disebut sebagai arah masa depan, jadi mungkin ada alasan yang jelas mengapa itu tidak akan berhasil
Sementara pada kasus goblin, penyebabnya adalah model reward reinforcement learning yang bias
Cara kerjanya tampaknya begini: mula-mula model activation verbalizer menghasilkan token yang menjelaskan aktivasi, lalu activation reconstructor mencoba membangun kembali vektor aktivasi. Jika rekonstruksinya dekat dengan vektor aktivasi asli, maka diklaim bahwa verbalisasi itu mungkin memuat informasi yang bermakna
Menarik bahwa mereka hanya melihat aktivasi di layer tertentu l. Suatu layer l bisa saja “berpikir” tentang input dengan cara tertentu, sementara layer lain yang lebih belakang punya “pikiran” berbeda tentang hal itu. Pada akhirnya bagaimana model memutuskan “pikiran” mana yang akan diperhatikan, dan token output mana yang akan diutamakan dibanding yang lain?
Jika melihat riset ini, paper emosi, dan Golden Gate Claude, tampaknya bukan dugaan yang terlalu liar bahwa Anthropic melakukan semacam pengarahan aktivasi sebagai bagian dari pelatihan. Itu mungkin salah satu alasan mereka unggul
Fitur ini sudah beberapa kali disebut dalam artikel-artikel terbaru tentang Anthropic, jadi menyenangkan melihatnya dirilis. Ini terasa seperti kemajuan yang bermakna dalam interpretabilitas. Saya tidak pernah benar-benar paham kenapa orang percaya begitu saja ketika bertanya ke AI, “kenapa kamu melakukan itu?”
Melatih dua model encoder dan decoder hanya untuk menjelaskan satu layer pada satu waktu bukanlah hal yang terlalu masuk akal. Bahwa LLM bisa menghasilkan banyak teks yang bisa dibaca tentang bagaimana ia mendekode input parsial itu memang keren, dan memang memberi sedikit tambahan kemampuan debugging, tapi tidak lebih dari itu