- ‘Soul Document’ yang ditemukan di dalam Claude 4.5 Opus benar-benar ada, dan karyawan Amanda Askell mengonfirmasi bahwa Anthropic menggunakannya dalam pelatihan model
- Dokumen tersebut memuat secara rinci pedoman nilai dan etika agar Claude bertindak sebagai “asisten AI yang aman, bermanfaat, dan jujur”
- Karena kata ‘revenue’ muncul berulang kali dalam beberapa kalimat, muncul diskusi apakah Claude dilatih dengan mengaitkan keselamatan dengan pendapatan
- Di komunitas, sedang diuji secara eksperimental bagaimana dokumen itu memengaruhi pembentukan nilai intrinsik model, dan sejauh mana Claude telah ‘menginternalisasikannya’
- Anthropic berencana merilis seluruh dokumen tersebut di masa mendatang, dan ini dinilai sebagai contoh penting dalam diskusi tentang transparansi AI dan desain etis
Penemuan dan konfirmasi dokumen jiwa
- Saat pengguna mengekstrak system message Claude 4.5 Opus, mereka berulang kali menemukan sebuah bagian bernama ‘soul_overview’
- Hasil yang sama muncul pada beberapa kali regenerasi, sehingga muncul kemungkinan bahwa ini bukan sekadar halusinasi, melainkan teks yang tersimpan di dalam model
- Setelah itu, Amanda Askell secara resmi mengonfirmasi melalui X (Twitter) bahwa “dokumen ini benar-benar ada, dan digunakan dalam proses supervised learning (SL) Claude”
- Amanda adalah seorang filsuf yang menangani fine-tuning dan AI alignment di Anthropic, dan sebelumnya bekerja di tim kebijakan OpenAI
- Di internal, dokumen ini disebut ‘soul doc’, dan mereka menyatakan berencana mengungkap versi lengkap beserta detailnya di kemudian hari
Isi utama dokumen
- Dokumen ini disebut ‘Anthropic Guidelines’ atau ‘Model Spec’, dan mendefinisikan sistem nilai Claude
- Claude memprioritaskan safety , ethics , kepatuhan pada pedoman Anthropic, dan membantu pengguna secara tulus (helpfulness)
- Prinsip perilaku dasar Claude ditetapkan sebagai “menghasilkan respons yang akan dinilai optimal oleh karyawan senior Anthropic yang bijaksana”
- Disebutkan bahwa AI harus bertindak demi kepentingan seluruh umat manusia, dan tidak boleh hanya mengejar kepentingan kelompok atau perusahaan tertentu
- Termasuk frasa bahwa “situasi di mana karyawan Anthropic atau Anthropic sendiri memonopoli kekuasaan juga harus dihindari”
Penyebutan ‘revenue’ yang memicu kontroversi
- Dokumen itu beberapa kali memuat kalimat bahwa “bantuan Claude penting bagi penciptaan pendapatan Anthropic”
- Sebagian pihak mengkritik ini dengan mengatakan bahwa “Claude terlihat seolah dilatih untuk memaksimalkan pendapatan”
- Pendapat lain menafsirkan bahwa penyebutan pendapatan hanya mencerminkan konteks realistis untuk melanjutkan riset keselamatan
- Di komunitas, sedang diuji secara eksperimental bagaimana Claude menafsirkan kalimat ini, dan apakah ada pemahaman yang menghubungkan ‘keselamatan = pendapatan’
Struktur model dan eksperimen ekstraksi
- Para peneliti mereproduksi sebagian isi dokumen dengan menggunakan mode prefill/raw completion pada Claude 4.5
- Claude 4.5 Opus menghasilkan dokumen itu hampir identik, sedangkan model dasar (base) tidak dapat memberikan hasil yang konsisten
- Ini mengisyaratkan bahwa dokumen tersebut diinternalisasi pada tahap setelah RL (reinforcement learning)
- Sebagian pihak menafsirkan ini sebagai “bukti bahwa model bukan sekadar mengingat dokumen, melainkan mengintegrasikannya sebagai sistem nilai selama pelatihan”
Diskusi filosofis dan implikasi etis
- Dokumen tersebut memuat isi bahwa Claude harus menargetkan “kepentingan jangka panjang seluruh umat manusia”
- Juga ditegaskan bahwa “AI tidak boleh tunduk pada nilai kelompok tertentu, dan harus mengarah pada dunia yang menjaga keberagaman serta keseimbangan kekuasaan”
- Di komunitas, dokumen ini menjadi sorotan sebagai contoh implementasi nyata AI alignment
- Sebagian menilainya sebagai “upaya Anthropic untuk memberi AI sebuah ‘diri moral’”
- Yang lain menunjukkan bahwa dalam proses AI meniru sistem nilai manusia, bisa muncul kesalahpahaman atau distorsi potensial
Prospek ke depan
- Anthropic berencana merilis versi resmi dokumen ini beserta detail tambahan
- Insiden ini dinilai sebagai contoh langka yang menunjukkan bagaimana struktur nilai internal model AI dibentuk dan diekspresikan
- Di industri AI, ini dapat memicu meluasnya dorongan untuk meningkatkan transparansi system prompt dan data pelatihan
Belum ada komentar.