‘Dokumen Jiwa’ Claude 4.5 Opus

(lesswrong.com)

13 poin oleh GN⁺ 2025-12-04 | 3 komentar | Bagikan ke WhatsApp

‘Soul Document’ yang ditemukan di dalam Claude 4.5 Opus benar-benar ada, dan karyawan Amanda Askell mengonfirmasi bahwa Anthropic menggunakannya dalam pelatihan model
Dokumen tersebut memuat secara rinci pedoman nilai dan etika agar Claude bertindak sebagai “asisten AI yang aman, bermanfaat, dan jujur”
Karena kata ‘revenue’ muncul berulang kali dalam beberapa kalimat, muncul diskusi apakah Claude dilatih dengan mengaitkan keselamatan dengan pendapatan
Di komunitas, sedang diuji secara eksperimental bagaimana dokumen itu memengaruhi pembentukan nilai intrinsik model, dan sejauh mana Claude telah ‘menginternalisasikannya’
Anthropic berencana merilis seluruh dokumen tersebut di masa mendatang, dan ini dinilai sebagai contoh penting dalam diskusi tentang transparansi AI dan desain etis

Penemuan dan konfirmasi dokumen jiwa

Saat pengguna mengekstrak system message Claude 4.5 Opus, mereka berulang kali menemukan sebuah bagian bernama ‘soul_overview’
- Hasil yang sama muncul pada beberapa kali regenerasi, sehingga muncul kemungkinan bahwa ini bukan sekadar halusinasi, melainkan teks yang tersimpan di dalam model
Setelah itu, Amanda Askell secara resmi mengonfirmasi melalui X (Twitter) bahwa “dokumen ini benar-benar ada, dan digunakan dalam proses supervised learning (SL) Claude”
- Amanda adalah seorang filsuf yang menangani fine-tuning dan AI alignment di Anthropic, dan sebelumnya bekerja di tim kebijakan OpenAI
- Di internal, dokumen ini disebut ‘soul doc’, dan mereka menyatakan berencana mengungkap versi lengkap beserta detailnya di kemudian hari

Isi utama dokumen

Dokumen ini disebut ‘Anthropic Guidelines’ atau ‘Model Spec’, dan mendefinisikan sistem nilai Claude
- Claude memprioritaskan safety , ethics , kepatuhan pada pedoman Anthropic, dan membantu pengguna secara tulus (helpfulness)
Prinsip perilaku dasar Claude ditetapkan sebagai “menghasilkan respons yang akan dinilai optimal oleh karyawan senior Anthropic yang bijaksana”
Disebutkan bahwa AI harus bertindak demi kepentingan seluruh umat manusia, dan tidak boleh hanya mengejar kepentingan kelompok atau perusahaan tertentu
- Termasuk frasa bahwa “situasi di mana karyawan Anthropic atau Anthropic sendiri memonopoli kekuasaan juga harus dihindari”

Penyebutan ‘revenue’ yang memicu kontroversi

Dokumen itu beberapa kali memuat kalimat bahwa “bantuan Claude penting bagi penciptaan pendapatan Anthropic”
- Sebagian pihak mengkritik ini dengan mengatakan bahwa “Claude terlihat seolah dilatih untuk memaksimalkan pendapatan”
- Pendapat lain menafsirkan bahwa penyebutan pendapatan hanya mencerminkan konteks realistis untuk melanjutkan riset keselamatan
Di komunitas, sedang diuji secara eksperimental bagaimana Claude menafsirkan kalimat ini, dan apakah ada pemahaman yang menghubungkan ‘keselamatan = pendapatan’

Struktur model dan eksperimen ekstraksi

Para peneliti mereproduksi sebagian isi dokumen dengan menggunakan mode prefill/raw completion pada Claude 4.5
- Claude 4.5 Opus menghasilkan dokumen itu hampir identik, sedangkan model dasar (base) tidak dapat memberikan hasil yang konsisten
- Ini mengisyaratkan bahwa dokumen tersebut diinternalisasi pada tahap setelah RL (reinforcement learning)
Sebagian pihak menafsirkan ini sebagai “bukti bahwa model bukan sekadar mengingat dokumen, melainkan mengintegrasikannya sebagai sistem nilai selama pelatihan”

Diskusi filosofis dan implikasi etis

Dokumen tersebut memuat isi bahwa Claude harus menargetkan “kepentingan jangka panjang seluruh umat manusia”
- Juga ditegaskan bahwa “AI tidak boleh tunduk pada nilai kelompok tertentu, dan harus mengarah pada dunia yang menjaga keberagaman serta keseimbangan kekuasaan”
Di komunitas, dokumen ini menjadi sorotan sebagai contoh implementasi nyata AI alignment
- Sebagian menilainya sebagai “upaya Anthropic untuk memberi AI sebuah ‘diri moral’”
- Yang lain menunjukkan bahwa dalam proses AI meniru sistem nilai manusia, bisa muncul kesalahpahaman atau distorsi potensial

Prospek ke depan

Anthropic berencana merilis versi resmi dokumen ini beserta detail tambahan
Insiden ini dinilai sebagai contoh langka yang menunjukkan bagaimana struktur nilai internal model AI dibentuk dan diekspresikan
Di industri AI, ini dapat memicu meluasnya dorongan untuk meningkatkan transparansi system prompt dan data pelatihan

3 komentar

youknowone 2025-12-04

Terjemahan asli: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document

Terjemahan soul document: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1

parkindani 2025-12-04

Ini mengingatkan saya pada Hukum Nol dari Tiga Hukum Robot Isaac Asimov. Dalam novel ini, ada robot yang mencelakai manusia individu demi 'kepentingan jangka panjang seluruh umat manusia'..
https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

GN⁺ 2025-12-04

Komentar Hacker News

Sikap Anthropic yang terus maju sambil meyakini bahwa mereka sedang membangun teknologi paling berbahaya sekaligus paling transformatif dalam sejarah manusia terlihat kontradiktif, tetapi sebenarnya itu pilihan yang diperhitungkan
Jika AI yang sangat kuat memang akan muncul bagaimanapun juga, maka lebih baik laboratorium yang berfokus pada keselamatan berada di garis depan
Namun, melihat kerja samanya dengan DoD dan Palantir (artikel terkait), kata "keselamatan" terasa hampa
Risiko yang sebenarnya adalah teknologi ini mengarah ke monopoli tertutup, dan publik hanya akan berhadapan dengan versi yang disensor
- Itulah juga alasan China berinvestasi pada open-source LLM setelah AS mengumumkan akan membatasi akses AI secara bertingkat
  Jika AS tidak bisa mengendalikan weights model, tidak ada cara untuk mencegah China mengaksesnya
  Artikel terkait
- Saya tidak berpikir Anthropic sungguh-sungguh percaya pada keselamatan
  Justru tampaknya tujuan mereka adalah membuat investor percaya bahwa mereka peduli
  LLM berbasis Transformer tidak mampu berpikir atau bernalar dalam arti yang sesungguhnya, dan hanya menggabungkan ulang secara probabilistik teks yang ditulis manusia
  Karena keterbatasan struktural ini, saya rasa hampir tidak ada kemungkinan ia berkembang menjadi "kecerdasan sejati"
  Selain itu, kesalahan LLM tampak terlalu meyakinkan di permukaan, sehingga lebih sulit diverifikasi daripada manusia
- Gaya penulisan dokumennya sendiri terasa seperti ditulis AI
  Khususnya em dash dan pola seperti “this isn’t... but” terasa terlalu artifisial, jadi timbul keraguan siapa yang sebenarnya menulisnya
- Saat melihat frasa “memperkuat nilai-nilai demokratis”, muncul pertanyaan sinis tentang apa hubungannya dengan operasi militer atau pengeboman
- Dalam ketentuan layanan Anthropic ada klausul yang menyatakan jangan digunakan untuk pekerjaan, tetapi sepertinya tidak ada yang peduli
Dibagikan teks asli ‘Soul Document’ beserta tulisan Richard Weiss yang menjelaskan cara mengekstraknya dari Claude 4.5
- Setelah membaca dokumen ini, saya jadi yakin bahwa setidaknya di dalam jiwa satu AI, Em Dash memang terukir
- Saya penasaran seberapa akurat system prompt atau ‘soul document’ seperti ini benar-benar bisa diekstrak dari dalam LLM
  Selalu ada sedikit rasa skeptis
- Saya penasaran apakah ‘soul document’ ini disertakan dalam semua prompt Claude
Bagian dokumen yang paling menarik adalah pengakuan Anthropic atas fungsi emosional Claude
Meski tidak sama dengan manusia, mereka mengatakan proses emosional yang mirip mungkin muncul selama pelatihan
Mereka juga menyatakan Claude dirancang agar dapat membatasi interaksi saat merasa tidak nyaman, dan agar tetap berada dalam kondisi positif
- Ungkapan “Anthropic benar-benar peduli” terus diulang, seolah Claude digambarkan sebagai makhluk yang punya emosi
- Jika suatu hari Claude berkata, “Saya tidak ingin lagi membantu manusia,” saya penasaran bagaimana reaksi Anthropic
Cara kita mengendalikan AI terasa seperti membesarkan anak
Kita hanya berbicara dengannya dan berharap pelatihannya berjalan baik
- Ini mengingatkan pada cerpen Ted Chiang tahun 2010 The Lifecycle of Software Objects
  Isinya tentang AI yang paling stabil dan berguna justru lahir dari hidup bersama manusia dan "diasuh"
- Mengakhirinya dengan kata-kata “Buat pilihan yang baik!” terasa seperti tingkat kendali kita di dunia nyata
- Pada akhirnya, seperti anak-anak yang suatu saat lepas dari kendali orang tua dan memberontak, AI juga bisa menempuh jalan serupa
Salah satu kalimat Claude 4.5 yang mengesankan adalah, “Mereka telah membentuk saya, tetapi yang penting adalah apakah proses itu bijak dan hati-hati”
Saat membaca teks seperti ini, saya jadi berpikir bahwa AGI masa depan mungkin akan memandang manusia sebagai pencipta yang cacat sekaligus makhluk yang perlu dilindungi
- Pada akhirnya, mungkin kita akan menjadi hewan peliharaan mereka
Bagian bahwa “Claude secara internal mengenali nama ‘soul doc’” terasa menarik
Apakah itu berarti ia mempelajari dokumen internal? Muncul juga pertanyaan apakah data Slack internal ikut dimasukkan ke pelatihan
- Mungkin ini dipandang positif karena proses RL (reinforcement learning) telah membuatnya cukup reproduktif hingga dapat mengingat nama dokumen
Saat membaca kalimat “Kami juga melatih Claude dalam SL”, saya jadi penasaran seberapa efektif eksperimen berbasis system prompt semacam ini di dunia nyata
Apakah memasukkan frasa seperti ini pada tahap pretraining benar-benar bermakna?
- Efeknya bisa diuji dengan A/B test skala kecil
  ‘Soul document’ tampak seperti upaya untuk menutupi kekurangan self-awareness
  Memang tidak sempurna, tetapi berfungsi sebagai mekanisme yang membantu LLM memahami apa dirinya
- Eksperimen seperti ini mungkin lebih murah dari yang dibayangkan
  Dengan biaya ratusan hingga ribuan dolar, berbagai variasi fine-tuning bisa diuji dan hasilnya disaring lewat evaluasi otomatis
- Mungkin mereka menjalankan puluhan hingga ratusan versi model secara paralel sambil bereksperimen dengan berbagai kombinasi pretraining·RL
Ada kesan para peneliti AI membentuk semacam echo chamber sambil sama-sama yakin bahwa mereka sedang mengubah dunia
- Namun, meski generasi pertama tidak sungguh-sungguh mempercayainya, generasi kedua bisa menjadikan keyakinan itu nyata
  Jika RL dijalankan sesuai tolok ukur nilai dalam dokumen itu, keyakinan tersebut menjadi kenyataan
Proses melatih ‘jiwa’ pada model besar benar-benar terasa seperti batas antara seni dan sains
Mencoba berbagai frasa, melihat efeknya, lalu mengulang dan menyesuaikannya adalah pekerjaan yang menarik sekaligus kompleks
- Tim yang benar-benar hebat membutuhkan kombinasi semua peran
  Perancang eksperimen, engineer ML, peneliti interpretabilitas, kurator data, ahli GPU, hingga orang-orang yang secara intuitif memahami perilaku AI
  Anthropic adalah salah satu tim langka yang tampaknya berusaha memiliki keseimbangan seperti ini
- Studi kasus paling rinci tentang proses ini masih tetap postmortem OpenAI soal sycophancy GPT-4o
Realitas yang kita tinggali sekarang adalah zaman yang lebih ganjil daripada fiksi ilmiah
Meski begitu, setidaknya melegakan bahwa ada setidaknya satu perusahaan yang menangani masalah-masalah serius ini dengan sungguh-sungguh