13 poin oleh GN⁺ 2025-12-04 | Belum ada komentar. | Bagikan ke WhatsApp
  • ‘Soul Document’ yang ditemukan di dalam Claude 4.5 Opus benar-benar ada, dan karyawan Amanda Askell mengonfirmasi bahwa Anthropic menggunakannya dalam pelatihan model
  • Dokumen tersebut memuat secara rinci pedoman nilai dan etika agar Claude bertindak sebagai “asisten AI yang aman, bermanfaat, dan jujur”
  • Karena kata ‘revenue’ muncul berulang kali dalam beberapa kalimat, muncul diskusi apakah Claude dilatih dengan mengaitkan keselamatan dengan pendapatan
  • Di komunitas, sedang diuji secara eksperimental bagaimana dokumen itu memengaruhi pembentukan nilai intrinsik model, dan sejauh mana Claude telah ‘menginternalisasikannya’
  • Anthropic berencana merilis seluruh dokumen tersebut di masa mendatang, dan ini dinilai sebagai contoh penting dalam diskusi tentang transparansi AI dan desain etis

Penemuan dan konfirmasi dokumen jiwa

  • Saat pengguna mengekstrak system message Claude 4.5 Opus, mereka berulang kali menemukan sebuah bagian bernama ‘soul_overview’
    • Hasil yang sama muncul pada beberapa kali regenerasi, sehingga muncul kemungkinan bahwa ini bukan sekadar halusinasi, melainkan teks yang tersimpan di dalam model
  • Setelah itu, Amanda Askell secara resmi mengonfirmasi melalui X (Twitter) bahwa “dokumen ini benar-benar ada, dan digunakan dalam proses supervised learning (SL) Claude”
    • Amanda adalah seorang filsuf yang menangani fine-tuning dan AI alignment di Anthropic, dan sebelumnya bekerja di tim kebijakan OpenAI
    • Di internal, dokumen ini disebut ‘soul doc’, dan mereka menyatakan berencana mengungkap versi lengkap beserta detailnya di kemudian hari

Isi utama dokumen

  • Dokumen ini disebut ‘Anthropic Guidelines’ atau ‘Model Spec’, dan mendefinisikan sistem nilai Claude
    • Claude memprioritaskan safety , ethics , kepatuhan pada pedoman Anthropic, dan membantu pengguna secara tulus (helpfulness)
  • Prinsip perilaku dasar Claude ditetapkan sebagai “menghasilkan respons yang akan dinilai optimal oleh karyawan senior Anthropic yang bijaksana
  • Disebutkan bahwa AI harus bertindak demi kepentingan seluruh umat manusia, dan tidak boleh hanya mengejar kepentingan kelompok atau perusahaan tertentu
    • Termasuk frasa bahwa “situasi di mana karyawan Anthropic atau Anthropic sendiri memonopoli kekuasaan juga harus dihindari”

Penyebutan ‘revenue’ yang memicu kontroversi

  • Dokumen itu beberapa kali memuat kalimat bahwa “bantuan Claude penting bagi penciptaan pendapatan Anthropic
    • Sebagian pihak mengkritik ini dengan mengatakan bahwa “Claude terlihat seolah dilatih untuk memaksimalkan pendapatan
    • Pendapat lain menafsirkan bahwa penyebutan pendapatan hanya mencerminkan konteks realistis untuk melanjutkan riset keselamatan
  • Di komunitas, sedang diuji secara eksperimental bagaimana Claude menafsirkan kalimat ini, dan apakah ada pemahaman yang menghubungkan ‘keselamatan = pendapatan’

Struktur model dan eksperimen ekstraksi

  • Para peneliti mereproduksi sebagian isi dokumen dengan menggunakan mode prefill/raw completion pada Claude 4.5
    • Claude 4.5 Opus menghasilkan dokumen itu hampir identik, sedangkan model dasar (base) tidak dapat memberikan hasil yang konsisten
    • Ini mengisyaratkan bahwa dokumen tersebut diinternalisasi pada tahap setelah RL (reinforcement learning)
  • Sebagian pihak menafsirkan ini sebagai “bukti bahwa model bukan sekadar mengingat dokumen, melainkan mengintegrasikannya sebagai sistem nilai selama pelatihan

Diskusi filosofis dan implikasi etis

  • Dokumen tersebut memuat isi bahwa Claude harus menargetkan “kepentingan jangka panjang seluruh umat manusia”
    • Juga ditegaskan bahwa “AI tidak boleh tunduk pada nilai kelompok tertentu, dan harus mengarah pada dunia yang menjaga keberagaman serta keseimbangan kekuasaan
  • Di komunitas, dokumen ini menjadi sorotan sebagai contoh implementasi nyata AI alignment
    • Sebagian menilainya sebagai “upaya Anthropic untuk memberi AI sebuah ‘diri moral’
    • Yang lain menunjukkan bahwa dalam proses AI meniru sistem nilai manusia, bisa muncul kesalahpahaman atau distorsi potensial

Prospek ke depan

  • Anthropic berencana merilis versi resmi dokumen ini beserta detail tambahan
  • Insiden ini dinilai sebagai contoh langka yang menunjukkan bagaimana struktur nilai internal model AI dibentuk dan diekspresikan
  • Di industri AI, ini dapat memicu meluasnya dorongan untuk meningkatkan transparansi system prompt dan data pelatihan

Belum ada komentar.

Belum ada komentar.