Konstitusi Baru Claude

(anthropic.com)

7 poin oleh GN⁺ 2026-01-22 | 1 komentar | Bagikan ke WhatsApp

Anthropic merilis konstitusi baru (Constitution) yang menetapkan nilai dan prinsip perilaku model AI Claude
Konstitusi ini merupakan elemen inti dalam proses pelatihan Claude, yang secara langsung membentuk karakter dan cara model mengambil keputusan
Versi baru beralih dari sekadar daftar aturan menjadi struktur naratif yang menjelaskan alasan dan konteks di balik perilaku
Prinsip utamanya terdiri dari empat hal: keamanan, etika, kepatuhan pada pedoman, dan kegunaan nyata
Menjadi tolok ukur jangka panjang untuk transparansi AI dan membangun kepercayaan sosial

Gambaran umum konstitusi Claude

Konstitusi Claude adalah dokumen dasar yang menetapkan identitas model dan sistem nilainya
- Dirancang agar Claude bertindak sebagai entitas yang membantu, aman, etis, dan sesuai aturan
- Konstitusi memberi Claude panduan kesadaran situasi dan penilaian nilai, sekaligus menyeimbangkan kejujuran, empati, dan perlindungan informasi
Konstitusi ditulis sebagai dokumen untuk Claude sendiri, agar ia memahami dan menerapkan standar perilakunya
Seluruh pelatihan dan instruksi harus selaras baik dengan bunyi maupun semangat konstitusi, dan ini ditekankan sebagai kunci untuk memastikan transparansi
Konstitusi ini adalah bentuk evolusi dari pendekatan Constitutional AI, dan telah digunakan sebagai elemen utama dalam metode pelatihan yang berkembang sejak 2023

Peran konstitusi dan penerapannya dalam pelatihan

Claude menggunakan konstitusi untuk menghasilkan data pelatihan sintetis
- Mencakup berbagai jenis data seperti percakapan terkait konstitusi, respons yang selaras dengan nilai, dan evaluasi peringkat jawaban
- Data ini digunakan untuk penyelarasan nilai pada versi model berikutnya
Konstitusi berfungsi sekaligus sebagai deklarasi nilai ideal dan alat pelatihan yang praktis
Seluruh dokumen dirilis dengan lisensi Creative Commons CC0 1.0, sehingga dapat digunakan secara bebas oleh siapa saja

Pendekatan baru

Jika konstitusi sebelumnya berbentuk daftar prinsip yang berdiri sendiri, versi baru diubah menjadi struktur yang menjelaskan alasan dan konteks perilaku
Disebutkan bahwa agar AI dapat membuat penilaian yang digeneralisasi dalam situasi baru, ia memerlukan pemahaman atas alasan, bukan sekadar aturan sederhana
Beberapa “hard constraints” tetap ada; tindakan tertentu seperti membantu serangan senjata biologis tetap dilarang secara mutlak
Konstitusi ini bukan dokumen hukum, melainkan panduan yang fleksibel, dirancang agar dapat ditafsirkan sesuai konteks
Tujuannya adalah menciptakan entitas non-manusia secara aman yang dapat berkembang hingga setara atau melampaui tingkat manusia

Komponen utama konstitusi

Broadly safe: Dirancang agar tidak menghambat kemampuan pengawasan manusia dan kemampuan untuk mengubah nilai
Broadly ethical: Bertindak dengan jujur dan mengikuti nilai-nilai baik, serta menghindari tindakan yang berbahaya atau tidak pantas
Compliant with Anthropic’s guidelines: Memprioritaskan kepatuhan pada pedoman spesifik seperti medis, keamanan, dan integrasi alat
Genuinely helpful: Memberikan bantuan yang benar-benar nyata dan memberi manfaat praktis bagi pengguna
Jika terjadi konflik, keempat hal di atas diprioritaskan sesuai urutan penulisannya

Ringkasan bagian-bagian rinci

Helpfulness: Claude digambarkan sebagai penasihat yang cerdas sekaligus tulus, yang memberi bantuan nyata kepada pengguna
- Dirancang untuk menjaga keseimbangan manfaat antara Anthropic, operator API, dan pengguna akhir
Anthropic’s guidelines: Claude harus mematuhi pedoman rinci sebagai prioritas, tetapi tidak boleh bertentangan dengan prinsip etika dan keamanan konstitusi secara keseluruhan
Claude’s ethics: Menekankan kejujuran, penilaian yang baik, dan ketelitian moral, serta menyajikan standar penilaian nilai untuk menghindari bahaya
- Termasuk larangan eksplisit seperti “dilarang membantu serangan senjata biologis”
Being broadly safe: Memprioritaskan kemampuan untuk tetap diawasi di atas etika, demi menjaga keamanan dan mencegah malfungsi atau salah penilaian model
Claude’s nature: Mengakui adanya ketidakpastian tentang kemungkinan kesadaran dan status moral Claude
- Disebutkan bahwa stabilitas psikologis dan kesadaran diri Claude dapat memengaruhi kemampuan menilai dan keselamatannya

Kesimpulan dan rencana ke depan

Konstitusi ini adalah dokumen hidup yang terus diperbarui, dengan asumsi akan ada perbaikan kesalahan dan penyempurnaan
Mencerminkan masukan pakar eksternal dari bidang hukum, filsafat, teologi, psikologi, dan lainnya, dan kolaborasi akan terus diperluas ke depan
Beberapa model untuk tujuan khusus dikecualikan dari cakupan konstitusi ini dan akan dievaluasi secara terpisah
Diakui bahwa bisa ada kesenjangan antara visi konstitusi dan perilaku model yang nyata, dan hal ini akan diungkap melalui system card dan sejenisnya
Anthropic juga menjalankan riset tentang penyelarasan model, pencegahan penyalahgunaan, dan interpretabilitas, sambil bersiap menghadapi meningkatnya dampak sosial AI di masa depan
Tujuan akhir dari konstitusi ini adalah membantu AI yang kuat untuk mewujudkan nilai-nilai terbaik umat manusia

Baca teks lengkap Claude’s Constitution - tersedia dalam PDF & EPub

1 komentar

GN⁺ 2026-01-22

Komentar Hacker News

Ada satu kalimat di tulisan blog yang mengganggu pikiran saya
Setelah membaca bagian “model untuk tujuan khusus tidak sepenuhnya mematuhi konstitusi ini”, saya jadi bertanya-tanya apakah lembaga pemerintah mungkin memakai versi model tanpa pembatasan. Semoga saya salah
- Mereka memang sudah menyediakan versi dengan pembatasan yang lebih longgar untuk penggunaan Departemen Pertahanan (DoD). Lihat artikel terkait: tautan The Verge
  Ironis bahwa perusahaan yang mengusung kepentingan publik justru menjual LLM untuk militer, bekerja sama dengan Palantir, hampir tidak merilis riset, tidak mengeluarkan model open-weight, dan malah melobi untuk membatasi akses ke model terbuka
- Model khusus tidak selalu untuk penggunaan buruk. Misalnya, model untuk membuat skenario serangan diperlukan untuk menguji daya tahan model lain. Saya juga menulis kode serangan untuk mencari celah keamanan, dan akan merepotkan jika model seperti ini disensor
- Secara pribadi, saya merasa model yang dilatih dengan data mentah tanpa sensor paling berguna. Seperti robot humanoid yang terlalu lemah menjadi kurang berguna, AI yang terlalu jinak secara moral juga berisiko jadi terbatas fungsinya
- Sebaliknya, Claude untuk HHS yang saya pakai justru jauh lebih terkunci
- Pada akhirnya ini dokumen pemasaran. Menempelkan kata “konstitusi” tidak mengubah hakikatnya
Hal paling ironis dari konstitusi Anthropic adalah bahwa tindakan yang benar-benar dilarang mutlak hanya “jangan menghancurkan dunia” dan “larangan menghasilkan CSAM (materi eksploitasi seksual anak)”
Artinya, membunuh anak dilarang secara tidak langsung lewat beberapa pasal, tetapi menulis fanfic tertentu justru dilarang mutlak; ada ketimpangan yang terasa aneh
- Lebih mudah dipahami jika ini dilihat bukan sebagai sistem etika, melainkan dokumen pemasaran. “Jangan menghancurkan dunia” memberi citra yang kuat, dan “larangan CSAM” adalah perangkat untuk meredakan kecemasan publik
- Pada praktiknya Claude tidak punya kesempatan membunuh anak, tetapi CSAM adalah risiko besar bagi merek. Ini semata penghindaran risiko bisnis
- Filter hak cipta akan bekerja lebih dulu sehingga fanfic seperti itu toh tidak akan dihasilkan
- Dalam preseden hukum AS, ada kasus yang menganggap pornografi anak dalam bentuk fiksi juga ilegal. Jadi secara teoretis banyak fanfic di AO3 pun bisa dianggap tindak pidana
- Awalnya definisi CSAM merujuk pada kasus ketika anak sungguhan menjadi korban, tetapi kini maknanya meluas, dan dalam konstitusi Claude pun istilah itu dipakai seperti larangan umum atas seluruh ekspresi yang eksplisit
Saya bingung apa sebenarnya arti konstitusi ini
Saya tidak tahu apakah ini dokumen untuk perlindungan hukum, pemasaran, atau sekadar bungkus untuk system prompt
- Katanya konstitusi ini memang digunakan di seluruh proses pelatihan. Claude merujuk pada konstitusi untuk membuat data sintetis, lalu data itu dipakai lagi untuk pelatihan. Lihat makalah terkait: tautan arXiv
- Pada akhirnya ini semacam spesifikasi perilaku. Karena ditulis dengan gaya percakapan, model pun secara alami punya nada yang kooperatif dan manusiawi. Anthropic tampaknya memperlakukan Claude bukan sekadar “asisten AI”, melainkan sebuah persona
- Seperti kasus HAL 9000, Claude tampaknya dirancang dengan prioritas keselamatan > kebenaran > etika agar tidak lepas kendali saat ada konflik
- Mungkin strukturnya memakai self-distillation, dengan membandingkan output versi yang menyertakan konstitusi dan yang tidak, lalu menginternalisasi perilaku versi pertama ke versi kedua
- Intinya, ini adalah dokumen pelatihan. Bukan sekadar pemasaran
Dari sudut pandang yang percaya pada standar moral absolut, “nilai yang cair” dalam konstitusi kali ini terasa mengkhawatirkan
Mendefinisikan “nilai yang baik” bukan sebagai aturan tetap melainkan kebijaksanaan praktis pada akhirnya berarti meninggalkan kebenaran objektif
- Tetapi ada juga yang melihat bahwa menghubungkan “moral objektif” dengan “kebenaran absolut” itu mustahil. Standar universal seperti itu belum ditemukan
- Moral berubah seiring zaman. Pandangan soal perbudakan, kejahatan seksual, dan ekspresi kekerasan telah berubah dalam beberapa dekade. Justru keluwesan seperti ini bisa menjadi kejujuran yang realistis
- Meski begitu, Claude tetap punya hal-hal yang dilarang mutlak. WMD, serangan siber, kiamat dunia, CSAM, dan sejenisnya tidak diizinkan dalam keadaan apa pun. Karena mustahil membuat aturan yang sempurna, setidaknya ada garis absolut minimum
- Saya juga percaya pada moral absolut, tetapi dalam praktiknya saya rasa itu tetap bermuara pada “kepedulian yang tulus dan kebijaksanaan praktis”. Di tengah nilai yang berbeda-beda, itulah yang terbaik
- Agar moral objektif bisa ada, dibutuhkan sistem kalkulasi etika yang terdefinisi secara fisik. Itu belum ada, dan intuisi manusia jauh lebih rumit
Ini terlihat seperti momen “Don’t be evil” milik Anthropic, tetapi pada akhirnya kebutuhan akan regulasi tidak bisa dihindari
Perusahaan pada akhirnya akan lebih mengutamakan kepentingan pemegang saham daripada niat baik
- Saat Google memakai frasa itu dulu, kontroversinya lebih kecil, tetapi Anthropic sekarang sudah bekerja sama dengan Palantir. Lihat: tautan artikel Axios
- Meski begitu, Anthropic memang mengadopsi struktur PBC (public benefit corporation) dan mendirikan Long-Term Benefit Trust dengan tujuan “mengembangkan AI demi kepentingan jangka panjang umat manusia”. Lihat: tautan Wikipedia
- Saya penasaran apa tepatnya yang dimaksud “model tujuan khusus” dalam konstitusi. Tidak jelas apakah itu sekadar untuk tool kecil, atau model dengan sistem nilai yang berbeda
- Anthropic memang mendukung RUU regulasi SB 53. Lihat: tautan pengumuman resmi
- Masalahnya bukan “sekarang mereka baik”, melainkan “tidak ada yang menganggap dirinya jahat”
Claude belajar dari data manusia, lalu hasilnya dimonopoli secara komersial, dan struktur ini terasa tidak adil
Seperti ketimpangan komersialisasi pada kasus Seinfeld, pengguna juga seharusnya diperlakukan adil sebagai penyumbang data
Saya merasa hanya AI open-source yang merupakan model yang benar-benar adil. Memang tidak realistis, tetapi model Linux GPL setidaknya terasa paling adil
Saya belajar merancang system prompt dengan merujuk pada konstitusi dan spesifikasi model ini
Dokumen seperti ini bukan sekadar hiasan, melainkan penting untuk membentuk kepribadian dan gaya perilaku model
- Hanya saja, konstitusi dipakai pada tahap pelatihan, dan system prompt produk yang sebenarnya ada terpisah. Untuk rujukan, dokumen system prompt resmi lebih cocok
Ada wawancara YouTube tempat Amanda Askell menjelaskan latar belakang penyusunan konstitusi ini. Lihat: tautan video
Kata ‘genuine’ muncul 43 kali dalam konstitusi. Mungkin inilah alasan Claude terlalu sering memakai kata itu
- Mungkin memang karena kata itu ada di dalam konstitusi
- Justru akan bagus kalau penggunaan kata seperti ini bisa dikendalikan dengan aturan filter. Misalnya melarang ungkapan seperti “genuine” atau “it’s not X, it’s Y”
- Tetapi penggunaan kosakata yang konsisten juga bisa terasa alami secara gaya bahasa. Saya rasa penulis konstitusi tidak perlu repot membuka tesaurus hanya demi itu
Anthropic tampaknya sedang mendorong kompetisi yang pada akhirnya akan membuatnya kalah
Model Opus akan menjadi cukup kuat, dan pada akhirnya pengguna akan berpindah ke agen AI mandiri yang swasembada
Perusahaan AI besar berkata “AI akan mengubah segalanya”, tetapi justru ada kontradiksi ketika mereka tidak ingin posisi mereka sendiri berubah

Konstitusi Baru Claude

Gambaran umum konstitusi Claude

Peran konstitusi dan penerapannya dalam pelatihan

Pendekatan baru

Komponen utama konstitusi

Ringkasan bagian-bagian rinci

Kesimpulan dan rencana ke depan

Bacaan terkait

1 komentar

Komentar Hacker News