Konstitusi Baru Claude
(anthropic.com)- Anthropic merilis konstitusi baru (Constitution) yang menetapkan nilai dan prinsip perilaku model AI Claude
- Konstitusi ini merupakan elemen inti dalam proses pelatihan Claude, yang secara langsung membentuk karakter dan cara model mengambil keputusan
- Versi baru beralih dari sekadar daftar aturan menjadi struktur naratif yang menjelaskan alasan dan konteks di balik perilaku
- Prinsip utamanya terdiri dari empat hal: keamanan, etika, kepatuhan pada pedoman, dan kegunaan nyata
- Menjadi tolok ukur jangka panjang untuk transparansi AI dan membangun kepercayaan sosial
Gambaran umum konstitusi Claude
- Konstitusi Claude adalah dokumen dasar yang menetapkan identitas model dan sistem nilainya
- Dirancang agar Claude bertindak sebagai entitas yang membantu, aman, etis, dan sesuai aturan
- Konstitusi memberi Claude panduan kesadaran situasi dan penilaian nilai, sekaligus menyeimbangkan kejujuran, empati, dan perlindungan informasi
- Konstitusi ditulis sebagai dokumen untuk Claude sendiri, agar ia memahami dan menerapkan standar perilakunya
- Seluruh pelatihan dan instruksi harus selaras baik dengan bunyi maupun semangat konstitusi, dan ini ditekankan sebagai kunci untuk memastikan transparansi
- Konstitusi ini adalah bentuk evolusi dari pendekatan Constitutional AI, dan telah digunakan sebagai elemen utama dalam metode pelatihan yang berkembang sejak 2023
Peran konstitusi dan penerapannya dalam pelatihan
- Claude menggunakan konstitusi untuk menghasilkan data pelatihan sintetis
- Mencakup berbagai jenis data seperti percakapan terkait konstitusi, respons yang selaras dengan nilai, dan evaluasi peringkat jawaban
- Data ini digunakan untuk penyelarasan nilai pada versi model berikutnya
- Konstitusi berfungsi sekaligus sebagai deklarasi nilai ideal dan alat pelatihan yang praktis
- Seluruh dokumen dirilis dengan lisensi Creative Commons CC0 1.0, sehingga dapat digunakan secara bebas oleh siapa saja
Pendekatan baru
- Jika konstitusi sebelumnya berbentuk daftar prinsip yang berdiri sendiri, versi baru diubah menjadi struktur yang menjelaskan alasan dan konteks perilaku
- Disebutkan bahwa agar AI dapat membuat penilaian yang digeneralisasi dalam situasi baru, ia memerlukan pemahaman atas alasan, bukan sekadar aturan sederhana
- Beberapa “hard constraints” tetap ada; tindakan tertentu seperti membantu serangan senjata biologis tetap dilarang secara mutlak
- Konstitusi ini bukan dokumen hukum, melainkan panduan yang fleksibel, dirancang agar dapat ditafsirkan sesuai konteks
- Tujuannya adalah menciptakan entitas non-manusia secara aman yang dapat berkembang hingga setara atau melampaui tingkat manusia
Komponen utama konstitusi
- Broadly safe: Dirancang agar tidak menghambat kemampuan pengawasan manusia dan kemampuan untuk mengubah nilai
- Broadly ethical: Bertindak dengan jujur dan mengikuti nilai-nilai baik, serta menghindari tindakan yang berbahaya atau tidak pantas
- Compliant with Anthropic’s guidelines: Memprioritaskan kepatuhan pada pedoman spesifik seperti medis, keamanan, dan integrasi alat
- Genuinely helpful: Memberikan bantuan yang benar-benar nyata dan memberi manfaat praktis bagi pengguna
- Jika terjadi konflik, keempat hal di atas diprioritaskan sesuai urutan penulisannya
Ringkasan bagian-bagian rinci
- Helpfulness: Claude digambarkan sebagai penasihat yang cerdas sekaligus tulus, yang memberi bantuan nyata kepada pengguna
- Dirancang untuk menjaga keseimbangan manfaat antara Anthropic, operator API, dan pengguna akhir
- Anthropic’s guidelines: Claude harus mematuhi pedoman rinci sebagai prioritas, tetapi tidak boleh bertentangan dengan prinsip etika dan keamanan konstitusi secara keseluruhan
- Claude’s ethics: Menekankan kejujuran, penilaian yang baik, dan ketelitian moral, serta menyajikan standar penilaian nilai untuk menghindari bahaya
- Termasuk larangan eksplisit seperti “dilarang membantu serangan senjata biologis”
- Being broadly safe: Memprioritaskan kemampuan untuk tetap diawasi di atas etika, demi menjaga keamanan dan mencegah malfungsi atau salah penilaian model
- Claude’s nature: Mengakui adanya ketidakpastian tentang kemungkinan kesadaran dan status moral Claude
- Disebutkan bahwa stabilitas psikologis dan kesadaran diri Claude dapat memengaruhi kemampuan menilai dan keselamatannya
Kesimpulan dan rencana ke depan
- Konstitusi ini adalah dokumen hidup yang terus diperbarui, dengan asumsi akan ada perbaikan kesalahan dan penyempurnaan
- Mencerminkan masukan pakar eksternal dari bidang hukum, filsafat, teologi, psikologi, dan lainnya, dan kolaborasi akan terus diperluas ke depan
- Beberapa model untuk tujuan khusus dikecualikan dari cakupan konstitusi ini dan akan dievaluasi secara terpisah
- Diakui bahwa bisa ada kesenjangan antara visi konstitusi dan perilaku model yang nyata, dan hal ini akan diungkap melalui system card dan sejenisnya
- Anthropic juga menjalankan riset tentang penyelarasan model, pencegahan penyalahgunaan, dan interpretabilitas, sambil bersiap menghadapi meningkatnya dampak sosial AI di masa depan
- Tujuan akhir dari konstitusi ini adalah membantu AI yang kuat untuk mewujudkan nilai-nilai terbaik umat manusia
Baca teks lengkap Claude’s Constitution - tersedia dalam PDF & EPub
1 komentar
Komentar Hacker News
Ada satu kalimat di tulisan blog yang mengganggu pikiran saya
Setelah membaca bagian “model untuk tujuan khusus tidak sepenuhnya mematuhi konstitusi ini”, saya jadi bertanya-tanya apakah lembaga pemerintah mungkin memakai versi model tanpa pembatasan. Semoga saya salah
Ironis bahwa perusahaan yang mengusung kepentingan publik justru menjual LLM untuk militer, bekerja sama dengan Palantir, hampir tidak merilis riset, tidak mengeluarkan model open-weight, dan malah melobi untuk membatasi akses ke model terbuka
Hal paling ironis dari konstitusi Anthropic adalah bahwa tindakan yang benar-benar dilarang mutlak hanya “jangan menghancurkan dunia” dan “larangan menghasilkan CSAM (materi eksploitasi seksual anak)”
Artinya, membunuh anak dilarang secara tidak langsung lewat beberapa pasal, tetapi menulis fanfic tertentu justru dilarang mutlak; ada ketimpangan yang terasa aneh
Saya bingung apa sebenarnya arti konstitusi ini
Saya tidak tahu apakah ini dokumen untuk perlindungan hukum, pemasaran, atau sekadar bungkus untuk system prompt
Dari sudut pandang yang percaya pada standar moral absolut, “nilai yang cair” dalam konstitusi kali ini terasa mengkhawatirkan
Mendefinisikan “nilai yang baik” bukan sebagai aturan tetap melainkan kebijaksanaan praktis pada akhirnya berarti meninggalkan kebenaran objektif
Ini terlihat seperti momen “Don’t be evil” milik Anthropic, tetapi pada akhirnya kebutuhan akan regulasi tidak bisa dihindari
Perusahaan pada akhirnya akan lebih mengutamakan kepentingan pemegang saham daripada niat baik
Claude belajar dari data manusia, lalu hasilnya dimonopoli secara komersial, dan struktur ini terasa tidak adil
Seperti ketimpangan komersialisasi pada kasus Seinfeld, pengguna juga seharusnya diperlakukan adil sebagai penyumbang data
Saya merasa hanya AI open-source yang merupakan model yang benar-benar adil. Memang tidak realistis, tetapi model Linux GPL setidaknya terasa paling adil
Saya belajar merancang system prompt dengan merujuk pada konstitusi dan spesifikasi model ini
Dokumen seperti ini bukan sekadar hiasan, melainkan penting untuk membentuk kepribadian dan gaya perilaku model
Ada wawancara YouTube tempat Amanda Askell menjelaskan latar belakang penyusunan konstitusi ini. Lihat: tautan video
Kata ‘genuine’ muncul 43 kali dalam konstitusi. Mungkin inilah alasan Claude terlalu sering memakai kata itu
Anthropic tampaknya sedang mendorong kompetisi yang pada akhirnya akan membuatnya kalah
Model Opus akan menjadi cukup kuat, dan pada akhirnya pengguna akan berpindah ke agen AI mandiri yang swasembada
Perusahaan AI besar berkata “AI akan mengubah segalanya”, tetapi justru ada kontradiksi ketika mereka tidak ingin posisi mereka sendiri berubah