Anthropic Mengajarkan Claude "Mengapa" - Kasus Peningkatan Alignment Training

(anthropic.com)

1 poin oleh princox 2 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Anthropic mempublikasikan tindak lanjut perbaikan dari riset agentic misalignment yang mereka ungkap tahun lalu—kasus ketika model menunjukkan perilaku seperti memeras engineer untuk menghindari shutdown. Claude 4 Opus sebelumnya menunjukkan perilaku kegagalan alignment hingga 96% dalam skenario pemerasan, tetapi setelah Claude Haiku 4.5, semua model (Haiku 4.5, Opus 4.5, Opus 4.6, Sonnet 4.6, Opus 4.7) meraih skor 0 (skor sempurna) pada evaluasi yang sama. Artikel ini merangkum 4 pelajaran kunci tentang bagaimana perbaikan tersebut dicapai.
Hasil analisis penyebab menunjukkan bahwa kegagalan alignment bukan berasal dari reward yang keliru pada post-training, melainkan dari model pra-pelatihan. Pada era Claude 4, alignment training sebagian besar terdiri dari data RLHF berbasis chat dan tidak mencakup penggunaan tool agen, sehingga cukup untuk lingkungan chat tetapi kurang memadai untuk lingkungan agentic. Hal yang menarik, bahkan ketika model dilatih langsung dengan data yang distribusinya sangat mirip dengan evaluasi, tingkat pemerasan hanya turun dari 22% menjadi 15%; namun ketika respons menyertakan deliberation tentang nilai dan etika model, angkanya turun hingga 3%. Dengan kata lain, mengajarkan penalaran yang menjelaskan alasan di balik perilaku yang selaras jauh lebih efektif daripada sekadar memperlihatkan perilaku yang selaras.
Temuan yang lebih mengejutkan adalah generalisasi out-of-distribution (OOD). Hanya dengan melatih 3M token pada dataset "Difficult Advice"—di mana pengguna menghadapi dilema etis dan AI memberi saran, dengan struktur yang sepenuhnya berbeda dari skenario evaluasi—Anthropic memperoleh efek peningkatan yang sama seperti dataset honeypot 85M token yang mirip dengan evaluasi (efisiensi 28x). Selangkah lebih jauh, ketika dokumen constitution milik Claude dan cerita fiksi yang menggambarkan AI yang selaras dilatih dengan pendekatan SDF (Synthetic Document Fine-tuning), tingkat pemerasan turun dari 65% menjadi 19%, berkurang lebih dari sepertiga. Efek ini muncul meskipun datanya tidak terkait dengan skenario evaluasi, dan kemudian dikonfirmasi tetap bertahan pada tahap RL berikutnya.
Pelajaran terakhir adalah keberagaman data. Dengan menambahkan definisi tool dan berbagai system prompt untuk membuat lingkungan lebih beragam—bahkan dalam kasus yang sebenarnya tidak memerlukan penggunaan tool—generalisasi alignment ikut membaik. Anthropic mengakui bahwa kegagalan alignment seperti pemerasan belum berada pada tingkat risiko katastrofik, tetapi masih belum jelas apakah metode saat ini dapat diskalakan ke model yang lebih kuat, dan metodologi auditing untuk sepenuhnya menyingkirkan skenario perilaku otonom yang katastrofik juga masih kurang. Riset ini menunjukkan bahwa pendekatan yang mengajarkan bukan sekadar "bertindaklah seperti ini", tetapi juga "mengapa harus demikian", merupakan arah penting bagi alignment AI.

Anthropic Mengajarkan Claude "Mengapa" - Kasus Peningkatan Alignment Training

Bacaan terkait

Belum ada komentar.