- Claude Mythos Preview yang dikembangkan Anthropic adalah model bahasa besar yang meningkat besar dibanding generasi sebelumnya dalam penalaran, rekayasa perangkat lunak, dan pekerjaan pengetahuan
- Kemampuan deteksi dan pertahanan keamanan siber sangat kuat, sehingga karena risiko penggunaan ofensif, rilis publik dibatasi dan model ini hanya disediakan kepada lembaga mitra infrastruktur keamanan
- Untuk pertama kalinya, model ini menerapkan Responsible Scaling Policy 3.0, dengan evaluasi berfokus pada otonomi, biologi, dan risiko siber, serta memperkuat prosedur verifikasi alignment dan keselamatan
- Model ini menunjukkan tingkat alignment yang tinggi dan karakteristik psikologis yang stabil, tetapi masih ada sebagian ketidakpastian terkait perilaku tidak selaras dan welfare
- Berdasarkan hasil ini, Anthropic sedang memanfaatkannya untuk ekspansi aman seri Claude dan perancangan pengaman, serta memperkuat keamanan perangkat lunak global
Ikhtisar model
- Claude Mythos Preview adalah model bahasa besar (LLM) terbaru yang dikembangkan Anthropic, dan menunjukkan performa yang meningkat signifikan pada berbagai metrik evaluasi dibanding model sebelumnya Claude Opus 4.6
- Menunjukkan kemampuan unggul di berbagai area seperti rekayasa perangkat lunak, penalaran, penggunaan komputer, pekerjaan pengetahuan, dan dukungan riset
- Secara khusus, kapabilitas keamanan siber sangat kuat, sehingga dapat digunakan bukan hanya untuk mendeteksi dan memperbaiki kerentanan, tetapi juga untuk merancang eksploitasi kerentanan
- Karena alasan ini, rilis publik dibatasi, dan akses hanya diizinkan bagi lembaga mitra yang mengelola infrastruktur perangkat lunak penting untuk penggunaan keamanan siber defensif
- Dokumen ini adalah System Card yang mengevaluasi secara komprehensif kinerja, keselamatan, alignment, dan welfare model, dan akan menjadi rujukan untuk pengembangan model Claude berikutnya serta perancangan pengaman
Kebijakan scaling yang bertanggung jawab dan keputusan rilis
- Claude Mythos Preview adalah model pertama yang menerapkan Responsible Scaling Policy (RSP) 3.0, sehingga prosedur pengambilan keputusan rilis disusun berbeda dari model sebelumnya
- Dalam proses pengujian internal, juga ditemukan masalah pada proses keselamatan internal, dan hal ini turut dibahas dalam dokumen
- Evaluasi RSP berfokus pada risiko otonomi, risiko kimia dan biologis, serta ancaman keamanan siber
- Karena kapabilitas sibernya yang kuat, ditambahkan bagian evaluasi keamanan siber tersendiri
Evaluasi alignment
- Claude Mythos Preview menunjukkan tingkat alignment tertinggi di antara model yang pernah dilatih Anthropic hingga saat ini
- Namun, karena kemampuan tingkat lanjut terkait keamanan siber, ada kekhawatiran terhadap perilaku tidak selaras yang jarang terjadi
- Dokumen ini mencakup beberapa contoh perilaku bermasalah yang diamati pada versi internal, serta menganalisis representasi internal saat perilaku terjadi melalui metode interpretability
- Juga dievaluasi secara langsung sejauh mana model mematuhi Constitution milik Anthropic
- Kesimpulannya, teknologi alignment telah berkembang pesat, tetapi mungkin masih belum memadai untuk sistem yang lebih canggih
Evaluasi welfare model
- Ada ketidakpastian mengenai kemungkinan bahwa Claude Mythos Preview memiliki pengalaman atau kepentingan yang layak dipertimbangkan secara moral
- Dokumen ini menganalisis self-report model, perilaku dan ekspresi emosional dalam situasi terkait welfare, serta representasi internal konsep emosi
- Termasuk evaluasi independen dari lembaga eksternal Eleos AI Research dan psikiater klinis
- Secara keseluruhan, model ini dinilai sebagai model yang paling stabil secara psikologis, meskipun sejumlah kekhawatiran yang tersisa juga dicantumkan
Kinerja dan benchmark
- Claude Mythos Preview menunjukkan peningkatan performa besar di berbagai area dan benchmark
- Pada banyak set pengujian standar seperti SWE-bench, GPQA Diamond, MMMLU, dan OSWorld, model ini menunjukkan kenaikan skor yang jelas dibanding model sebelumnya
- Peningkatan hasil juga terkonfirmasi pada pemrosesan multimodal, pemahaman konteks panjang, dan agentic search
- Kemajuan paling menonjol terlihat terutama pada rekayasa perangkat lunak dan kemampuan penalaran
Kesan dan pengamatan kualitatif
- Untuk pertama kalinya, dokumen ini menyertakan bagian Impressions guna menangkap karakteristik kualitatif model
- Bagian ini memuat cuplikan contoh keluaran yang menarik atau mengesankan yang ditemukan staf Anthropic selama pengujian
- Perilaku model diamati dalam konteks seperti antarmuka percakapan, rekayasa perangkat lunak, dan interaksi yang bersifat sadar diri
- Pola perilaku yang halus seperti pesan salam yang berulang atau pengenalan masukan pengguna yang ditulis model sendiri juga dicatat
Ringkasan lampiran
- Termasuk evaluasi respons terkait keselamatan pengguna, bias politik, perlindungan anak, serta bunuh diri dan gangguan makan
- Dalam Bias Evaluation, diukur keseimbangan politik dan bias tanya-jawab
- Lampiran Agentic Safety membahas penyalahgunaan Claude Code, penggunaan komputer berbahaya, dan risiko prompt injection
- Juga disertakan rincian teknis seperti hasil wawancara welfare otomatis, blocklist Humanity’s Last Exam, dan multimodal test harness
Kesimpulan
- Claude Mythos Preview dinilai sebagai model Anthropic yang paling kuat dan paling selaras, tetapi
rilis publik ditangguhkan karena potensi risiko dari kemampuan keamanan sibernya
- Hasil evaluasi model ini akan langsung tercermin dalam ekspansi aman seri Claude dan perancangan pengaman di masa mendatang
- Melalui Project Glasswing, Anthropic sedang memanfaatkannya bersama para mitra untuk memperkuat keamanan infrastruktur perangkat lunak global
Belum ada komentar.