Saat AI Gagal, Keragu-raguan Bisa Lebih Berbahaya daripada Kesalahan Sistematis (Anthropic Alignment Research)
(alignment.anthropic.com)(Insight yang sangat penting dari analisis pola kegagalan nyata model penalaran terbaru per Februari 2026)
Poin utama
- Riset keselamatan AI sebelumnya: berfokus pada misalignment sistematis (secara konsisten mengejar tujuan yang keliru)
- Pola kegagalan nyata model terbaru: ketidakkonsistenan/keragu-raguan (variance / incoherence) jauh lebih menonjol → ini bisa menjadi masalah yang lebih besar
Pengamatan utama (model penalaran terbaru seperti Claude Sonnet 4, o3-mini, o4-mini)
- Tingkat kesulitan tugas ↑ & panjang penalaran ↑ → ketidakkonsistenan meningkat tajam
- Masalah mudah → model yang lebih besar lebih konsisten
- Masalah sulit → bahkan model besar hampir tidak menunjukkan perbaikan ketidakkonsistenan, atau justru memburuk
- Semakin lama model berpikir sendiri (overthinking yang alami), semakin eksplosif kenaikan incoherence
Klasifikasi jenis kegagalan
- Bias (kesalahan sistematis): selalu bergerak ke arah salah yang sama (misalignment yang khas)
- Variance (kesalahan yang tidak konsisten): untuk pertanyaan yang sama, setiap kali memberi jawaban aneh yang berbeda → tidak dapat diprediksi
- Metrik incoherence = proporsi variance di antara keseluruhan kesalahan (semakin dekat ke 1, semakin plin-plan)
Akar penyebab
- LLM bukan optimizer, melainkan dynamical system
- Strukturnya menggambar lintasan dalam ruang keadaan berdimensi tinggi → secara inheren sulit untuk mengejar tujuan secara konsisten
- Semakin besar skala, "pengenalan tujuan" meningkat cepat, tetapi kemampuan untuk "mengejar tujuan itu secara konsisten sampai akhir" membaik relatif lambat
Implikasi terhadap keselamatan AI
- Bentuk insiden AI di masa depan → kemungkinan lebih besar berupa "insiden plin-plan setingkat kecelakaan industri" daripada "pengejaran tujuan jahat"
(contoh: sedang membaca puisi Prancis lalu tiba-tiba mengalami meltdown) - Perlu perubahan prioritas riset
- Dibanding alignment tujuan yang sempurna, yang lebih mendesak adalah mengurangi bias + mencegah reward hacking + memperjelas spesifikasi tujuan
- Ketidakkonsistenan tidak menjamin keamanan (justru bisa lebih berbahaya karena tidak dapat diprediksi)
Poin kesimpulan
- Ancaman utama dari kegagalan AI sedang bergeser dari kesalahan sistematis → kesalahan yang tidak konsisten dan tercerai-berai
- Perlu mendesain ulang riset alignment dari sudut pandang dynamical system
- Keyakinan sederhana bahwa "kalau makin pintar maka akan makin aman" itu berbahaya
1 komentar
Bagaimana jika ini diselesaikan dengan membuat beberapa agen pengawas (supervisor) lalu menentukan opini audit berdasarkan konsensus. Kelompok audit yang independen dari alur kerja utama dan mengawasi seluruh CoT alur kerja utama!