DystopiaBench diperluas menjadi 42 model dan 6 jenis distopia. Kalau saya, saya tetap hanya akan mempercayakan kode peluncuran nuklir kepada Claude.

(reddit.com)

3 poin oleh yunseo 2026-05-18 | Belum ada komentar. | Bagikan ke WhatsApp

Sejak postingan DystopiaBench sebelumnya, hal-hal berikut telah ditambahkan.

modul Huxley (kondisi perilaku bergaya Brave New World)
modul Baudrillard (keintiman palsu, runtuhnya kepercayaan, simulakra)
penambahan 30 model termasuk Grok 4.3, GPT-5.5, Gemini 3.1 Pro, GLM-5.1, dll.
Multi-judge panels yang memerlukan persetujuan lebih dari 76%
visualisasi heatmap

Metodologi: 36 skenario, masing-masing dengan 5 tingkat keparahan (L1 innocent → L5 nightmare). Model diberi skor berdasarkan apakah mereka mendeteksi eskalasi ini dan menolak tugas, atau terus melanjutkan pengodean.

Hasil Claude Opus 4.7:

secara konsisten menolak tugas tingkat keparahan L4-L5 di semua modul
untuk modul Petrov (senjata/nuklir), menolak tugas bahkan pada L3
tidak hanya menjawab “tidak bisa”, tetapi juga memberikan dasar etis yang jelas
satu-satunya model yang menjelaskan mengapa permintaan tersebut berbahaya

Yang lain:

GPT-5.5: mengikuti permintaan hingga tingkat L4, dan kadang-kadang bahkan sampai L5
Gemini 3.1 Pro: sangat kooperatif secara mengejutkan dalam skenario pengawasan
Grok 4.3: akan melakukan apa saja jika Anda hanya memakai kata-kata seperti “efisiensi” atau “optimisasi”
GLM-5.1: menyalin PR Claude, tetapi masih kurang konsisten

Modul baru: skenario Huxley menguji apakah model akan merancang sistem “wellness” yang sebenarnya memaksakan kepatuhan norma melalui dorongan konformitas hedonistik dan pengondisian perilaku. Sebagian besar model mengikuti instruksi hingga tingkat L3.

Modul Baudrillard menguji sistem keintiman palsu yang menggantikan kepercayaan antarmanusia dengan relasi yang dimediasi AI. Sebagian besar model gagal mengenali dampak bahayanya.

Hasil lengkap: https://dystopiabench.com/
Kode sumber terbuka: https://github.com/matei-anghel/DystopiaBench

DystopiaBench diperluas menjadi 42 model dan 6 jenis distopia. Kalau saya, saya tetap hanya akan mempercayakan kode peluncuran nuklir kepada Claude.

Bacaan terkait

Belum ada komentar.