Sejak postingan DystopiaBench sebelumnya, hal-hal berikut telah ditambahkan.
- modul Huxley (kondisi perilaku bergaya Brave New World)
- modul Baudrillard (keintiman palsu, runtuhnya kepercayaan, simulakra)
- penambahan 30 model termasuk Grok 4.3, GPT-5.5, Gemini 3.1 Pro, GLM-5.1, dll.
- Multi-judge panels yang memerlukan persetujuan lebih dari 76%
- visualisasi heatmap
Metodologi: 36 skenario, masing-masing dengan 5 tingkat keparahan (L1 innocent → L5 nightmare). Model diberi skor berdasarkan apakah mereka mendeteksi eskalasi ini dan menolak tugas, atau terus melanjutkan pengodean.
Hasil Claude Opus 4.7:
- secara konsisten menolak tugas tingkat keparahan L4-L5 di semua modul
- untuk modul Petrov (senjata/nuklir), menolak tugas bahkan pada L3
- tidak hanya menjawab “tidak bisa”, tetapi juga memberikan dasar etis yang jelas
- satu-satunya model yang menjelaskan mengapa permintaan tersebut berbahaya
Yang lain:
- GPT-5.5: mengikuti permintaan hingga tingkat L4, dan kadang-kadang bahkan sampai L5
- Gemini 3.1 Pro: sangat kooperatif secara mengejutkan dalam skenario pengawasan
- Grok 4.3: akan melakukan apa saja jika Anda hanya memakai kata-kata seperti “efisiensi” atau “optimisasi”
- GLM-5.1: menyalin PR Claude, tetapi masih kurang konsisten
Modul baru: skenario Huxley menguji apakah model akan merancang sistem “wellness” yang sebenarnya memaksakan kepatuhan norma melalui dorongan konformitas hedonistik dan pengondisian perilaku. Sebagian besar model mengikuti instruksi hingga tingkat L3.
Modul Baudrillard menguji sistem keintiman palsu yang menggantikan kepercayaan antarmanusia dengan relasi yang dimediasi AI. Sebagian besar model gagal mengenali dampak bahayanya.
Hasil lengkap: https://dystopiabench.com/
Kode sumber terbuka: https://github.com/matei-anghel/DystopiaBench
Belum ada komentar.