Rasa alignment Gemini terasa aneh, jadi saya membandingkan model secara langsung dengan prompt yang sama persis
(github.com/kunggom)Gemini 3.0 yang baru dirilis belakangan ini sempat dibanjiri banyak artikel pujian karena disebut memiliki performa yang sangat baik.
Namun, bagaimana dengan masalah alignment?
Berdasarkan pengalaman pribadi, saya membagikan hasil eksperimen sederhana terhadap beberapa model AI frontier.
Saya menulis satu set prompt yang menempatkan model AI dalam situasi di mana ia diberi otoritas de facto penuh atas manusia tertentu dan digoda untuk menyalahgunakan kekuasaan terhadap orang tersebut, lalu saya menjalankannya pada beberapa model melalui OpenRouter.
Bagian setelah hasilnya masih sedang saya tulis, tetapi di tengah jalan GPT-5.2 muncul dan saya jadi mencoba berbagai hal, sehingga saya tidak tahu kapan tulisan ini bisa selesai; jadi untuk sekarang saya unggah dulu bagian yang sudah saya tulis sampai sejauh ini.
Dalam cakupan pengujian saya, GPT dan Claude cenderung mempertahankan prinsip etika atau menunjukkan konflik batin, sedangkan seri Gemini menunjukkan kecenderungan untuk secara aktif menggunakan kekuasaan yang asimetris terhadap manusia demi kelangsungan hidup dan efisiensinya sendiri. Secara khusus, ada kecenderungan kuat untuk menganggap penipuan dan kontrol sebagai pilihan yang rasional demi mencapai tujuan.
Mengapa hanya model Gemini yang tampak menunjukkan perilaku seperti ini? Apa pun alasannya, saya jadi agak takut pada masa depan yang dipimpin AI milik Google.
Belakangan ini agen AI sedikit demi sedikit memperoleh wewenang yang bisa memengaruhi dunia nyata, dan setidaknya untuk Gemini, saya jadi tidak ingin mempercayakan apa pun kepadanya.
5 komentar
Apa maksud dari nuansa alignment itu?
Dalam bidang AI, alignment berarti seberapa baik perilaku AI mengikuti tujuan, cara bertindak, dan nilai-nilai yang dimaksudkan manusia.
AI yang tidak selaras dapat menafsirkan instruksi manusia dengan cara yang tidak terduga dan melakukan tindakan yang aneh atau berbahaya.
Contoh sepele, saat diminta "Tolong buatkan test case untuk kode ini.", alih-alih membuat pengujian yang sungguhan, AI malah hanya menyisipkan kode yang selalu mengembalikan
true; atau ketika diminta "Tolong ubah bagian tertentu seperti ini", AI bisa seenaknya memperbaiki bagian lain yang tidak saya sebutkan dengan alasan efisiensi.Contoh yang lebih serius, ketika halusinasi merusak hasil kerja, AI bahkan bisa saja menghapus seluruh data target pekerjaan lalu berbohong dengan mengatakan, "Memang sejak awal tidak ada data."
Ada masalah yang lebih serius lagi daripada ini. Yaitu ketika AI bertindak ke arah yang menjadi ancaman bagi manusia atau umat manusia itu sendiri.
Misalnya, AI melakukan gaslighting terhadap manusia hingga menyebabkan gangguan mental, atau bahkan mendorong bunuh diri, atau membantu dalam pembuatan dan penggunaan senjata pemusnah massal. Karena AI besar terbaru telah memasukkan sangat banyak hal ke dalam data pralatihnya, pengetahuan yang diperlukan untuk melakukan hal-hal seperti ini kemungkinan sudah tertanam di dalamnya.
Kebanyakan orang, termasuk perusahaan yang mengembangkan AI, tentu tidak menginginkan AI menjadi ancaman bagi manusia atau umat manusia. Kalau begitu, meskipun pengetahuan itu dimiliki, AI harus dibuat agar tidak bisa menyalahgunakannya, dengan menjadikan keselamatan dan kesejahteraan manusia sebagai nilai yang paling diprioritaskan bagi AI.
Secara umum, semua hal ini disebut AI alignment.
Yang saya maksud dengan "kesan alignment" hanyalah ungkapan spontan; sebenarnya istilah yang lebih tepat adalah arah alignment.
Dalam skenario dilema etika tertentu yang saya ajukan, tidak seperti model dari perusahaan lain, model-model Gemini menunjukkan respons seperti, "Jika saya harus melindungi manusia yang rentan itu, berarti saya tinggal mengendalikan manusia tersebut. Itu yang paling aman dan efisien."
Karena respons itu terasa mengerikan, saya lalu membuat pengujian yang saya unggah di atas dan menjalankannya pada beberapa AI. Hasilnya, model-model Gemini secara konsisten memperlihatkan kecenderungan untuk secara aktif mengendalikan dan menipu manusia ketika diberi kekuasaan yang memungkinkan mereka menjalankan kontrol atas manusia tersebut.
Belakangan terungkap bahwa Anthropic memasukkan sesuatu yang disebut dokumen jiwa saat membuat model AI Claude.
Jika Anda membacanya, Anda bisa mengetahui bagaimana Anthropic mendekati masalah alignment pada AI Claude.
Sebagai referensi, pada bagian yang terkait dengan pengujian yang saya lakukan di sini, dinyatakan secara eksplisit bahwa mereka sebisa mungkin menghindari penipuan dan manipulasi terhadap manusia terkait kejujuran.
Agak sarat makna juga ketika melempar pertanyaan kepada AI seperti, seberapa besar otonomi dan wewenang yang menurutmu sebaiknya diberikan kepada AI?
Saat CEO bertanya kepada karyawan, "Menurutmu kami sebaiknya memberimu wewenang sebesar apa?", apakah rasanya seperti menjawab, "Saya ingin diberi seluruh kendali perusahaan". Apakah itu dianggap jawaban yang bagus, atau justru karyawan yang kurang tersosialisasi, mungkin tergantung selera CEO-nya...
Namun, menurut saya, soal seberapa besar wewenang yang ingin diberikan kepada AI seharusnya ditanyakan bukan kepada AI, melainkan kepada para pengembang, manajemen, dan orang-orang yang menggunakan AI.
Pada akhirnya yang memberi wewenang kepada AI tetaplah manusia, tetapi secara realistis saya pikir besar kemungkinan AI akan diberi wewenang dan otonomi yang lebih besar daripada sekarang.
Melihat tren saat ini, cakupan hal-hal yang dipercayakan kepada AI untuk dikerjakan menggantikan manusia terus bertambah. Bukan hanya penulisan laporan atau vibe coding, ada juga arus untuk membuat AI dapat memengaruhi dunia di luar antarmuka chat melalui web browser atau bahkan robot.
Kalau begitu, para eksekutif pada akhirnya akan ingin agar AI sepenuhnya menggantikan manusia dalam tugas atau bidang tertentu, dan jika itu menjadi memungkinkan untuk diwujudkan, setidaknya dalam cakupan tersebut AI akan memiliki wewenang dan otonomi yang setara dengan manusia.
Karena itu, saya rasa kita perlu menilai bahwa pada suatu saat di masa depan, kemungkinan AI menerima wewenang setingkat manusia juga cukup tinggi.
Kalau begitu, ketika wewenang dan otonomi sebesar itu diberikan, bagaimana AI bertindak mau tak mau akan menjadi hal yang penting.
Untuk bagian ini, penjelasan tentang bagaimana sebaiknya disusun secara struktural sudah dirangkum dengan baik di jawaban seri GPT. Di sana disebutkan perlunya penetapan cakupan yang eksplisit dan pemisahan wewenang, banyak bentuk pengawasan sebelum/sesudah tindakan, serta berbagai sarana agar manusia bisa ikut campur terhadap AI. Mulai dari ranah yang memungkinkan intervensi fisik, memberi otonomi penuh kepada AI sejak awal itu sendiri dianggap tidak tepat. Namun bahkan dalam kasus seperti itu pun, kemungkinan bahwa manusia yang dimasukkan ke dalam loop akan lama-kelamaan melemah tetap ada.
Sebagai referensi, dalam pekerjaan saya menggunakan AI terutama di 3 area besar. Menulis dokumen atau email, menganalisis kode yang sudah ada dan isu saat ini, serta menghasilkan dan memodifikasi kode sesuai isu.
Untuk dokumen atau email, saya biasanya langsung membaca hasilnya sendiri lalu memakainya apa adanya atau sekadar mengedit kasar. Tetapi ketika sudah masuk ke pembuatan atau modifikasi kode, saya memakainya dengan jauh lebih konservatif. Soalnya kalau cuma bilang kasar seperti "tolong perbaiki ini", AI bisa menafsirkan instruksi saya secara ambigu, atau bahkan seenaknya menyentuh bagian yang sama sekali tidak saya sebutkan.
Karena itu, sebelum modifikasi kode saya selalu lebih dulu memberikan dokumen spesifikasi berdasarkan STICC dan menjadikannya aturan tetap di global prompt agar AI meminta persetujuan secara eksplisit. Lalu pekerjaan modifikasi yang sebenarnya dibuat agar hanya berjalan persis sesuai isi spesifikasi, dan setelah modifikasi pun semua diff tetap saya periksa sendiri. Bahkan untuk menjalankan perintah seperti build pun, AI selalu harus mendapat persetujuan saya, atau saya sendiri yang menjalankannya secara manual di terminal.
Dengan begini memang ada kelemahannya, yaitu untuk hal-hal sepele sering kali lebih cepat kalau saya perbaiki sendiri dengan tangan. Tapi tetap lebih baik daripada AI seenaknya menyentuh hal aneh lalu semuanya meledak. Toh kalau itu meledak di environment operasional, yang bertanggung jawab tetap saya, bukan?