Jika LLM Memiliki Sifat Seperti Manusia, Maka Age of Empires II Juga Demikian

(arxiv.org)

1 poin oleh GN⁺ 2026-06-07 | 1 komentar | Bagikan ke WhatsApp

Evaluasi antropomorfisasi dalam riset LLM menyoroti masalah bahwa ketika keluaran model diberi atau diasumsikan memiliki sifat seperti manusia, interpretasinya dapat bergantung pada cara representasinya tanpa tolok ukur pengukuran yang jelas
Kasus implementasi dan pelatihan jaringan saraf sederhana di dalam Age of Empires II menjadi dasar bahwa dengan substrat yang cukup kuat, entitas yang setara dengan LLM dapat diimplementasikan
Ada argumen bahwa beberapa sifat seperti korespondensi antara prompt dan keluaran dapat dipertahankan, tetapi interpretasi atas perilaku yang dipersepsikan atau kualitas de-antropomorfisasi dapat berubah bergantung pada substrat
Jika eksperimen berangkat dari asumsi adanya atau tidak adanya sifat antropomorfik yang tergeneralisasi, kesimpulannya menjadi sirkular atau minim informasi
Untuk diskusi empiris diperlukan tolok ukur pengukuran yang eksplisit serta pernyataan tentang apa yang digeneralisasikan antar-substrat, dengan pendekatan bawaan berupa asumsi non-kekhasan LLM

Abstrak

Ada banyak riset tentang LLM dan alur kerja agen berbasis LLM, tetapi sebagian penelitian menyatakan kemunculan sifat antropomorfik yang tergeneralisasi seperti moralitas atau pemahaman bahasa alami, atau memberikan maupun mengasumsikan sifat-sifat tersebut
Tujuan utamanya bukan memperdebatkan pro atau kontra apakah sifat-sifat itu benar-benar ada pada LLM, melainkan menunjukkan bahwa kesimpulan seperti itu bisa keliru
Dengan membuat dan melatih jaringan saraf sederhana di Age of Empires II, penulis menunjukkan bahwa entitas apa pun pada substrat yang cukup kuat seperti LEGO atau Greater Boston Area pun dapat menampilkan sifat-sifat seperti itu
Sifat antropomorfik pada LLM tidak unik secara empiris; beberapa sifat seperti respons terhadap prompt bisa tetap konsisten, tetapi sifat lain seperti interpretasi atas perilaku yang dipersepsikan dapat berubah tergantung substrat
Diskusi yang berbasis pengalaman memerlukan tolok ukur pengukuran yang eksplisit; jika tidak, interpretasi diserahkan pada bentuk representasi
Jika seseorang mengasumsikan ada atau tidak adanya sifat tergeneralisasi yang independen dari substrat, kesimpulannya akan menjadi sirkular atau minim informasi terlepas dari sudut pandang peneliti
Asumsi dasar yang diajukan adalah asumsi ‘null’ yang mengandaikan non-kekhasan LLM, alih-alih membangun eksperimen dengan mengandaikan sifat antropomorfik sejak awal
Dibuktikan bahwa Age of Empires II lengkap secara fungsional dan Turing-complete

Pendahuluan

LLM adalah teknologi yang relatif baru, tetapi sudah digunakan secara luas dan pada saat yang sama belum cukup dipahami
Kemampuan LLM dan atribut yang tampak manusiawi seperti kemampuan berkomunikasi menjadi faktor yang mendorong orang untuk mengantropomorfisasi LLM
Sistem percakapan meyakinkan seperti ELIZA telah ada selama lebih dari setengah abad, tetapi chatbot berbasis LLM adalah entitas dengan kemampuan yang belum pernah ada sebelumnya dan memerlukan penjelasan dari titik awal yang akrab
Dalam latar seperti ini, evaluasi dilakukan di wilayah seperti theory of mind, pembelajaran dan pemahaman, serta psikologi, dengan hasil yang beragam
Sebagian penelitian menguji dan menyematkan sifat mirip manusia yang luas seperti kecemasan atau moralitas pada LLM, serta menempatkan LLM sebagai objek pusat eksperimen
Baik hasil evaluasinya positif maupun negatif, asumsi inti bahwa LLM memiliki sifat antropomorfik memengaruhi perancangan set uji, interpretasi keluaran bahasa alami, hingga hipotesis nol
Asumsi semacam itu secara langsung memengaruhi kesimpulan dan dapat mendistorsinya
Dalam riset LLM, pendekatan yang mengasumsikan ada atau tidak adanya sifat antropomorfik umum sebagai bagian dari pengukuran adalah pendekatan yang secara mendasar cacat

Age of Empires II dan non-kekhasan substrat

Membangun dan melatih jaringan saraf di dalam Age of Empires II mungkin tampak seperti latihan menarik yang tidak terkait dengan antropomorfisasi LLM
Namun implementasi ini segera menyiratkan bahwa pada substrat yang cukup kuat, entitas yang setara dengan LLM dapat diimplementasikan, dan implementasi semacam itu dapat mengubah representasi LLM sehingga memengaruhi sifat yang dipersepsikan
Jika LLM cukup efektif dalam meniru sifat antropomorfik sampai tingkat tertentu, maka peniruan itu atau, tergantung sudut pandang, perilaku antropomorfik yang nyata bukanlah sesuatu yang khas hanya bagi entitas LLM yang ada di dalam komputer
LLM tidak bersifat unik; implementasi pada substrat lain dapat mempertahankan beberapa sifat seperti pemetaan prompt-ke-keluaran, tetapi mungkin tidak mempertahankan kualitas de-antropomorfisasi
Akibatnya, persepsi dan interpretasi terhadap kualitas semacam itu juga akan berubah
Diskusi yang didasarkan pada pengamatan empiris memerlukan tolok ukur pengukuran yang eksplisit dan pernyataan eksplisit tentang aspek mana yang harus dapat digeneralisasikan melampaui substrat

Masalah asumsi dan asumsi ‘null’

Jika seorang ilmuwan menerima kerangka seperti teori pikiran komputasional sebagai posisi interpretatif dan memandang bahwa sifat tersebut dapat ada pada sistem terlepas dari substratnya, maka kesimpulannya menjadi tidak sehat
Jika kerangka semacam itu diterima lalu digunakan untuk membuat klaim tergeneralisasi atau tidak tergeneralisasi tentang sifat antropomorfik, kesimpulannya menjadi sirkular atau minim informasi
Hasil yang sama berlaku bahkan jika kerangka tersebut ditolak
Untuk menguji hipotesis yang bertujuan membuktikan atau membantah adanya atau tidak adanya sifat antropomorfik yang tergeneralisasi, pendekatan yang lebih dulu mengasumsikan adanya atau tidak adanya sifat itu adalah cacat
Kesimpulan positif maupun negatif dari eksperimen semacam itu tidak dapat mendukung klaim tersebut
Masalah ini independen dari validitas kerangka, penerimaan atau penolakannya, maupun pilihan kerangka itu sendiri
Asumsi seperti itu mungkin tidak dinyatakan secara eksplisit; misalnya, makalah yang menyatakan bahwa LLM tidak mampu secara faktual “menjelaskan dirinya sendiri” sudah mengasumsikan tingkat tertentu dari kesadaran diri
Jika seseorang tidak membuat asumsi semacam ini dan tidak mengklaim generalisasi, maka sifat tersebut dapat diukur secara kurang lebih jujur
Asumsi ‘null’ mencerminkan non-kekhasan LLM dengan tidak membuat pernyataan apa pun tentang ada atau tidak adanya sifat antropomorfik di dalam sistem

1.1 Kontribusi

Tujuannya bukan membahas ada tidaknya sifat antropomorfik di dalam LLM, validitas theory of mind, maupun implikasi kesadaran atau persoalan hubungan pikiran-tubuh terkait AI
Pembahasan tentang ada tidaknya sifat antropomorfik memerlukan pengukuran yang terdefinisi dengan baik, sementara untuk kesadaran atau persoalan pikiran-tubuh tidak ada protokol eksperimen atau mazhab yang diterima luas
Menyediakan LLM berbasis Age of Empires II yang benar-benar berfungsi juga berada di luar cakupan
Tujuan utamanya adalah mendorong diskusi tentang asumsi dan ketepatan hasil yang berkaitan dengan antropomorfisasi LLM
Secara khusus, fokus utamanya adalah hasil eksperimen yang dijadikan dasar bagi kesimpulan semacam itu ketika hasil tersebut muncul dari asumsi tentang ada atau tidak adanya sifat tersebut
Juga disertakan kemungkinan sanggahan dan tanggapan, meta-ulasan kecil atas bidang yang berkaitan dengan antropomorfisasi, serta pembuktian kelengkapan fungsional dan Turing-completeness Age of Empires II
Tujuan akhirnya adalah memberi petunjuk untuk merancang eksperimen yang ketat guna mendukung atau menyangkal secara meyakinkan keberadaan sifat antropomorfik pada LLM, apa pun pandangan yang diambil tentang hubungan antara pikiran dan mesin

1 komentar

GN⁺ 2026-06-07

Pendapat Lobste.rs

Mungkin ini terdengar bodoh, tapi saya benar-benar tidak paham argumennya. Klaim dasarnya cukup sepele dan, seperti diakui juga dalam FAQ, intinya adalah bahwa di lingkungan komputasi yang Turing-complete, LLM bisa diimplementasikan di mana saja, termasuk lewat mekanisme bawaan video game
Tetapi dari situ lalu diklaim bahwa kita perlu perubahan besar dalam cara memikirkan LLM. Misalnya, kalau kita menyalin LLM ke dalam AoE II, memasukkan "aku kesepian", lalu ia menjawab, "sayang sekali, bagaimana kalau coba bertemu teman? Kedekatan bisa membantu dalam situasi seperti ini", itu tetap sulit meyakinkan saya bahwa AoE II-LLM tersebut tahu apa yang membantu, benar-benar punya empati, atau bahwa keluarannya dapat dipercaya terlepas dari sifatnya sebagai simulasi
Mungkin ini bias saya sebagai orang yang terbiasa dengan rekayasa perangkat lunak dan perangkat keras, tapi saya sama sekali tidak merasakan ada pergeseran kognitif di sini. “Kartu video di data center menghasilkan token ini” dan “mesin Turing di dalam video game yang menghasilkannya” tidak terasa berbeda bagi saya
Saya 100% setuju bahwa sulit menempatkan LLM dalam model dunia kita, dan bahwa kita cenderung terlalu mengantropomorfisasi LLM, tetapi saya tidak melihat kontribusi makalah ini dalam membantu menyelesaikan masalah itu
- Ini terdengar seperti versi kemasan ulang dari argumen Chinese Room milik Searle, dan argumen itu selalu terasa tidak nyaman secara filosofis bagi saya. Makalahnya tampaknya juga hanya menyinggung ini secara singkat
  Rasanya mereka membuat kesalahan yang sama. Mereka menunjukkan bahwa sistem seperti orang di dalam Chinese Room atau game engine “hanya” mengikuti aturan, lalu menyimpulkan bahwa karena itu kita tidak bisa mengatribusikan kecerdasan atau sifat-sifat manusia umum kepadanya
  Tetapi menurut saya, mereduksi sesuatu menjadi komponen tanpa kecerdasan atau sekadar aturan tidak serta-merta menjadi argumen bahwa keseluruhannya secara ajaib kehilangan sifat-sifat yang dapat diamati
  Tapi saya juga belum membaca seluruh argumen makalahnya, jadi saya ini cuma komentator internet biasa
Sayangnya, tulisannya tidak membahas AI AOE2 yang sebenarnya. AI AOE2 berbasis CLIPS, yaitu sistem pakar s-expression di atas mesin RETE, dan seorang kenalan saya cukup mendalami ini sampai membuat tulisan pengantar, kuliah, bahkan server chat deklaratif
Dokumentasi AI AOE2 ada di https://www.scribd.com/document/348253/CPSB dan https://userpatch.aiscripters.net/reference.html. Contohnya berbentuk penetapan kondisi strategi dan tujuan secara berbasis aturan, seperti di sini
- CLIPS juga digunakan oleh tim Magic the Gathering: Arena untuk membangun sebagian besar mesin aturan yang menjalankan Magic digital
Ada salah ketik di abstraknya yang mengubah makna. Seharusnya “Age of Empires II in”, bukan “Age of Empires II on”
Makalah itu membuat dan melatih jaringan saraf di dalam AoE 2, lalu berargumen bahwa Lego maupun Boston juga bisa menjadi substrat bagi jaringan saraf. Contoh terkait untuk yang pertama adalah Wang tiling, dan untuk yang kedua adalah billiard-ball computers. Ini juga pernah diimplementasikan dalam makalah 2011 menggunakan kawanan kepiting tentara M. guinotae hidup, sampai dijuluki “crab computers”
Hari ini saya baru tahu bahwa AOEII itu Turing-complete
- Turing-complete punya ambang yang sangat rendah
- Sering kali, begitu sedikit kompleksitas ditambahkan ke suatu sistem, menjadi sangat sulit untuk tetap berada di bawah ambang Turing-complete. Tulisan bagus dari Gwern ada di sini
Ini sebenarnya bisa jadi tulisan blog yang menarik, tapi malah jadi makalah penuh gaya yang sulit dibaca, kemungkinan didanai pajak, dan tidak membantu siapa pun
- Untungnya tidak ada informasi pendanaan di makalah itu, jadi kalau melihat urutan afiliasi penulis, hampir pasti Microsoft yang membiayai semuanya
Saya membaca paragraf ini, lalu menyesal tidak mengikuti firasat awal saya bahwa ini sepertinya memang tidak layak dibaca
Saya punya latar belakang filsafat psikologi dan dari kutipan-kutipan di bab 2 saya sudah bisa menebak kira-kira argumen seperti apa yang akan dibawa makalah ini. Tetapi setelah membacanya sampai habis, saya tetap sama sekali tidak mengerti sebenarnya makalah ini sedang mengajukan argumen apa

Jika LLM Memiliki Sifat Seperti Manusia, Maka Age of Empires II Juga Demikian

Abstrak

Pendahuluan

Age of Empires II dan non-kekhasan substrat

Masalah asumsi dan asumsi ‘null’

1.1 Kontribusi

Bacaan terkait

1 komentar

Pendapat Lobste.rs