1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Evaluasi antropomorfisasi dalam riset LLM menyoroti masalah bahwa ketika keluaran model diberi atau diasumsikan memiliki sifat seperti manusia, interpretasinya dapat bergantung pada cara representasinya tanpa tolok ukur pengukuran yang jelas
  • Kasus implementasi dan pelatihan jaringan saraf sederhana di dalam Age of Empires II menjadi dasar bahwa dengan substrat yang cukup kuat, entitas yang setara dengan LLM dapat diimplementasikan
  • Ada argumen bahwa beberapa sifat seperti korespondensi antara prompt dan keluaran dapat dipertahankan, tetapi interpretasi atas perilaku yang dipersepsikan atau kualitas de-antropomorfisasi dapat berubah bergantung pada substrat
  • Jika eksperimen berangkat dari asumsi adanya atau tidak adanya sifat antropomorfik yang tergeneralisasi, kesimpulannya menjadi sirkular atau minim informasi
  • Untuk diskusi empiris diperlukan tolok ukur pengukuran yang eksplisit serta pernyataan tentang apa yang digeneralisasikan antar-substrat, dengan pendekatan bawaan berupa asumsi non-kekhasan LLM

Abstrak

  • Ada banyak riset tentang LLM dan alur kerja agen berbasis LLM, tetapi sebagian penelitian menyatakan kemunculan sifat antropomorfik yang tergeneralisasi seperti moralitas atau pemahaman bahasa alami, atau memberikan maupun mengasumsikan sifat-sifat tersebut
  • Tujuan utamanya bukan memperdebatkan pro atau kontra apakah sifat-sifat itu benar-benar ada pada LLM, melainkan menunjukkan bahwa kesimpulan seperti itu bisa keliru
  • Dengan membuat dan melatih jaringan saraf sederhana di Age of Empires II, penulis menunjukkan bahwa entitas apa pun pada substrat yang cukup kuat seperti LEGO atau Greater Boston Area pun dapat menampilkan sifat-sifat seperti itu
  • Sifat antropomorfik pada LLM tidak unik secara empiris; beberapa sifat seperti respons terhadap prompt bisa tetap konsisten, tetapi sifat lain seperti interpretasi atas perilaku yang dipersepsikan dapat berubah tergantung substrat
  • Diskusi yang berbasis pengalaman memerlukan tolok ukur pengukuran yang eksplisit; jika tidak, interpretasi diserahkan pada bentuk representasi
  • Jika seseorang mengasumsikan ada atau tidak adanya sifat tergeneralisasi yang independen dari substrat, kesimpulannya akan menjadi sirkular atau minim informasi terlepas dari sudut pandang peneliti
  • Asumsi dasar yang diajukan adalah asumsi ‘null’ yang mengandaikan non-kekhasan LLM, alih-alih membangun eksperimen dengan mengandaikan sifat antropomorfik sejak awal
  • Dibuktikan bahwa Age of Empires II lengkap secara fungsional dan Turing-complete

Pendahuluan

  • LLM adalah teknologi yang relatif baru, tetapi sudah digunakan secara luas dan pada saat yang sama belum cukup dipahami
  • Kemampuan LLM dan atribut yang tampak manusiawi seperti kemampuan berkomunikasi menjadi faktor yang mendorong orang untuk mengantropomorfisasi LLM
  • Sistem percakapan meyakinkan seperti ELIZA telah ada selama lebih dari setengah abad, tetapi chatbot berbasis LLM adalah entitas dengan kemampuan yang belum pernah ada sebelumnya dan memerlukan penjelasan dari titik awal yang akrab
  • Dalam latar seperti ini, evaluasi dilakukan di wilayah seperti theory of mind, pembelajaran dan pemahaman, serta psikologi, dengan hasil yang beragam
  • Sebagian penelitian menguji dan menyematkan sifat mirip manusia yang luas seperti kecemasan atau moralitas pada LLM, serta menempatkan LLM sebagai objek pusat eksperimen
  • Baik hasil evaluasinya positif maupun negatif, asumsi inti bahwa LLM memiliki sifat antropomorfik memengaruhi perancangan set uji, interpretasi keluaran bahasa alami, hingga hipotesis nol
  • Asumsi semacam itu secara langsung memengaruhi kesimpulan dan dapat mendistorsinya
  • Dalam riset LLM, pendekatan yang mengasumsikan ada atau tidak adanya sifat antropomorfik umum sebagai bagian dari pengukuran adalah pendekatan yang secara mendasar cacat
Iklan

Age of Empires II dan non-kekhasan substrat

  • Membangun dan melatih jaringan saraf di dalam Age of Empires II mungkin tampak seperti latihan menarik yang tidak terkait dengan antropomorfisasi LLM
  • Namun implementasi ini segera menyiratkan bahwa pada substrat yang cukup kuat, entitas yang setara dengan LLM dapat diimplementasikan, dan implementasi semacam itu dapat mengubah representasi LLM sehingga memengaruhi sifat yang dipersepsikan
  • Jika LLM cukup efektif dalam meniru sifat antropomorfik sampai tingkat tertentu, maka peniruan itu atau, tergantung sudut pandang, perilaku antropomorfik yang nyata bukanlah sesuatu yang khas hanya bagi entitas LLM yang ada di dalam komputer
  • LLM tidak bersifat unik; implementasi pada substrat lain dapat mempertahankan beberapa sifat seperti pemetaan prompt-ke-keluaran, tetapi mungkin tidak mempertahankan kualitas de-antropomorfisasi
  • Akibatnya, persepsi dan interpretasi terhadap kualitas semacam itu juga akan berubah
  • Diskusi yang didasarkan pada pengamatan empiris memerlukan tolok ukur pengukuran yang eksplisit dan pernyataan eksplisit tentang aspek mana yang harus dapat digeneralisasikan melampaui substrat

Masalah asumsi dan asumsi ‘null’

  • Jika seorang ilmuwan menerima kerangka seperti teori pikiran komputasional sebagai posisi interpretatif dan memandang bahwa sifat tersebut dapat ada pada sistem terlepas dari substratnya, maka kesimpulannya menjadi tidak sehat
  • Jika kerangka semacam itu diterima lalu digunakan untuk membuat klaim tergeneralisasi atau tidak tergeneralisasi tentang sifat antropomorfik, kesimpulannya menjadi sirkular atau minim informasi
  • Hasil yang sama berlaku bahkan jika kerangka tersebut ditolak
  • Untuk menguji hipotesis yang bertujuan membuktikan atau membantah adanya atau tidak adanya sifat antropomorfik yang tergeneralisasi, pendekatan yang lebih dulu mengasumsikan adanya atau tidak adanya sifat itu adalah cacat
  • Kesimpulan positif maupun negatif dari eksperimen semacam itu tidak dapat mendukung klaim tersebut
  • Masalah ini independen dari validitas kerangka, penerimaan atau penolakannya, maupun pilihan kerangka itu sendiri
  • Asumsi seperti itu mungkin tidak dinyatakan secara eksplisit; misalnya, makalah yang menyatakan bahwa LLM tidak mampu secara faktual “menjelaskan dirinya sendiri” sudah mengasumsikan tingkat tertentu dari kesadaran diri
  • Jika seseorang tidak membuat asumsi semacam ini dan tidak mengklaim generalisasi, maka sifat tersebut dapat diukur secara kurang lebih jujur
  • Asumsi ‘null’ mencerminkan non-kekhasan LLM dengan tidak membuat pernyataan apa pun tentang ada atau tidak adanya sifat antropomorfik di dalam sistem

1.1 Kontribusi

  • Tujuannya bukan membahas ada tidaknya sifat antropomorfik di dalam LLM, validitas theory of mind, maupun implikasi kesadaran atau persoalan hubungan pikiran-tubuh terkait AI
  • Pembahasan tentang ada tidaknya sifat antropomorfik memerlukan pengukuran yang terdefinisi dengan baik, sementara untuk kesadaran atau persoalan pikiran-tubuh tidak ada protokol eksperimen atau mazhab yang diterima luas
  • Menyediakan LLM berbasis Age of Empires II yang benar-benar berfungsi juga berada di luar cakupan
  • Tujuan utamanya adalah mendorong diskusi tentang asumsi dan ketepatan hasil yang berkaitan dengan antropomorfisasi LLM
  • Secara khusus, fokus utamanya adalah hasil eksperimen yang dijadikan dasar bagi kesimpulan semacam itu ketika hasil tersebut muncul dari asumsi tentang ada atau tidak adanya sifat tersebut
  • Juga disertakan kemungkinan sanggahan dan tanggapan, meta-ulasan kecil atas bidang yang berkaitan dengan antropomorfisasi, serta pembuktian kelengkapan fungsional dan Turing-completeness Age of Empires II
  • Tujuan akhirnya adalah memberi petunjuk untuk merancang eksperimen yang ketat guna mendukung atau menyangkal secara meyakinkan keberadaan sifat antropomorfik pada LLM, apa pun pandangan yang diambil tentang hubungan antara pikiran dan mesin

1 komentar

 
GN⁺ 4 jam lalu
Pendapat Lobste.rs
  • Mungkin ini terdengar bodoh, tapi saya benar-benar tidak paham argumennya. Klaim dasarnya cukup sepele dan, seperti diakui juga dalam FAQ, intinya adalah bahwa di lingkungan komputasi yang Turing-complete, LLM bisa diimplementasikan di mana saja, termasuk lewat mekanisme bawaan video game
    Tetapi dari situ lalu diklaim bahwa kita perlu perubahan besar dalam cara memikirkan LLM. Misalnya, kalau kita menyalin LLM ke dalam AoE II, memasukkan "aku kesepian", lalu ia menjawab, "sayang sekali, bagaimana kalau coba bertemu teman? Kedekatan bisa membantu dalam situasi seperti ini", itu tetap sulit meyakinkan saya bahwa AoE II-LLM tersebut tahu apa yang membantu, benar-benar punya empati, atau bahwa keluarannya dapat dipercaya terlepas dari sifatnya sebagai simulasi
    Mungkin ini bias saya sebagai orang yang terbiasa dengan rekayasa perangkat lunak dan perangkat keras, tapi saya sama sekali tidak merasakan ada pergeseran kognitif di sini. “Kartu video di data center menghasilkan token ini” dan “mesin Turing di dalam video game yang menghasilkannya” tidak terasa berbeda bagi saya
    Saya 100% setuju bahwa sulit menempatkan LLM dalam model dunia kita, dan bahwa kita cenderung terlalu mengantropomorfisasi LLM, tetapi saya tidak melihat kontribusi makalah ini dalam membantu menyelesaikan masalah itu

    • Ini terdengar seperti versi kemasan ulang dari argumen Chinese Room milik Searle, dan argumen itu selalu terasa tidak nyaman secara filosofis bagi saya. Makalahnya tampaknya juga hanya menyinggung ini secara singkat
      Rasanya mereka membuat kesalahan yang sama. Mereka menunjukkan bahwa sistem seperti orang di dalam Chinese Room atau game engine “hanya” mengikuti aturan, lalu menyimpulkan bahwa karena itu kita tidak bisa mengatribusikan kecerdasan atau sifat-sifat manusia umum kepadanya
      Tetapi menurut saya, mereduksi sesuatu menjadi komponen tanpa kecerdasan atau sekadar aturan tidak serta-merta menjadi argumen bahwa keseluruhannya secara ajaib kehilangan sifat-sifat yang dapat diamati
      Tapi saya juga belum membaca seluruh argumen makalahnya, jadi saya ini cuma komentator internet biasa
  • Sayangnya, tulisannya tidak membahas AI AOE2 yang sebenarnya. AI AOE2 berbasis CLIPS, yaitu sistem pakar s-expression di atas mesin RETE, dan seorang kenalan saya cukup mendalami ini sampai membuat tulisan pengantar, kuliah, bahkan server chat deklaratif
    Dokumentasi AI AOE2 ada di https://www.scribd.com/document/348253/CPSB dan https://userpatch.aiscripters.net/reference.html. Contohnya berbentuk penetapan kondisi strategi dan tujuan secara berbasis aturan, seperti di sini

    • CLIPS juga digunakan oleh tim Magic the Gathering: Arena untuk membangun sebagian besar mesin aturan yang menjalankan Magic digital
  • Ada salah ketik di abstraknya yang mengubah makna. Seharusnya “Age of Empires II in”, bukan “Age of Empires II on
    Makalah itu membuat dan melatih jaringan saraf di dalam AoE 2, lalu berargumen bahwa Lego maupun Boston juga bisa menjadi substrat bagi jaringan saraf. Contoh terkait untuk yang pertama adalah Wang tiling, dan untuk yang kedua adalah billiard-ball computers. Ini juga pernah diimplementasikan dalam makalah 2011 menggunakan kawanan kepiting tentara M. guinotae hidup, sampai dijuluki “crab computers”

  • Hari ini saya baru tahu bahwa AOEII itu Turing-complete

    • Turing-complete punya ambang yang sangat rendah
    • Sering kali, begitu sedikit kompleksitas ditambahkan ke suatu sistem, menjadi sangat sulit untuk tetap berada di bawah ambang Turing-complete. Tulisan bagus dari Gwern ada di sini
  • Ini sebenarnya bisa jadi tulisan blog yang menarik, tapi malah jadi makalah penuh gaya yang sulit dibaca, kemungkinan didanai pajak, dan tidak membantu siapa pun

    • Untungnya tidak ada informasi pendanaan di makalah itu, jadi kalau melihat urutan afiliasi penulis, hampir pasti Microsoft yang membiayai semuanya
  • Saya membaca paragraf ini, lalu menyesal tidak mengikuti firasat awal saya bahwa ini sepertinya memang tidak layak dibaca
    Saya punya latar belakang filsafat psikologi dan dari kutipan-kutipan di bab 2 saya sudah bisa menebak kira-kira argumen seperti apa yang akan dibawa makalah ini. Tetapi setelah membacanya sampai habis, saya tetap sama sekali tidak mengerti sebenarnya makalah ini sedang mengajukan argumen apa