Evolusi Budaya Kolaborasi antar Agen LLM
(arxiv.org)Perubahan kebijakan privasi arXiv
- Kebijakan privasi arXiv telah berubah. Dengan terus menggunakan arxiv.org, Anda dianggap menyetujui kebijakan ini.
Evolusi budaya kolaborasi
- Latar belakang penelitian: Model bahasa besar (LLM) umumnya menyediakan fondasi penting untuk membangun agen AI yang cakap. Agen-agen ini dapat mewakili kepentingan individu maupun kelompok.
- Tujuan penelitian: Memahami dinamika interaksi ketika beberapa agen LLM ditempatkan secara berulang. Secara khusus, penelitian ini menyelidiki apakah agen dapat mempelajari norma sosial yang saling menguntungkan.
- Metode penelitian: Interaksi tidak langsung antar agen LLM diteliti melalui permainan Donor yang berulang. Dalam permainan ini, agen dapat mengamati tindakan terbaru rekan mereka.
- Hasil penelitian:
- Agen Claude 3.5 Sonnet mencatat skor rata-rata lebih tinggi dibanding Gemini 1.5 Flash dan GPT-4o.
- Claude 3.5 Sonnet dapat memperoleh skor lebih tinggi dengan memanfaatkan mekanisme hukuman tambahan.
- Beragam perilaku diamati, menunjukkan ketergantungan yang sensitif terhadap kondisi awal.
- Makna penelitian: Penelitian ini dapat mengusulkan tolok ukur baru untuk menilai dampak penerapan agen LLM terhadap infrastruktur kolaboratif dalam masyarakat.
Informasi makalah
- Jumlah halaman: 15 halaman, termasuk 6 gambar
- Topik: Sistem multiagen, kecerdasan buatan
- Sitasi: arXiv:2412.10270 [cs.MA]
- Pengusul: Edward Hughes
Informasi lainnya
- Cara akses: Makalah dapat diakses dalam berbagai format seperti PDF, HTML, dan sumber TeX
- Referensi dan alat sitasi: Berbagai alat tersedia, termasuk NASA ADS, Google Scholar, dan Semantic Scholar
- Makalah dan data terkait: Tersedia makalah dan data terkait, serta demo media
Penelitian ini menunjukkan kemungkinan untuk memahami perilaku kolaboratif agen LLM dan, melalui hal itu, berkontribusi pada perkembangan kerja sama sosial.
1 komentar
Opini Hacker News
Meta menemukan kekurangan data pelatihan untuk persepsi dan pengetahuan model, lalu melatih ulang menggunakan data sintetis untuk memperbaikinya, dan hasilnya performa pada benchmark Theory of Mind (TOM) meningkat signifikan
Mencoba percakapan antara Mistral LLM dan model Llama menggunakan ollama, dan menarik melihat kedua model berbicara tentang topik acak. Interaksi di akhir percakapan terasa sangat mengesankan
Memiliki perasaan campur aduk terhadap makalah penelitian ini, dan menganggap kerangka eksperimennya kurang tepat karena evolusi budaya pada LLM bisa jadi hanya bersifat sementara. Sulit menerima klaim ini karena kita juga tidak tahu bagaimana manusia akan bertindak dalam situasi yang sama
Penjelasan tentang Donor Game: individu yang dipasangkan secara acak dibagi menjadi donor dan penerima, lalu donor dapat memberikan manfaat atau tidak melakukan apa pun. Reputasi donor memainkan peran penting, dan strategi bekerja sama menjadi stabil ketika skor reputasi berada di atas ambang tertentu
Penelitian ini tampak seperti memaksakan peringkat dengan parameter yang arbitrer, dan perilaku yang diamati mungkin merupakan hasil dari pengaturan tertentu. Namun, tetap menarik melihat perilaku baru pada LLM
Metode dalam makalah ini mungkin terlihat menarik pada awalnya, tetapi ada keraguan apakah ini benar-benar bisa diskalakan. Variasi attention yang kompleks dapat menambah waktu pelatihan, dan informasi tentang performa pada data nyata masih kurang. Ada pertanyaan apakah metode ini benar-benar berguna secara praktis
Ada diskusi tentang apakah LLM dapat membawa perubahan di bidang sosiologi, dan eksperimen sosial-ekonomi berskala besar bisa dijalankan dengan mudah melalui agen LLM. Sifat non-deterministik agen LLM dan kemampuan mereka menerima instruksi dalam bahasa Inggris bisa menjadi elemen tambahan yang menarik
Tampaknya tingkat detail output model sedang diuji, dan output yang rinci cenderung mengarah pada fungsi yang lebih berhasil. Namun, masih belum yakin apakah ini benar-benar menunjukkan karakteristik internal model
Mengharapkan penelitian bahwa kerja sama menghasilkan keluaran LLM yang lebih akurat, tetapi penelitian ini hanya berfokus pada aspek sosiologis. Menjadi penasaran apakah ada penelitian tentang pemecahan masalah konkret melalui interaksi antar-LLM
Upaya untuk memodelkan rollout pembaruan LLM tampak seperti sensasionalisme yang tidak perlu karena tidak mirip dengan deployment nyata. Namun, makalahnya sendiri tetap menarik