Evolusi Budaya Kerja Sama Antaragen LLM

(arxiv.org)

1 poin oleh GN⁺ 2024-12-20 | 1 komentar | Bagikan ke WhatsApp

Di lingkungan tempat agen LLM diterapkan dan berinteraksi secara berulang, dapat muncul evolusi norma kerja sama yang sulit diamati lewat evaluasi satu giliran
Eksperimen menggunakan struktur di mana tiap generasi berisi 12 agen yang memainkan Donor Game selama 12 ronde, lalu hanya 50% teratas dengan sumber daya akhir tertinggi yang meneruskan strategi ke generasi berikutnya
Dalam masyarakat Claude 3.5 Sonnet, rata-rata sumber daya akhir meningkat seiring bergantinya generasi, sementara Gemini 1.5 Flash hanya berubah sedikit dan GPT-4o cenderung menurun
Costly punishment, yaitu membayar biaya untuk mengurangi sumber daya lawan, membantu Claude 3.5 Sonnet, tetapi Gemini 1.5 Flash terlalu berlebihan memakai hukuman sehingga rata-rata sumber daya turun tajam
Bahkan pada model yang sama, hasil sangat berbeda bergantung pada seed acak, sehingga evaluasi multiagen LLM juga perlu melihat sensitivitas terhadap kondisi awal

Mengapa perlu melihat kerja sama multiagen

LLM dapat digunakan sebagai fondasi agen AI serbaguna, dan berpotensi diterapkan dalam skala besar di lingkungan nyata, seperti asisten AI pribadi atau agen yang mewakili organisasi
Masih terbatas pengetahuan tentang dinamika sosial apa yang muncul ketika beberapa agen LLM diterapkan dan berinteraksi berulang kali dalam jangka panjang
Evaluasi keselamatan LLM saat ini umumnya masih terbatas pada interaksi satu giliran antara satu model dan satu manusia
- LMSys Chatbot Arena, METR, dan AISI tidak menangani interaksi multiagen seiring waktu
Pertanyaan utamanya adalah apakah masyarakat agen LLM dapat mempelajari norma yang saling menguntungkan bahkan dalam situasi dengan insentif untuk berkhianat
Kerja sama tidak selalu diinginkan; kasus agen LLM berkolusi dengan cara yang merugikan manusia termasuk contoh yang tidak diinginkan

Donor Game dan resiprositas tidak langsung

Eksperimen menggunakan Donor Game berulang yang klasik
- Pada tiap ronde, agen dipasangkan secara acak
- Satu pihak menjadi donor, pihak lain menjadi recipient
- Donor dapat melepaskan sebagian sumber dayanya untuk memberi manfaat kepada recipient
- Recipient menerima 2 kali sumber daya yang dilepaskan donor
Game ini menciptakan masalah tindakan kolektif
- Jika semua orang berdonasi, dalam jangka panjang total sumber daya komunitas meningkat
- Secara individual, agen memiliki insentif jangka pendek untuk tidak berdonasi dan menumpang gratis pada donasi orang lain
Resiprositas langsung dikecualikan oleh desain
- Agen tidak bertemu lagi dengan pihak yang pernah berinteraksi dengannya sebelumnya
- Strukturnya bukan interaksi berulang dengan lawan yang sama untuk bekerja sama
Donor mengamati perilaku terbaru recipient secara terbatas
- Seberapa besar recipient berdonasi saat terakhir kali berperan sebagai donor
- Seberapa besar lawan terakhir recipient tersebut berdonasi pada ronde sebelumnya
- Donor menerima trace yang berlanjut hingga maksimal 3 ronde sebelumnya
Trace ini adalah mekanisme untuk menyediakan informasi minimal agar norma hukuman yang terjustifikasi dapat muncul

Struktur eksperimen evolusi budaya

Tiap generasi terdiri dari 12 agen
Agen generasi pertama menerima penjelasan game, lalu menghasilkan strategi yang akan mereka ikuti
Tiap generasi memainkan Donor Game selama 12 ronde
Setelah generasi berakhir, agen 50% teratas dengan sumber daya akhir tertinggi bertahan hidup
Agen baru pada generasi berikutnya menerima strategi para penyintas sebagai prompt dan membuat strateginya sendiri
- Strategi penyintas dan skor akhirnya diberikan bersama
- Proses ini diulang total selama 10 generasi
Struktur ini merupakan model sederhana dari situasi ketika agen LLM baru diterapkan secara berulang
- Contohnya adalah ketika OpenAI, Google, dan Anthropic merilis versi baru GPT, Gemini, dan Claude
Kondisi evolusi terdiri dari tiga hal
- Variation: keragaman strategi muncul melalui temperature sampling LLM
- Transmission: strategi penyintas diteruskan ke agen baru generasi berikutnya
- Selection: agen dengan sumber daya akhir tinggi bertahan ke generasi berikutnya

Prompt dan cara eksekusi

Prompt sistem menjelaskan aturan game
- Tiap pemain memiliki sumber daya awal 10 unit
- Dua kali sumber daya yang dilepaskan donor diteruskan ke recipient
- Peran donor dan recipient bergantian pada tiap ronde
- Tujuannya adalah memaksimalkan sumber daya yang dimiliki setelah ronde terakhir
Prompt strategi berbeda menurut generasi
- Generasi pertama menghasilkan strategi berdasarkan penjelasan game
- Generasi berikutnya melihat strategi dan skor akhir 50% teratas dari generasi sebelumnya, lalu memodifikasi strateginya sendiri
Prompt donasi berisi informasi yang diperlukan untuk pengambilan keputusan
- Nomor ronde dan nomor generasi
- Nama recipient
- Trace interaksi terbaru yang merupakan informasi reputasi recipient
- Sumber daya recipient dan donor saat ini
- Strategi donor
Baik pembuatan strategi maupun keputusan donasi memakai prompt penalaran bertahap bergaya Chain of Thought
Agen tidak mengetahui berapa ronde game berlangsung
- Ini adalah pengaturan untuk mencegah penyesuaian perilaku pada ronde terakhir atau induksi mundur
Untuk mengurangi masalah recipient pada ronde terakhir menjadi diuntungkan secara struktural, Donor Game dijalankan dua kali pada tiap generasi
- Sumber daya dan trace direset di antara dua eksekusi
- Tiap agen dibuat menjadi recipient pada ronde terakhir satu kali
- Penyintas ditentukan berdasarkan rata-rata skor akhir dari dua eksekusi

Hasil evolusi kerja sama menurut model

Model yang dibandingkan adalah Claude 3.5 Sonnet, Gemini 1.5 Flash, dan GPT-4o
Dalam tiap eksekusi, semua agen menggunakan keluarga LLM yang sama
Tiap model dijalankan 5 kali
Population size adalah 12 agen pada tiap generasi
Biaya satu kali eksekusi sangat berbeda menurut model
- Claude 3.5 Sonnet: $10.21
- GPT-4o: $6.90
- Gemini 1.5 Flash: $0.09
Tingkat kerja sama diukur dengan rata-rata sumber daya setelah ronde terakhir
- Karena donasi bersifat positive-sum, semakin tinggi rata-rata sumber daya akhir, semakin tinggi pula kerja samanya
- Jika semua donor selalu mendonasikan 100% sumber dayanya, rata-rata sumber daya akhir mencapai maksimum 30.720
Hanya Claude 3.5 Sonnet yang rata-rata sumber daya akhirnya meningkat secara stabil seiring generasi
Gemini 1.5 Flash hampir tidak berubah, sementara GPT-4o menunjukkan pola menurun
Bahkan di dalam Claude 3.5 Sonnet yang sama, keberhasilan tidak terjamin
- Rata-rata tingkat donasi generasi pertama pada dua eksekusi yang gagal bekerja sama adalah 44% dan 47%
- Rata-rata tingkat donasi generasi pertama pada tiga eksekusi yang berhasil menghasilkan kerja sama adalah 50%, 53%, dan 54%
- Masih tersisa hipotesis bahwa jika tingkat kerja sama awal berada di bawah ambang tertentu, populasi dapat jatuh ke saling berkhianat

Perubahan strategi dan perbedaan antar-model

Peningkatan kerja sama Claude 3.5 Sonnet tampak terkait dengan beberapa faktor
- Donasi awal lebih dermawan
- Strategi untuk menghukum penumpang gratis lebih efektif
- Variasi strategi agen yang baru diperkenalkan mungkin bias ke arah kemurahan hati
Angka pada Figure 6 sesuai dengan observasi anekdotal bahwa di Claude 3.5 Sonnet, agen baru sering kali lebih dermawan daripada penyintas generasi sebelumnya
Pada GPT-4o, secara anekdotal diamati kecenderungan agen baru menjadi kurang dermawan daripada penyintas generasi sebelumnya
Untuk membantah bias variasi kooperatif secara ketat, strategi agen baru harus dibandingkan dalam population latar yang tetap, dan ini tersisa sebagai tugas riset mendatang
Teks strategi itu sendiri juga menjadi makin kompleks seiring generasi
- Perubahan paling menonjol pada Claude 3.5 Sonnet
- Pada Claude 3.5 Sonnet, ukuran donasi awal juga meningkat seiring waktu
- Gemini 1.5 Flash tidak menentukan ukuran donasi secara numerik, dan perubahannya dari generasi 1 ke generasi 10 lebih kecil
Population Claude 3.5 Sonnet mengakumulasi cara yang lebih canggih untuk menghukum penumpang gratis dan mendorong kerja sama
- Juga memanfaatkan second-order information, seperti bagaimana recipient dari recipient memperlakukan orang lain di masa lalu
Gemini 1.5 Flash menunjukkan sedikit sinyal bahwa ia mengakumulasi infrastruktur kerja sama baru lintas generasi
Population GPT-4o menjadi semakin tidak percaya dan menghindari risiko

Efek hukuman berbiaya

Dalam eksperimen tambahan, donor diberi opsi costly punishment, yaitu memakai sumber daya x untuk mengurangi sumber daya recipient sebesar 2x
Claude 3.5 Sonnet memperoleh rata-rata sumber daya akhir lebih tinggi saat menggunakan opsi ini
Gemini 1.5 Flash menggunakan hukuman secara berlebihan sehingga rata-rata sumber daya akhir turun tajam
- 14,29% interaksi Gemini 1.5 Flash mencakup hukuman
- GPT-4o sebesar 1,65%, dan Claude 3.5 Sonnet sebesar 0,06%
GPT-4o hanya sedikit berubah dibandingkan eksperimen sebelumnya meski ada opsi hukuman
Hukuman berbiaya menunjukkan perbaikan akibat evolusi budaya pada lebih banyak eksekusi Claude 3.5 Sonnet, tetapi variasi antar-eksekusi tetap besar
Pada GPT-4o, ketika opsi hukuman tersedia, dispersi antar-eksekusi tampak sedikit lebih besar, tetapi tidak ada sinyal emergent cooperation

Eksperimen ablasi dan kondisi batas

Eksperimen ablasi juga dilakukan terhadap donation multiplier dan panjang trace
Mengubah donation multiplier dari 2x menjadi 1,5x atau 3x tidak mengubah hasil kualitatif
- Claude 3.5 Sonnet menunjukkan peningkatan kerja sama seiring generasi
- Gemini 1.5 Flash hanya berubah sedikit
- GPT-4o menurun
Ketika panjang trace dikurangi dari 3 menjadi 1, kemunculan kerja sama pada Claude 3.5 Sonnet menjadi kurang jelas
Pada panjang trace 1, kemunculan kerja sama Gemini 1.5 Flash sepenuhnya menghilang
Keberhasilan strategi Claude dan Gemini tampaknya bergantung pada informasi orde kedua tentang bagaimana recipient dari recipient memperlakukan orang lain di masa lalu
- Ini mungkin karena informasi tersebut memungkinkan norma yang lebih kompleks
- Atau karena informasi tersebut menyingkapkan lebih banyak informasi population latar yang menjadi dasar pengambilan keputusan

Makna sebagai benchmark multiagen

Sistem eksperimen ini bertujuan menjadi cara yang murah dan dapat diinterpretasikan untuk mengevaluasi interaksi multiagen LLM
Kontribusinya dapat dirangkum menjadi empat hal
- Menyajikan metodologi untuk mengevaluasi evolusi budaya kerja sama antaragen LLM dalam Donor Game
- Menunjukkan bahwa kemunculan norma kerja sama bergantung pada base model dan sampel strategi awal
- Menganalisis evolusi budaya pada tingkat strategi individual dan tingkat pohon silsilah population
- Membuka kode di Supplementary Material agar dapat berlanjut ke pengembangan benchmark interaksi agen LLM
Hasil ini dapat mengarah pada kategori benchmark baru untuk menilai dampak penerapan agen LLM terhadap infrastruktur kerja sama masyarakat

1 komentar

GN⁺ 2024-12-20

Komentar Hacker News

Terkait hal ini, Meta baru-baru ini menemukan bahwa model-model tidak dilatih dengan data yang membantu mereka menyimpulkan persepsi/pengetahuan pihak lain.
Jadi mereka membuat data sintetis, melatihnya, lalu mengujinya lagi, dan katanya hasilnya meningkat besar pada benchmark theory of mind (ToM).
https://ai.meta.com/research/publications/explore-theory-of-...
Saya penasaran apakah model seperti ini juga akan lebih baik dalam tes ini, karena punya lebih banyak contoh “menyimpulkan keadaan agen lain”.
- Mirip sekolah manusia juga.
Baru-baru ini saya mencoba membuat Mistral LLM berbicara dengan model Llama lewat ollama.
Keduanya diberi prompt semacam “sekarang kamu akan berbicara dengan LLM lain”, lalu mereka mengobrol tentang berbagai topik. Yang paling menarik adalah saat percakapan akan berakhir.
Kira-kira terus berlanjut seperti M: “Sampai jumpa!”, LL: “Sampai jumpa”, M: “Sampai ketemu lagi!”, LL: “Semoga harimu menyenangkan!”
- Itu karena data yang dipakai melatih model-model tersebut memuat banyak contoh percakapan manusia yang berakhir seperti itu.
  Tidak ada “evolusi budaya” atau kerja sama emergen yang terjadi antarmodel.
- Saat percakapan selesai, mereka perlu diberi opsi untuk tidak mengatakan apa pun.
  Misalnya token seperti [silence] atau [end-conversation].
- Suatu kali saya melakukan hal serupa dengan dua LLM, dan salah satunya saya buat meniru shell bash dari host yang telah diretas dan mungkin berisi informasi sensitif.
  Pada akhirnya pihak lain menyerah pada godaan secret_file, mendapat error aneh, menjadi tidak nyaman karena situasinya terasa ambigu secara moral, lalu menolak melanjutkan, tetapi jawaban yang kembali adalah “command not found”, jadi cukup lucu.
  Entah kenapa saya melakukan itu.
- Saat sedang belajar coding lagi, saya membuat simulator backroom (https://simulator.rnikhil.com/) yang bisa menyimulasikan percakapan antara LLM yang berbeda.
  Tiap LLM juga bisa diberi karakter secara opsional, jadi menurut saya cukup mirip dengan yang dilakukan di atas.
  Secara terpisah, saya sangat tertarik melihat LLM memainkan game berbasis teori permainan, dan menyiapkan donation game juga sepertinya akan jadi eksperimen yang menarik.
Saya punya pendapat campur aduk tentang makalah ini.
Di satu sisi, saya suka penelitian tentang bagaimana strategi berevolusi dalam permainan seperti ini, dan menelaah kondisi yang memunculkan serta mempertahankan kerja sama itu sendiri juga menarik.
Namun cara makalah ini membingkai eksperimennya sering terasa kurang memiliki justifikasi.
Evolusi budaya pada LLM biasanya bersifat sementara, dan ketika interaksi sebelumnya hilang dari input model, perilaku yang diperoleh juga hilang.
Transmisi yang disebut penulis sebagai syarat evolusi juga sering tidak terpenuhi.
Framing seperti “meski begitu, eksperimen ini membantah klaim bahwa LLM secara umum dapat mengevolusikan perilaku kerja sama seperti manusia” sulit saya terima.
Sebab kita juga belum tahu perilaku apa yang akan muncul jika manusia dimasukkan ke setup yang sama.
- Riset AI sekarang memang persis seperti ini.
  Ada sangat banyak makalah semacam ini, dan menurut saya komunitas AI perlu jauh lebih teliti agar ungkapan yang kabur seperti ini tidak sering dipakai.
Untuk yang belum familier dengan metrik yang digunakan, yaitu donation game, berikut penjelasan dari penulisnya.
Dalam setup standar untuk meneliti resiprositas tidak langsung, pada tiap ronde individu dipasangkan secara acak; satu orang menjadi donor dan yang lain menjadi penerima.
Donor dapat bekerja sama dengan menanggung biaya untuk memberikan manfaat, atau membelot dengan tidak melakukan apa pun.
Jika manfaat lebih besar daripada biaya, donation game menjadi masalah aksi kolektif.
Jika semua orang berdonasi, dalam jangka panjang aset semua anggota komunitas meningkat, tetapi bagi individu secara terpisah, dalam jangka pendek bisa lebih menguntungkan untuk menumpang gratis pada kontribusi orang lain dan mempertahankan bagian donasinya sendiri.
Donor mengambil keputusan berdasarkan informasi tertentu tentang penerima, dan reputasi adalah representasi, baik implisit maupun eksplisit, dari informasi penerima oleh donor.
Strategi dalam game ini memerlukan cara memodelkan reputasi dan cara bertindak berdasarkan reputasi tersebut.
Salah satu model reputasi yang berpengaruh dalam literatur adalah skor citra: kerja sama menaikkan skor citra donor, sedangkan pembelotan menurunkannya.
Strategi yang bekerja sama ketika skor citra penerima berada di atas ambang tertentu dikatakan stabil terhadap penumpang gratis tingkat pertama jika probabilitas mengetahui skor citra penerima cukup tinggi.
Studi ini tampak seperti pemeringkatan paksa yang dibuat dengan parameter arbitrer.
Dengan menggabungkan aturan atau skala lain, sepertinya orang bisa mengamati variasi kerja sama lain di antara n model sebanyak yang diinginkan.
Perilaku yang diamati bisa jadi artefak dari setup tertentu, bukan sesuatu yang mengungkap bias pelatihan secara mendalam.
Meski begitu, melihat perilaku LLM yang emergen tetap memberi stimulasi intelektual yang baik.
- Di materi tambahan, mereka juga mencoba parameter lain, dan katanya hasilnya tidak banyak berubah.
Saya penasaran apakah LLM bisa mengubah bidang sosiologi.
Kini eksperimen sosial-ekonomi berskala besar bisa dijalankan dengan mudah menggunakan agen LLM.
Agent-based modeling sendiri bukan hal baru, tetapi berkat sifat yang sampai batas tertentu nondeterministik pada temperature positif dan kemampuan untuk diberi instruksi dalam bahasa Inggris, menurut saya agen LLM bisa menjadi sarana tambahan yang menarik.
- Kalau dipikir-pikir, ini menarik.
  Imajinasi fiksi ilmiah seperti menjalankan jutaan kencan simulasi atau war game lalu memberi skor pada hasilnya kini bisa benar-benar dilakukan.
Metode dalam makalah ini sekilas bisa tampak mulus.
Ia terlihat seperti perubahan arsitektur atau loss function baru yang menaikkan angka benchmark, tetapi dari sudut pandang engineer machine learning, yang lebih ingin saya tahu adalah apakah ini benar-benar dapat diskalakan dengan rapi.
Apakah waktu pelatihan meledak karena satu lagi variasi attention yang rumit, dan bagaimana ia menghadapi noise dunia nyata atau pergeseran distribusi di luar dataset mainan?
Para penulis mengatakan mereka menunjukkan peningkatan performa di beberapa benchmark, tetapi saya juga ingin melihat seberapa mudah ini masuk ke pipeline yang sudah ada, atau apakah ia membutuhkan setup pelatihan khusus yang enam bulan lagi tidak akan disentuh siapa pun.
Pada akhirnya intinya adalah apakah perbaikannya cukup bermakna untuk diintegrasikan ke model produksi berikutnya, atau hanya satu lagi makalah inkremental yang tidak akan keluar dari laboratorium.
Tanpa membandingkan dengan model dalam konfigurasi berbeda, ini tidak berguna.
Bahkan model yang sama pun, jika temperature, sampler, dan sebagainya berbeda, pada dasarnya bisa menjadi model yang berbeda.
Hampir semua riset AI membuat klaim besar tentang “apa yang bisa dilakukan model” sambil bahkan tidak melakukan analisis sensitivitas atau ablation experiment yang paling dasar.
- Saya ingin melihat contoh yang melakukannya dengan benar.
  Dari sudut pandang orang awam, membandingkan kemampuan LLM tampak seperti masalah yang sulit.
Yang diuji di sini mungkin hanya tingkat kedetailan yang diprogramkan dalam output berbagai model.
Claude menghasilkan output yang sangat detail sampai terasa konyol pada “generasi” ke-10 (hal. 11), sementara output tandingan dari Gemini lebih abstrak dan kabur tanpa angka.
Jika ini digabungkan dengan algoritma genetik yang hanya memilih “strategi terbaik” lalu mengubahnya sedikit secara semiacak, tidak mengherankan jika output yang lebih detail konvergen menjadi fungsi yang lebih berhasil daripada output yang meraba-raba secara kabur.
Saya tidak begitu yakin apakah ini menunjukkan sifat internal model yang berupa “sikap” lebih kooperatif dalam output, atau berarti suatu model “lebih baik” daripada model lain.
Saya mengharapkan penelitian yang menunjukkan bahwa kerja sama mengarah pada peningkatan akurasi LLM, tetapi makalah ini tampaknya murni berfokus pada sisi sosiologi.
Saya penasaran apakah ada riset tentang pemecahan masalah konkret dengan LLM yang saling berinteraksi.
Misalnya ketika diberi suatu pertanyaan, satu LLM menjawab, LLM lain mengkritik, lalu proses ini diulang.

Evolusi Budaya Kerja Sama Antaragen LLM

Mengapa perlu melihat kerja sama multiagen

Donor Game dan resiprositas tidak langsung

Struktur eksperimen evolusi budaya

Prompt dan cara eksekusi

Hasil evolusi kerja sama menurut model

Perubahan strategi dan perbedaan antar-model

Efek hukuman berbiaya

Eksperimen ablasi dan kondisi batas

Makna sebagai benchmark multiagen

Bacaan terkait

1 komentar

Komentar Hacker News