Performa LLM Tetap Bisa Diskalakan Hanya dengan Menambah Jumlah Agen

(arxiv.org)

2 poin oleh GN⁺ 2024-04-08 | 1 komentar | Bagikan ke WhatsApp

Akurasi LLM cenderung goyah pada tugas yang kompleks, dan riset ini memverifikasi apakah performa bisa ditingkatkan hanya dengan sampling-voting tanpa struktur tambahan
Agent Forest adalah metode ensemble sederhana yang menjalankan kueri yang sama berkali-kali, mengumpulkan jawabannya, lalu memilih jawaban akhir lewat voting mayoritas
Pada GSM8K, dengan ukuran ensemble 15, Llama2-13B mencapai akurasi yang sebanding dengan Llama2-70B, dan Llama2-70B serta GPT-3.5-Turbo juga mendekati model pembanding yang lebih kuat
Metode ini dapat dikombinasikan secara independen dengan metode berbasis CoT maupun framework kolaborasi multi-agen, sehingga bisa memberi peningkatan performa tambahan di atas teknik yang sudah ada
Besarnya peningkatan terlihat terutama pada tugas yang sulit dan model yang lebih lemah, sehingga ada ruang untuk meningkatkan rasio biaya terhadap performa tanpa desain prompt yang rumit

Akurasi LLM yang goyah pada tugas kompleks

LLM menunjukkan kemampuan kuat di berbagai aplikasi seperti generasi bahasa, pemahaman, dan penalaran, tetapi sulit menghasilkan jawaban yang akurat pada tugas yang kompleks
Riset peningkatan performa yang ada selama ini secara umum memanfaatkan metode ensemble dan framework kolaborasi multi-agen LLM
- LLM-Debate menyusun beberapa agen LLM agar mendiskusikan jawaban akhir untuk tugas aritmetika, sehingga meningkatkan performa penalaran dibanding agen tunggal
- CoT-SC menghasilkan beberapa rantai pemikiran (thought chain) lalu memilih jawaban yang paling konsisten secara internal, sehingga meningkatkan performa penalaran dibanding CoT yang memakai satu rantai pemikiran saja
Hasil-hasil sebelumnya juga mengamati bahwa performa meningkat ketika jumlah agen atau jumlah rantai pemikiran bertambah, tetapi karakteristik penskalaan dari jumlah agen LLM dasar itu sendiri belum cukup dibahas sebagai topik penelitian terpisah

Cara kerja Agent Forest

Agent Forest menggunakan prosedur sampling-voting yang sederhana untuk melihat dampak peningkatan jumlah agen LLM terhadap performa
Cara kerjanya dibagi menjadi dua tahap
- Kueri tugas dimasukkan berulang kali ke satu LLM atau framework kolaborasi multi-agen LLM untuk menghasilkan beberapa output
- Voting mayoritas diterapkan pada output yang dihasilkan untuk menentukan hasil akhir
Prosedur ini terinspirasi dari CoT-SC, tetapi tidak bergantung pada perancangan jalur CoT yang kompleks
Namanya merupakan penghormatan pada Random Forest klasik

Hasil pada GSM8K dan berbagai tugas

Eksperimen dilakukan pada beberapa dataset yang mencakup beragam LLM dengan ukuran berbeda serta tugas penalaran dan generasi
Secara umum, performa LLM dapat meningkat seiring membesarnya ukuran ensemble, yaitu jumlah agen
Pada hasil GSM8K di Figure 1, Llama2-13B, Llama2-70B, dan GPT-3.5-Turbo semuanya menunjukkan kenaikan akurasi saat ukuran ensemble membesar
- Pada ukuran ensemble 15, Llama2-13B mencapai akurasi yang sebanding dengan Llama2-70B
- Pada ukuran ensemble 15 dan 20, Llama2-70B dan GPT-3.5-Turbo masing-masing menunjukkan akurasi yang sebanding dengan model pembanding yang lebih kuat
- Error bar pada gambar menunjukkan standard error
Bahkan LLM yang lebih kecil pun dapat menunjukkan performa yang sebanding atau lebih baik daripada LLM yang lebih besar jika diterapkan ensemble sederhana

Peningkatan performa yang bisa ditambahkan di atas teknik yang ada

Agent Forest adalah pendekatan yang bisa dikombinasikan secara independen dengan metode peningkatan performa LLM yang sudah ada dan lebih kompleks
Pada metode berbasis CoT, pendekatan ini bisa dipasang seperti plugin untuk menghasilkan peningkatan performa tambahan
Dibanding metode yang kompleks pun, Agent Forest saja dapat mencapai performa yang sebanding dalam sebagian besar kasus
Hasil yang kompetitif bisa diperoleh tanpa desain prompt manual tambahan atau framework kolaborasi yang kompleks

Efek berdasarkan tingkat kesulitan dan optimasi

Peningkatan performa tampak lebih besar pada tugas yang sulit dan model yang lebih lemah
Dampak tingkat kesulitan masalah terhadap efek Agent Forest dianalisis dalam tiga dimensi
- Kesulitan intrinsik masalah
- Panjang langkah penalaran
- Probabilitas awal jawaban benar
Melalui eksperimen yang mengatur masing-masing dimensi tersebut, peneliti mengidentifikasi sifat-sifat yang memengaruhi efek Agent Forest
Berdasarkan sifat yang teridentifikasi, strategi optimasi tambahan dikembangkan agar efek “More Agents” muncul lebih kuat
Kode publik tersedia di https://github.com/MoreAgentsIsAllYouNeed/AgentForest

1 komentar

GN⁺ 2024-04-08

Komentar Hacker News

Sepertinya ada orang yang tidak benar-benar membaca makalah ini
Makalah ini nyaris membantah gagasan konfigurasi multi-agent seperti Chain-of-thought atau LLM-Debate
Alternatif yang diusulkan makalah ini adalah melemparkan kueri yang sama ke LLM yang sama beberapa kali, tetapi tanpa berbagi konteks di antara kueri, lalu menghitung kemiripan antarjawaban dan memilih jawaban yang paling umum
Jika LLM mencampurkan halusinasi dan jawaban benar, maka jawaban benar akan mirip satu sama lain sementara halusinasi akan tersebar kacau, jadi masuk akal
Namun algoritme sederhana ini bekerja setara dengan algoritme multi-agent lain, bahkan kadang lebih baik
Artinya, teknik multi-agent lain yang memakai prompt cerdas tampaknya tidak melakukan sesuatu yang istimewa; sebagian besar peningkatan sepertinya datang dari menjalankan LLM berkali-kali dan menyuruhnya “memilih jawaban terbaik”
- https://en.wikipedia.org/wiki/Lorenz_system
  Sejak lama, simulasi cuaca menjalankan model berulang kali dengan sedikit mengubah parameter masukan, membuang outlier, lalu mengambil rata-ratanya, dan itu bekerja cukup baik
  LLM juga pada dasarnya memiliki seed acak, yaitu nilai temperature, jadi dengan memberi masukan yang sama dan merata-ratakan outputnya, kita bisa mendapat estimasi yang lebih baik
  Lorenz system juga memberi petunjuk, mungkin bahkan penjelasan, tentang mengapa masalah halusinasi barangkali mustahil diselesaikan
  Jika menerima sudut pandang ini, cepat terlihat juga bahwa LLM nyaris merupakan jalan buntu menuju kecerdasan buatan umum
  Simulasi bukan emulasi, dan kemungkinan LLM menjadi cerdas kurang lebih sama dengan kemungkinan prakiraan cuaca bisa mengendalikan cuaca
- Dari pengalaman memakai GitHub Copilot, halusinasi muncul ketika probabilitas suatu fakta yang benar rendah, tetapi Copilot tetap mengeluarkan jawaban yang paling masuk akal
  Biasanya sebuah library bekerja dengan cara yang sangat tidak lazim dan tidak terdokumentasi, lalu saat diminta contoh, keluarlah kode fungsi palsu yang keren dan mudah dipahami, yang seandainya library itu memang bekerja seperti itu, mungkin library tersebut dari awal tidak akan diperlukan
  Menjalankan kueri seperti itu berkali-kali tampaknya tidak akan membantu
- Ini adalah gagasan yang sangat mirip dengan ensemble model yang sudah lama digunakan dalam machine learning dan terbukti berkinerja baik
  Dengan merata-ratakan hasil dari beberapa prediktor atau melakukan voting untuk memilih nilai prediksi yang paling umum, kita bisa mengambil penyebut bersama dari berbagai prediksi sekaligus mengurangi noise prediksi
- Jika temperature diatur ke 0, model akan memilih token dengan probabilitas tertinggi dan output akan selalu sama
  Tetapi kita sudah tahu itu tidak menjamin jawaban benar; kalau begitu, bagaimana menjalankannya beberapa kali bisa menjadi lebih baik?
- Bagian “jika LLM mencampurkan halusinasi dan jawaban benar, maka jawaban benar akan mirip satu sama lain sementara halusinasi akan tersebar kacau” mengisyaratkan nilai yang mendekati tingkat keyakinan yang dimiliki model dasar terhadap klaim tertentu
  Itu sendiri bagus, tetapi legenda urban atau mitos budaya juga tampaknya akan mendapat peringkat tinggi
  Itu memang kesalahan yang sangat manusiawi, tetapi tetap saja kesalahan
  Untuk melampaui ini, saya rasa kita harus membangun world model, mencari kontradiksi, dan menemukan bukti baru untuk menyelesaikan kontradiksi tersebut
Akhirnya muncul juga
Selama sekitar 16 bulan saya sudah mengatakan bahwa alih-alih berfokus membuat satu agen menjawab semuanya dengan benar, kita harus membuat agen berlapis secara hierarkis, dan sekarang senang rasanya punya makalah yang bisa ditunjuk
Menarik juga bahwa diminishing returns per tugas cepat mendatar pada ukuran yang mirip skala ideal rapat manusia: https://www.researchgate.net/figure/18-Optimal-Meeting-Sizes...
Saya penasaran seberapa dekat hasilnya dengan angka-angka itu jika jumlah agen diuji dengan langkah yang lebih rapat
Saya juga ingin melihat seberapa jauh kinerja meningkat nanti ketika tiap agen di-fine-tune sedikit berbeda sesuai tujuan masing-masing
Bahkan hanya dengan memberi tiap agen nilai temperature yang berbeda pun rasanya akan ada peningkatan kinerja
Sangat menyenangkan melihat komunitas riset mulai bergerak ke arah ini
- Sepenuhnya setuju
  SLIM agents dari LLMWare juga layak dilihat: https://github.com/llmware-ai/llmware/tree/main/examples/SLI...
  Proyek itu hampir persis berfokus pada topik ini sambil menghubungkan beberapa LLM lokal
  Topik bagus lain yang bersinggungan dengan ini adalah perlunya sampling deterministik tergantung penggunaan model
  Istilahnya mungkin agak kurang tepat, tetapi tim LLMWare membuat video dua bagian yang bagus terkait hal ini: https://www.youtube.com/watch?v=7oMTGhSKuNY
  Saya rasa LLM kecil yang khusus adalah jalan ke depan
  Sebagai catatan, saya tidak punya hubungan apa pun dengan mereka; saya hanya benar-benar menganggap ini proyek yang keren
- Saya rasa manusia juga bekerja seperti ini
  Seolah-olah ada 5 atau 8 versi diri kita sendiri yang berkeliaran di dalam tengkorak, dan salah satunya berperan sebagai semacam pengawas
- Tahun lalu selama beberapa bulan saya membuat sistem multi-agent untuk pemecahan masalah dengan https://github.com/agi-merge/waggle-dance
- Jika yang dimaksud “di-fine-tune sedikit berbeda sesuai tujuan masing-masing”, bukankah itu semacam mixture of experts?
- Menarik melihat para peneliti meneliti hal-hal yang sedang dibuat orang secara eksperimental
  crewAI adalah salah satu contohnya
Tampaknya terkait dengan episode ACM ByteCast terbaru bersama Edward Chang
Itu adalah episode yang menampilkan Edward Chang, profesor adjung Ilmu Komputer di Stanford University: https://learning.acm.org/bytecast/ep50-edward-y-chang
Kalau tidak ingin mendengarkan, ada juga transkripnya
Pendekatan yang ia gunakan adalah, alih-alih format tanya/jawab umum pada LLM saat ini, beberapa LLM saling berdialog tentang topik diskusi dan manusia berperan sebagai moderator
Katanya, dengan sumber daya yang sama, jawaban akhir yang dicapai beberapa LLM lewat percakapan meningkat besar baik dalam presisi maupun akurasi
- Makalah ini tampaknya mengatakan bahwa bagian diskusinya tidak diperlukan
  Cukup biarkan LLM memecahkan masalah secara independen lalu pilih jawaban yang paling populer
- Saya pernah membuat sesuatu yang mirip dengan Haskell
  Saya belum menjalankan benchmark, tetapi rasanya cukup meyakinkan
  Misalnya, saya mendefinisikan tiap agen sebagai “pakar” berbeda berdasarkan subbidang matematika: teoritikus pembuktian, pakar aljabar abstrak, dan sebagainya
  Itu memang membantu, tetapi rasio sinyal terhadap noise-nya tinggi, dan banyak agen mengulang poin yang sama
- Apakah ini pada dasarnya menjelaskan sesuatu seperti crewAI?
Ada hal yang membuat frustrasi dari semua riset mixture-of-experts ini
Bahkan kalau hanya melihat pengantar algoritme acak atau penalaran probabilistik dasar, jika parameter temperatur lebih besar dari 0, maka menanyakan LLM sebanyak N kali dan mengambil hasil voting mayoritas pada umumnya akan berkinerja lebih baik daripada hanya bertanya sekali dan memilih hasil itu
Kalau mencampur LLM berbeda yang dispesialisasi, tampaknya mungkin ada peningkatan tambahan, dan dalam kasus seperti itu mungkin bisa dijalankan pada temperatur 0
Atau seperti yang diusulkan makalah ini, tugas juga bisa dipecah lebih baik menjadi subtugas
Tetapi menurut saya, belum ada yang benar-benar mengukur keuntungan hipotetis ini dibandingkan pendekatan pengulangan acak yang sederhana
Secara khusus, untuk strategi voting atau metode pencampuran tertentu, bahkan pada model tertentu, pendekatan seperti MoE bisa saja secara ketat lebih buruk daripada pengulangan naif
Saya bukan peneliti LLM, lebih seperti warga yang khawatir, jadi mungkin ada yang saya lewatkan
Tetap saja terasa aneh seolah para peneliti LLM melupakan bab pertama Motwani/Raghavan
- Rasanya ada perbedaan antara memilih token terbaik dari token-token yang dipilih secara acak, dan memilih string terbaik dari string token yang dipilih secara acak
Dari grafik sekilas, sebagian besar keuntungannya datang pada 10 agen, lalu bertambah sedikit pada 20, setelah itu terjadi diminishing returns
Sepertinya ini tidak akan selesai hanya dengan menambahkan lebih banyak agen
Ada repositori publik: https://anonymous.4open.science/r/more_agent_is_all_you_need...
Prompt yang digunakan untuk benchmark ada di sini: https://anonymous.4open.science/r/more_agent_is_all_you_need...
Sangat menarik
Saya juga ingin melihat benchmark untuk agen berbasis LLM yang menggunakan toolset dengan pendekatan seperti ini
Bukankah ini metode yang sangat mahal dan tidak berkelanjutan?
Saya setuju dengan suasana bahwa MoE adalah arah yang akan dituju, karena model-model terbaru mungkin akan mengalami diminishing returns
Tapi bukankah ini berarti komputasi untuk satu prompt tiba-tiba naik 7~15x?
- GPT-4 20 kali lebih mahal daripada GPT-3.5, tetapi kalau 10 kali menjalankan GPT-3.5 cukup untuk mendapatkan kualitas respons yang mirip, mungkin itu tetap menguntungkan karena bahkan bisa lebih cepat
- “Yang dibutuhkan cuma tagihan OpenAI enam digit”
- Penggunaan sumber daya tak terbarukan dan emisi juga naik 7~15x
- Jadi memangnya masalahnya apa? GPU juga bukan sedang kekurangan komputasi
- Betul, lihat saja harga GPT-3.5 dan GPT-4
Bahkan hanya dengan membaca beberapa komentar teratas saat ini, model bisnis perusahaan yang menyediakan layanan LLM terasa aneh
Mirip layanan kendaraan yang harus dipanggil n kali untuk mengantar dari A ke B, atau deterjen yang harus dipakai n kali agar pakaian “mungkin” menjadi bersih
Jika perusahaan menerima uang untuk menyediakan “kecerdasan buatan”, bukankah masuk akal jika orang hanya membayar untuk jawaban yang benar?
Jika menyediakan layanan kendaraan, bukankah semestinya orang hanya membayar kalau benar-benar diantar ke tujuan?
- Setuju
  Kalau kegagalannya cukup sering, bukankah ambang batas agar manusia atau otomasi tradisional serbaguna menjadi pilihan yang lebih baik jadi cukup rendah?
  Rasanya gelembung ini akan pecah dengan cara seperti ini
  Tidak diragukan bahwa LLM adalah alat yang revolusioner, tetapi selain untuk aplikasi yang sangat terspesialisasi, saya sungguh skeptis
  Mungkin pelajarannya adalah bahwa cara tanggung jawab agen LLM didistribusikan mengikuti model kegagalan organisasi manusia yang sudah ada
- Perusahaan biasanya menyediakan layanan atau produk
  Jika gagal memberikan apa yang disepakati, pelanggan bisa menuntut perbaikan
  Jika sopir taksi mengambil rute yang tidak perlu rumit, menagih terlalu mahal, atau tidak mengantar ke tujuan, Anda bisa mengajukan keluhan ke perusahaan taksi
  Jika cucian tidak bersih dengan baik, Anda meminta agar dicuci ulang
  Namun banyak aktivitas pada dasarnya berisiko atau hasilnya tidak pasti
  Karena selalu ada faktor di luar kendali siapa pun
  Pengacara tidak bisa menjanjikan kemenangan dalam gugatan, tetapi harus mewakili perkara sebaik mungkin
  Dokter tidak menjamin Anda akan sehat kembali
  Tidak ada sopir taksi yang menjamin tiba tepat waktu, tetapi mereka memang mengantar Anda ke tujuan
  Atlassian juga tidak menjamin Anda akan memenuhi tenggat rilis hanya karena menggunakan instance JIRA terkelola, tetapi mereka berusaha keras mencegah kehilangan data
  Pada dasarnya, perusahaan yang menjual akses ke chatbot juga tidak akan menjamin hasil yang benar
  Mungkin yang bisa mereka jamin hanyalah ketersediaan layanan
- Sebagai kontraargumen, ramalan National Weather Service juga tidak selalu benar, tetapi orang juga tidak membayar NWS hanya pada hari-hari ketika ramalannya tepat
Seberapa pun GPT-3.5 di-ensemble, akurasinya tetap lebih rendah daripada satu kali panggilan GPT-4
- Yang lucu, GPT-4 pada dasarnya adalah sekumpulan GPT-3.5
  Tinggal bagaimana menyusunnya dengan benar

Performa LLM Tetap Bisa Diskalakan Hanya dengan Menambah Jumlah Agen

Akurasi LLM yang goyah pada tugas kompleks

Cara kerja Agent Forest

Hasil pada GSM8K dan berbagai tugas

Peningkatan performa yang bisa ditambahkan di atas teknik yang ada

Efek berdasarkan tingkat kesulitan dan optimasi

Bacaan terkait

1 komentar

Komentar Hacker News