2 poin oleh GN⁺ 2024-04-08 | 1 komentar | Bagikan ke WhatsApp

Yang Dibutuhkan Hanyalah Lebih Banyak Agen

  • Ditemukan bahwa kinerja large language models (LLMs) dapat diskalakan sesuai dengan jumlah agen yang diinstansiasikan.
  • Melalui metode sampling dan voting, LLMs dapat ditingkatkan secara independen dari metode-metode kompleks yang sudah ada, dan tingkat peningkatannya berkaitan dengan tingkat kesulitan tugas.
  • Eksperimen luas dilakukan pada berbagai benchmark LLM untuk mengonfirmasi keberadaan temuan ini, serta meneliti sifat-sifat yang dapat mendorong kemunculannya.
  • Kode yang digunakan dalam penelitian tersedia secara publik.

Opini GN⁺

  • Penelitian ini dapat memberikan kontribusi penting bagi bidang kecerdasan buatan dengan mengusulkan pendekatan baru untuk meningkatkan kinerja large language models.
  • Temuan bahwa meningkatkan jumlah agen secara langsung memengaruhi peningkatan kinerja memberikan perspektif baru tentang skalabilitas sumber daya dan efisiensi.
  • Diperlukan penelitian lanjutan mengenai bagaimana hasil eksperimental ini dapat diterapkan pada aplikasi dunia nyata.
  • Fakta bahwa peningkatan kinerja berkaitan dengan tingkat kesulitan tugas dapat membantu dalam menyusun strategi optimasi model bahasa untuk tugas-tugas tertentu.
  • Melalui kode yang dipublikasikan, peneliti lain dapat berkontribusi untuk mereproduksi dan memperluas penelitian ini, yang pada gilirannya mendorong transparansi ilmiah dan kolaborasi.

1 komentar

 
GN⁺ 2024-04-08
Komentar Hacker News
  • Ringkasan komentar pertama:

    • Makalah ini mempertanyakan keseluruhan gagasan pengaturan multi-agen (misalnya Chain-of-thought, LLM-Debate).
    • Sebagai metode alternatif, kueri yang sama dijalankan beberapa kali pada LLM yang sama, lalu algoritme kemiripan antarjawaban digunakan untuk memilih jawaban yang paling sering muncul.
    • Algoritme sederhana ini menunjukkan kinerja yang sangat baik bahkan dibandingkan dengan algoritme multi-agen lainnya.
    • Ini mengisyaratkan bahwa skema multi-agen tidak melakukan sesuatu yang istimewa, dan hasil yang lebih baik terutama berasal dari fakta bahwa LLM dijalankan beberapa kali serta didorong oleh prompt untuk memilih jawaban terbaik.
  • Ringkasan komentar kedua:

    • Selama 16 bulan terakhir, ia berpendapat bahwa agen perlu disusun secara bertingkat alih-alih berfokus pada satu agen yang menangani semuanya dengan benar.
    • Menarik bahwa hasil per tugas menurun dengan cepat, mirip dengan ukuran rapat manusia yang ideal.
    • Ia penasaran seberapa dekat kecocokannya dengan ukuran rapat ideal jika jumlah agen disesuaikan dengan lebih rinci.
    • Ia ingin melihat peningkatan kinerja yang bisa diperoleh ketika setiap agen di-fine-tune dengan tujuan yang sedikit berbeda.
  • Ringkasan komentar ketiga:

    • Ini berkaitan dengan yang dibahas Profesor Edward Chang dari Departemen Ilmu Komputer Stanford University dalam episode podcast ACM ByteCast terbaru.
    • Pendekatannya menggunakan beberapa LLM yang saling berbicara tentang topik diskusi, dengan manusia berperan sebagai moderator.
    • Jawaban akhir yang dicapai beberapa LLM melalui percakapan meningkat secara signifikan baik dalam akurasi maupun presisi.
  • Ringkasan komentar keempat:

    • Hal yang membuat frustrasi dari penelitian tentang mixture of experts adalah penalaran probabilistik dasarnya: mengajukan pertanyaan ke LLM beberapa kali dan memilih hasil berdasarkan suara mayoritas umumnya berkinerja lebih baik daripada bertanya sekali dan memilih hasil itu.
    • Tampaknya keuntungan itu bisa ditingkatkan lebih jauh dengan menemukan campuran LLM yang lebih baik atau cara yang lebih baik untuk membagi tugas menjadi subtugas.
  • Ringkasan komentar kelima:

    • Dari grafik terlihat bahwa sebagian besar keuntungan didapat dengan 10 agen, sedikit tambahan keuntungan diperoleh dengan 20 agen, dan setelah itu hasilnya menurun.
  • Ringkasan komentar keenam:

    • Sebuah pemikiran bercanda tentang model bisnis perusahaan penyedia layanan LLM: layanan kendaraan yang hanya bisa sampai ke tujuan jika dipanggil berkali-kali, deterjen yang pakaian "mungkin" bersih hanya setelah dipakai beberapa kali.
    • Jika sebuah perusahaan menjual "kecerdasan buatan", maka masuk akal jika pelanggan hanya membayar untuk jawaban yang benar.
  • Ringkasan komentar ketujuh:

    • Ada pertanyaan apakah metode ini sangat mahal dan tidak berkelanjutan; ia setuju bahwa MoE tampaknya merupakan arah yang tepat karena model-model baru kemungkinan besar akan mengalami diminishing returns.
    • Komputasi untuk satu prompt akan meningkat 7-15 kali lipat.
  • Ringkasan komentar kedelapan:

    • Repositori yang dipublikasikan dan prompt yang digunakan dalam benchmark sangat menarik.
    • Ia ingin melihat benchmarking agen berbasis LLM yang menggunakan seperangkat alat.
  • Ringkasan komentar kesembilan:

    • Jika semua pernyataan "x adalah semua yang dibutuhkan" digabungkan, kita akan menyadari bahwa sebenarnya banyak hal yang dibutuhkan.
  • Ringkasan komentar kesepuluh:

    • Ensemble dari berapa pun jumlah agen GPT 3.5 tetap kurang akurat dibanding satu kali pemanggilan GPT-4.