[Terjemahan] MoA (Mixture-of-Agents, teknik campuran agen), teknik baru untuk meningkatkan performa LLM

(discuss.pytorch.kr)

3 poin oleh ninebow 2024-06-24 | Belum ada komentar. | Bagikan ke WhatsApp

PyTorchKR

Setelah MoE (Mixture-of-Experts) dan MoD (Mixture-of-Depths), kini diperkenalkan teknik baru yang diusulkan untuk meningkatkan performa LLM. Teknik bernama campuran agen (MoA, Mixture-of-Agents) ini disebut dapat secara signifikan meningkatkan performa dengan mengumpulkan keunggulan dari beberapa LLM dan memanfaatkan keahlian kolektif mereka. Mari kita lihat bersama. :smiley:

Pengantar singkat tentang teknik campuran pakar (MoE, Mixture-of-Experts)

Teknik MoE (Mixture-of-Experts), yang disebut campuran pakar, adalah teknik untuk meningkatkan performa model dengan melatih model agar mencakup beberapa model pakar pada saat pelatihan, sehingga ukuran model menjadi besar, tetapi pada saat eksekusi (inferensi, Inference) hanya sebagian pakar yang dapat menjawab pertanyaan (Query) pengguna dengan tepat yang diaktifkan. #mixture-of-experts

Pengantar singkat tentang teknik campuran kedalaman (MoD, Mixture-of-Depths)

Baru-baru ini, teknik MoD (Mixture-of-Depths), yang dapat disebut sebagai teknik campuran kedalaman, juga telah diteliti dan dipublikasikan. Teknik ini berfokus pada pengurangan depth dengan cara mengurangi layer yang diaktifkan. #mixture-of-depths

MoA (Mixture-of-Agents, teknik campuran agen), teknik baru untuk meningkatkan performa LLM

Pengantar paper tentang teknik campuran agen (MoA, Mixture-of-Agents)

Belakangan ini, berbagai large language model (LLM) telah dirilis dan dipublikasikan, dan masing-masing LLM menunjukkan performa yang mengesankan dalam satu atau beberapa bidang. Namun, performa LLM semacam ini cenderung sebanding dengan ukuran model, data pelatihan, dan infrastruktur komputasi, sehingga memperluas model-model tersebut lebih jauh menjadi sangat mahal.

Paper ini (Mixture-of-Agents Enhances Large Language Model Capabilities) mengusulkan kerangka campuran agen (Mixture-of-Agent) yang dapat meningkatkan kemampuan inferensi dan generasi bahasa dengan memanfaatkan keunggulan dari beberapa LLM. Teknik campuran agen ini didasarkan pada sifat kolaboratif (Collaborativeness) antarmodel LLM, yaitu ketika sebuah model memanfaatkan jawaban dari model lain, ia dapat menghasilkan jawaban dengan kualitas yang lebih baik daripada saat tidak memanfaatkannya, bahkan jika kualitas jawaban referensinya sendiri rendah.

Melalui teknik MoA ini, berbagai LLM yang memiliki keunggulan unik masing-masing dapat menggabungkan keahliannya sehingga pada akhirnya menghasilkan performa yang lebih baik. Hasilnya, teknik ini menunjukkan performa luar biasa pada berbagai benchmark seperti AlapacaEval 2.0, MT-Benchmark, dan FLASK, dan khususnya menunjukkan performa yang lebih baik dibanding GPT-4o (GPT-4 Omni).

Yang terpenting, keunggulan besar teknik MoA adalah ia digunakan tanpa mengubah LLM yang sudah ada, melainkan hanya dengan mengubah prompt input LLM dan beberapa pengaturan (sampling options termasuk temperature). Artinya, tidak diperlukan proses tambahan seperti fine-tuning, serta memberikan fleksibilitas dan skalabilitas untuk langsung menerapkan LLM terbaru terlepas dari ukuran atau arsitektur agent LLM yang digunakan.

Pengenalan teknik campuran agen (MoA, Mixture-of-Agents)

Metodologi Mixture-of-Agents (MoA) bertujuan memanfaatkan keahlian kolektif dari beberapa LLM melalui struktur berlapis. Setiap lapisan terdiri dari beberapa agent LLM dan menghasilkan respons berdasarkan keluaran dari lapisan sebelumnya, sehingga secara bertahap memperbaiki keluaran akhir.

Ide inti dari teknik MoA dimulai dari fakta bahwa large language model (LLM) dapat menghasilkan respons berkualitas lebih tinggi ketika merujuk pada jawaban dari model lain. Dengan kata lain, performa jawaban akhir ditingkatkan dengan memungkinkan jawaban dari beberapa LLM saling dijadikan referensi, sehingga muncul sifat kolaboratif (collaborativeness). Dengan cara ini, bahkan jika kualitas hasil antara rendah, kualitas jawaban akhir tetap dapat meningkat secara signifikan.

Karakteristik utama teknik campuran agen dapat diringkas sebagai berikut:

Struktur berlapis: Framework MoA menggunakan struktur multilapis yang terdiri dari beberapa agent LLM. Setiap agent memperbaiki respons dari lapisan sebelumnya untuk secara bertahap meningkatkan keluaran akhir.
Keberagaman model: Framework ini menekankan penggunaan berbagai LLM pada setiap lapisan. Ketika berbagai model digabungkan, respons yang dihasilkan dapat menjadi lebih kaya dan lebih rinci.
Perbaikan iteratif: Proses iteratif memungkinkan teks yang dihasilkan terus diperbaiki, sehingga menghasilkan keluaran terbaik melalui sintesis kolaboratif dari beberapa model.

Sifat kolaboratif large language model (Collaborativeness)

Sifat kolaboratif (collaborativeness) dari large language model (LLM, Large Language Models) mengacu pada kemampuan berbagai LLM untuk menghasilkan respons yang lebih baik ketika mereka merujuk pada keluaran satu sama lain. Banyak penelitian menunjukkan bahwa kualitas respons meningkat ketika satu language model menggunakan keluaran model lain sebagai informasi pendukung. Hal ini dimungkinkan karena setiap model memiliki keunggulan yang berbeda.

Sebagai contoh, satu model mungkin sangat baik dalam mengikuti instruksi yang kompleks, sementara model lain mungkin menunjukkan performa yang lebih unggul dalam pembuatan kode. Keberagaman ini memungkinkan tiap model dalam lingkungan kolaboratif saling menutupi kelemahan model lainnya. Untuk membuktikan sifat kolaboratif ini secara eksperimental, digunakan berbagai benchmark test, dan khususnya pada benchmark AlpacaEval 2.0 dapat dipastikan bahwa performa meningkat secara signifikan ketika beberapa model merujuk pada keluaran satu sama lain.

Melalui hal ini, dapat diamati bahwa ketika LLM diberi jawaban yang dihasilkan secara independen oleh model lain, performa keseluruhannya meningkat secara nyata. Hasil seperti ini menunjukkan fenomena bahwa LLM pada dasarnya bersifat kolaboratif. Selain itu, hal ini juga menyiratkan bahwa bahkan keluaran berkualitas rendah pun dapat membantu menghasilkan respons yang lebih baik saat digunakan sebagai sumber informasi oleh model lain.

Paper ini menjelaskan peran LLM yang digunakan dalam teknik campuran agen (MoA) dengan membaginya menjadi dua kategori: Proposer dan Aggregator:

LLM Proposer: LLM yang unggul dalam menghasilkan respons referensi yang berguna untuk digunakan model lain. Proposer yang baik tidak harus menghasilkan respons dengan skor tinggi jika dinilai sendirian, tetapi dengan menyediakan lebih banyak konteks dan sudut pandang yang beragam, ia dapat berkontribusi pada respons akhir yang lebih baik ketika digunakan bersama Aggregator.
LLM Aggregator: Model yang mahir mensintesis respons dari model lain menjadi satu keluaran berkualitas tinggi. Aggregator yang efektif harus mampu mempertahankan atau meningkatkan kualitas jawaban akhir bahkan ketika menerima masukan dari Proposer yang kualitasnya lebih rendah daripada jawaban yang dapat dihasilkannya sendiri.

Struktur teknik campuran agen (Architecture of MoA, Mixture-of-Agents)

Framework MoA, seperti pada gambar di atas, terdiri dari beberapa lapisan (Layer, $l$), dan setiap lapisan (Layer-$i$) berisi beberapa ($n$) LLM. Pada gambar, setiap LLM pada lapisan ke-$i$ ditandai sebagai $A_{i,1}$, $A_{i,2}$, ...$A_{i,n}$. Dalam struktur ini, agent pada tiap lapisan menggunakan semua keluaran dari lapisan sebelumnya sebagai informasi pendukung untuk menghasilkan respons. Hal yang perlu diperhatikan adalah bahwa setiap LLM dapat digunakan kembali baik pada layer yang sama maupun pada layer yang berbeda.

Pada awalnya, LLM pada lapisan pertama secara independen menghasilkan respons terhadap prompt yang diberikan. Selanjutnya, respons ini diteruskan ke agent pada lapisan berikutnya untuk menghasilkan respons yang lebih matang. Proses ini diulangi hingga akhirnya dihasilkan respons yang lebih presisi dan komprehensif. Proses tersebut dapat berlangsung beberapa kali, dan pada akhirnya menghasilkan respons yang lebih kuat dan menyeluruh. Dengan demikian, keterbatasan model individual dapat diatasi, serta memungkinkan dihasilkannya respons berkualitas tinggi yang mengintegrasikan informasi dan perspektif yang lebih beragam, terutama sangat berguna untuk pemecahan masalah yang kompleks.

Elemen penting lainnya dari struktur teknik campuran agen ini adalah pemilihan model. Penting untuk memilih model yang akan dimasukkan ke dalam setiap lapisan secara cermat berdasarkan performa dan keberagaman. Dengan mempertimbangkan metrik performa dan keberagaman model, komposisi agent yang optimal dapat ditentukan.

Kriteria pemilihan agent (LLM) yang akan digunakan

Dalam teknik campuran agen, model dipilih tidak hanya berdasarkan metrik performa yang menunjukkan seberapa baik mereka menjalankan tugas tertentu, tetapi juga berdasarkan keberagaman yang menunjukkan seberapa beragam jawaban yang dapat mereka hasilkan:

Metrik performa (Performance Metrics): Menunjukkan seberapa baik tiap model menjalankan tugas tertentu, dan melalui hal ini dipilih model yang mampu menghasilkan keluaran berkualitas tinggi. Keberagaman berarti kemampuan model untuk mendekati dan memecahkan masalah dengan cara yang berbeda-beda. Misalnya, satu model mungkin unggul dalam pemrosesan bahasa alami, sementara model lain mungkin menunjukkan performa lebih baik dalam pembuatan kode atau pemecahan masalah matematika. Dengan mencampurkan model-model dengan kemampuan yang beragam ini, struktur multi-agent dapat menghasilkan respons yang lebih komprehensif dan lebih kuat.
Pertimbangan keberagaman (Diversity Considerations): Keberagaman model membantu mengurangi bias yang dimiliki model tunggal dan memungkinkan penyelesaian masalah yang lebih luas. Misalnya, jika model yang sama digunakan berulang kali di beberapa lapisan, kualitas respons dapat menurun karena keterbatasan model tersebut. Karena itu, penggunaan model yang beragam sangat penting. Dengan memilih model yang sesuai untuk tiap lapisan sambil mempertimbangkan metrik performa dan keberagaman, kualitas respons akhir dapat dimaksimalkan.

Struktur single-proposer dan multi-proposer

Jika dilihat dari perspektif abstrak tingkat tinggi (High-level perspective), teknik campuran agen (MoA) dapat dianggap sebagai versi teknik campuran pakar (MoE) yang dinaikkan ke tingkat model. Teknik MoA ini dapat bekerja sepenuhnya melalui antarmuka prompt tanpa memodifikasi aktivasi internal atau bobot LLM. Artinya, tidak seperti MoE yang menempatkan subnetwork khusus di dalam satu model, MoA menggunakan beberapa (atau satu) LLM di beberapa lapisan.

Struktur single-proposer: Meskipun teknik campuran agen (MoA) pada dasarnya berbasis penggunaan beberapa agent (LLM), LLM yang sama juga dapat digunakan beberapa kali. Dalam kasus seperti ini, saat memberikan input ke model yang sama, berbagai pengaturan sampling termasuk temperature diubah agar menghasilkan berbagai keluaran yang berbeda. Dalam struktur single-proposer ini, hanya satu atau beberapa model yang diaktifkan pada tiap layer, tetapi berbagai respons yang dihasilkan model-model tersebut memainkan peran penting bagi Aggregator dalam menghasilkan respons akhir.
Struktur multi-proposer: Menggunakan berbagai model pada setiap lapisan untuk menghasilkan keluaran yang berbeda-beda. Ini memaksimalkan interaksi dan sifat kolaboratif antarmodel, sehingga memungkinkan dihasilkannya respons yang lebih komprehensif dan berkualitas lebih tinggi. Struktur multi-proposer memanfaatkan keberagaman model semaksimal mungkin untuk memperluas cakupan pemecahan masalah dan mengatasi keterbatasan yang dimiliki model tunggal. Melalui konfigurasi ini, struktur multi-agent dapat memberikan solusi yang lebih kuat dan lebih menyeluruh.

Di sini, Proposer dan Aggregator menjalankan peran yang saling melengkapi. Proposer menghasilkan respons awal melalui berbagai pendekatan, dan Aggregator menyatukan respons tersebut untuk menjamin kualitas respons akhir. Melalui struktur kolaboratif ini, sistem multi-agent dapat memberikan respons yang lebih kuat dan lebih komprehensif dibanding model tunggal.

Performa dan efisiensi biaya teknik MoA

Performa teknik MoA

Pada tabel di atas, MoA dan MoA-Lite adalah model dengan 6 proposer yang masing-masing memiliki 3 layer dan 2 layer. MoA w/ GPT-4o adalah model yang menggunakan GPT-4o sebagai aggregator akhir dari MoA. Benchmark di atas dipublikasikan bersama nilai rata-rata dan simpangan baku setelah masing-masing dijalankan 3 kali.

Model yang menggunakan teknik MoA mencatat skor 65.1% pada AlpacaEval 2.0, melampaui GPT-4o yang mencatat 57.5%. Selain itu, pada MT-Benchmark juga menunjukkan performa yang lebih baik daripada GPT-4o.

Seperti pada gambar di atas, teknik MoA menunjukkan performa yang lebih baik dibanding saat hanya menggunakan satu LLM. Ini tampaknya karena aggregator tidak sekadar memilih salah satu respons yang dihasilkan LLM proposer, tetapi menghasilkan jawaban dengan merujuk secara menyeluruh pada jawaban-jawaban yang diajukan.

Bagian kanan gambar di atas membandingkan respons aggregator dan respons proposer menggunakan skor kemiripan seperti BLEU. Untuk setiap sampel, dihitung koefisien korelasi peringkat antara $n$ skor preferensi dan $n$ skor kemiripan yang ditentukan oleh evaluator berbasis GPT-4 berdasarkan $n$ respons dari para proposer. Dengan kata lain, dapat dipastikan adanya korelasi positif antara win rate dan skor BLEU.

Selain itu, untuk menemukan jumlah proposer yang tepat pada tiap lapisan, dilakukan analisis dengan mengubah jumlah proposer ($n$ pada tabel kiri atas) dan melihat pengaruhnya terhadap kualitas akhir. Seiring meningkatnya $n$, kualitas akhir meningkat, yang dapat dianalisis sebagai akibat dari lebih banyaknya informasi yang tersedia bagi aggregator karena berbagai model menghasilkan berbagai jawaban. (Di sini, struktur single-proposer adalah hasil penggunaan satu LLM dengan temperature tetap 0.7.)

Selain itu, juga dilakukan eksperimen untuk memeriksa apakah ada model yang unggul secara khusus dalam salah satu peran proposer atau aggregator. (Tabel kanan atas) Model GPT-4o, Qwen, dan LLaMA-3 menunjukkan performa yang baik baik saat digunakan sebagai proposer maupun aggregator, sedangkan beberapa model termasuk WizardLM terbukti menunjukkan performa yang lebih baik sebagai proposer daripada sebagai aggregator.

Efisiensi token dan biaya teknik MoA

Termasuk analisis anggaran dan token, hasilnya menunjukkan bahwa MoA dapat memberikan performa tinggi dengan biaya lebih rendah dibanding model mutakhir lainnya. Ini berarti pendekatan ini tidak hanya efektif tetapi juga efisien secara biaya, serta menawarkan solusi praktis untuk memperluas kemampuan LLM tanpa biaya berlebihan.

Pada bagian kiri gambar di atas (a), ditampilkan biaya inferensi rata-rata per instance pada benchmark AplacaEval 2.0 dan LC win rate. Perhitungan dilakukan berdasarkan biaya dari masing-masing penyedia API, dan ini menunjukkan bahwa teknik MoA merupakan metode yang hemat biaya karena mampu mencapai performa tinggi tanpa menimbulkan biaya berlebihan. Secara khusus, MoA-Lite sekitar 4% lebih unggul daripada GPT-4 Turbo sekaligus lebih dari dua kali lebih efisien dari sisi biaya.

Pada bagian kanan gambar di atas (b), ditunjukkan hubungan antara LC win rate dan jumlah teraflop. Di sini, jumlah teraflop digunakan sebagai nilai pengganti yang dapat merepresentasikan latensi. Di sini juga, serupa dengan analisis efisiensi biaya, dapat diamati Pareto frontier. Artinya, sistem ini memaksimalkan LC win rate sambil menggunakan sumber daya komputasi secara efisien.

Catatan lain tentang kolaborasi dan keberagaman

Berdasarkan hasil berbagai eksperimen dalam paper ini, terkonfirmasi bahwa LLM menghasilkan respons yang lebih baik ketika merujuk pada keluaran model lain. Sifat kolaboratif ini merupakan elemen kunci peningkatan performa melalui teknik MoA. Selain itu, juga dibuktikan bahwa penggunaan berbagai LLM pada setiap lapisan secara konsisten menghasilkan hasil yang lebih baik dibanding bergantung pada satu model saja. Dengan kata lain, dapat dipastikan bahwa keberagaman jawaban yang muncul melalui keberagaman model efektif dalam meningkatkan performa secara keseluruhan.

Kesimpulan

Seperti yang telah dibahas sejauh ini, teknik campuran agen (MoA, Mixture-of-Agents) menunjukkan kemajuan penting dalam memanfaatkan kekuatan kolektif dari beberapa LLM. Melalui pendekatan hierarkis dan kolaboratif, MoA menunjukkan performa unggul di berbagai benchmark serta membuktikan nilai dari keberagaman model dan penyempurnaan iteratif. Dengan memanfaatkan pendekatan ini, diharapkan akan muncul upaya-upaya baru menuju sistem LLM yang lebih kuat dan lebih efisien.

Paper teknik MoA

https://arxiv.org/abs/2406.04692

Repositori teknik MoA

https://github.com/togethercomputer/moa

OpenPipe menyediakan model yang melampaui performa GPT-4 dengan harga 25 kali lebih murah menggunakan teknik MoA

https://discuss.pytorch.kr/t/openpipe-moa-25-gpt-4/4668

Tulisan ini disusun berdasarkan ringkasan yang dibuat dengan model GPT, sehingga mungkin ada bagian yang dirangkum berbeda dari isi atau maksud naskah asli. Jika topik ini menarik bagi Anda, silakan juga merujuk ke naskah aslinya. Jika saat membaca Anda menemukan bagian yang terasa janggal atau keliru, mohon beri tahu melalui komentar. 🤗

⚠️Iklan⚠️: Apakah tulisan ringkasan dari komunitas pengguna PyTorch Korea🇰🇷 ini bermanfaat bagi Anda? Jika Anda mendaftar sebagai anggota, kami akan mengirimkan tulisan-tulisan utama melalui email💌. (Default-nya Weekly, tetapi bisa diubah ke Daily.)