[2025/09/29 ~ 10/05] Kumpulan Makalah AI/ML yang Layak Disimak Pekan Ini
(discuss.pytorch.kr)[2025/09/29 ~ 10/05] Kumpulan Makalah AI/ML yang Layak Disimak Pekan Ini
PyTorchKR馃敟馃嚢馃嚪 馃馃挱
1锔忊儯 Peningkatan kebenaran dan keandalan informasi: Sejumlah makalah mengusulkan berbagai pendekatan untuk meningkatkan akurasi dan keandalan informasi. Sebagai contoh, "Incentive-Aligned Multi-Source LLM Summaries" menjamin kebenaran informasi melalui kerangka Truthful Text Summarization (TTS), dan "AgentMaster" mendukung pencarian serta analisis informasi yang dapat dipercaya dengan memanfaatkan sistem multi-agen.
2锔忊儯 Perkembangan sistem multi-agen: Pemanfaatan sistem multi-agen (MAS, Multi-Agent System) meningkat dalam berbagai penelitian, dan hal ini sangat membantu dalam menyelesaikan tugas yang kompleks. Makalah "TUMIX" dan "AgentMaster" menunjukkan cara meningkatkan kinerja melalui kolaborasi dan interaksi antaragen dengan memanfaatkan beragam alat.
3锔忊儯 Injeksi pengetahuan dan pembelajaran berkelanjutan: Makalah "How to inject knowledge efficiently?" dan "Continual Learning for VLMs" meneliti cara menyuntikkan pengetahuan domain secara efektif serta terus belajar dari data yang tidak normal. Penelitian-penelitian ini berfokus pada peningkatan kinerja model sambil mencegah hilangnya pengetahuan yang sudah ada.
ARE: penskalaan lingkungan dan evaluasi agen / ARE: Scaling Up Agent Environments and Evaluations
Pengantar makalah
Meta Superintelligence Lab merilis Meta Agents Research Environments (ARE), sebuah platform riset inovatif yang meningkatkan skalabilitas lingkungan agen, mendukung integrasi aplikasi sintetis maupun nyata, dan memungkinkan pelaksanaan orkestrasi agen. ARE menyediakan abstraksi sederhana untuk membangun lingkungan yang kompleks dan beragam, sehingga setiap lingkungan dapat memiliki aturan, alat, konten, dan verifier-nya sendiri, serta membantu menjembatani kesenjangan antara pengembangan model dan penerapan di dunia nyata.
Salah satu inovasi utama ARE adalah diperkenalkannya benchmark bernama Gaia2. Gaia2 dirancang untuk mengukur kemampuan umum agen, dan melampaui pencarian serta eksekusi sederhana dengan memasukkan persyaratan kompleks seperti kemampuan agen untuk menangani ambiguitas dan noise, beradaptasi dengan lingkungan dinamis, berkolaborasi dengan agen lain, dan menyelesaikan tugas di bawah batasan waktu. Secara khusus, Gaia2 berjalan secara asinkron, sehingga menyingkap mode kegagalan baru yang tidak terlihat dalam lingkungan statis dan memungkinkan evaluasi kinerja agen yang lebih cermat.
Hasil eksperimen menunjukkan bahwa tidak ada sistem yang mendominasi di seluruh spektrum kecerdasan, dan kemampuan penalaran yang kuat sering kali harus dibayar dengan efisiensi. Fenomena melandainya kurva penskalaan anggaran menegaskan perlunya arsitektur baru dan strategi komputasi adaptif. Temuan-temuan ini menunjukkan arah bagi riset AI sekaligus menyoroti pentingnya ARE dan Gaia2.
Abstraksi ARE memungkinkan Gaia2 terus diperluas ke lingkungan lain, sehingga komunitas riset dapat dengan cepat membuat benchmark baru yang disesuaikan dengan domain mereka sendiri. Kemajuan AI akan semakin bergantung pada pendefinisian tugas yang bermakna dan evaluasi yang kuat, dan hal ini dimungkinkan melalui kemampuan ARE. Dalam konteks ini, ARE menyediakan alat yang diperlukan untuk pengembangan dan evaluasi agen, serta akan memainkan peran penting di garis depan riset AI.
Abstrak makalah (Abstract)
Kami memperkenalkan Meta Agents Research Environments (ARE), sebuah platform riset untuk pembuatan lingkungan yang skalabel, integrasi aplikasi sintetis maupun nyata, dan pelaksanaan orkestrasi agen. ARE menyediakan abstraksi sederhana untuk membangun lingkungan yang kompleks dan beragam, masing-masing dengan aturan, alat, konten, dan verifier yang berbeda, sehingga membantu menjembatani kesenjangan antara pengembangan model dan penerapan di dunia nyata. Kami juga mengusulkan Gaia2, sebuah benchmark yang dibangun di atas ARE dan dirancang untuk mengukur kemampuan umum agen. Melampaui pencarian dan eksekusi, Gaia2 menuntut agen untuk menangani ambiguitas dan noise, beradaptasi dengan lingkungan dinamis, berkolaborasi dengan agen lain, dan beroperasi di bawah batasan waktu. Berbeda dari benchmark sebelumnya, Gaia2 berjalan secara asinkron sehingga menyingkap mode kegagalan baru yang tidak tampak dalam pengaturan statis. Hasil eksperimen kami menunjukkan bahwa tidak ada sistem yang mendominasi di seluruh spektrum kecerdasan: penalaran yang lebih kuat sering kali datang dengan biaya efisiensi, dan kurva penskalaan anggaran mengalami plateau, yang menyoroti perlunya arsitektur baru dan strategi komputasi adaptif. Mungkin yang lebih penting, abstraksi ARE memungkinkan perluasan Gaia2 secara berkelanjutan ke lingkungan lain, sehingga memberdayakan komunitas untuk dengan cepat menciptakan benchmark baru yang disesuaikan dengan domain mereka. Di paruh kedua AI, kemajuan akan semakin bergantung pada pendefinisian tugas yang bermakna dan evaluasi yang tangguh untuk mendorong kemampuan frontier ke depan.
We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.
Tautan makalah
https://arxiv.org/abs/2509.17158
Ringkasan LLM multi-sumber yang selaras dengan insentif / Incentive-Aligned Multi-Source LLM Summaries
Pengantar makalah
Large language model (LLM) banyak digunakan dalam sistem pencarian informasi dan respons modern untuk mengintegrasikan teks dari berbagai sumber dan menghasilkan satu jawaban. Namun, sistem yang ada saat ini memiliki keterbatasan dalam menjamin akurasi sumber serta rentan terhadap konten adversarial. Untuk mengatasi masalah ini, kerangka Truthful Text Summarization (TTS) yang diusulkan menawarkan pendekatan inovatif yang dapat meningkatkan ketahanan faktual sekaligus beroperasi tanpa label ground-truth. TTS memecah ringkasan draf menjadi klaim-klaim atomik, mengevaluasi klaim dari setiap sumber, lalu memberi skor pada sumber melalui mekanisme peer prediction multi-tugas yang diadaptasi dan memberi penghargaan pada kesesuaian informasi. Proses ini, yang melakukan peringkasan ulang setelah memfilter sumber yang tidak dapat dipercaya, menyelaraskan insentif sumber dengan kejujuran informasi sehingga pelaporan yang jujur menjadi strategi untuk memaksimalkan utilitas.
Metodologi TTS menghadirkan pendekatan baru untuk memastikan kebenaran informasi dan menekankan perbedaannya dari riset peringkasan informasi dan LLM yang sudah ada. Hasil eksperimen menunjukkan bahwa TTS berhasil meningkatkan akurasi faktual dan ketahanan sambil tetap mempertahankan kelancaran, yang berkontribusi pada penekanan manipulasi melalui verifikasi dan penyelarasan informasi. Riset ini menunjukkan potensi besar untuk secara signifikan meningkatkan keandalan sistem peringkasan informasi, sekaligus meletakkan dasar penting untuk mengeksplorasi penerapannya di berbagai bidang pada masa mendatang. TTS menunjukkan kemungkinan untuk secara signifikan meningkatkan keandalan sistem peringkasan informasi dengan sekaligus meningkatkan kebenaran informasi dan menyelaraskan insentif sumber.
Abstrak Makalah (Abstract)
Large language model (LLM) semakin banyak digunakan dalam sistem pencarian dan tanya-jawab modern untuk mensintesis banyak teks yang terkadang saling bertentangan menjadi satu respons, tetapi pipeline saat ini hanya memberikan insentif yang lemah agar sumber tetap akurat dan rentan terhadap konten adversarial. Kami memperkenalkan Truthful Text Summarization (TTS). TTS adalah kerangka penyelarasan insentif yang meningkatkan ketahanan faktual tanpa label ground-truth. TTS (i) memecah sintesis draf menjadi klaim-klaim atomik, (ii) memperoleh sikap setiap sumber terhadap setiap klaim, (iii) memberi skor pada sumber dengan mekanisme peer-prediction multi-tugas adaptif yang memberi penghargaan pada kesepakatan yang informatif, dan (iv) memfilter sumber yang tidak dapat dipercaya sebelum melakukan peringkasan ulang. Kami menetapkan jaminan formal yang menyelaraskan insentif sumber dengan kejujuran yang informatif, sehingga pelaporan yang jujur menjadi strategi yang memaksimalkan utilitas. Hasil eksperimen menunjukkan bahwa TTS meningkatkan akurasi faktual dan ketahanan sambil mempertahankan kelancaran, menyelaraskan eksposur dengan corroboration yang informatif dan menghambat manipulasi.
Large language models (LLMs) are increasingly used in modern search and answer systems to synthesize multiple, sometimes conflicting, texts into a single response, yet current pipelines offer weak incentives for sources to be accurate and are vulnerable to adversarial content. We introduce Truthful Text Summarization (TTS), an incentive-aligned framework that improves factual robustness without ground-truth labels. TTS (i) decomposes a draft synthesis into atomic claims, (ii) elicits each source's stance on every claim, (iii) scores sources with an adapted multi-task peer-prediction mechanism that rewards informative agreement, and (iv) filters unreliable sources before re-summarizing. We establish formal guarantees that align a source's incentives with informative honesty, making truthful reporting the utility-maximizing strategy. Experiments show that TTS improves factual accuracy and robustness while preserving fluency, aligning exposure with informative corroboration and disincentivizing manipulation.
Tautan makalah
https://arxiv.org/abs/2509.25184
TUMIX: Skala Waktu Uji Multi-Agen dengan Campuran Penggunaan Alat / TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture
Pengantar makalah
Tool-Use Mixture (TUMIX) adalah kerangka ensemble yang menjalankan beberapa agen secara paralel, masing-masing mengadopsi strategi penggunaan alat dan jalur jawaban yang berbeda. Metodologi ini berfokus pada penyediaan solusi efektif untuk beragam pertanyaan melalui integrasi penalaran berbasis teks, coding, dan pencarian. Agen-agen dalam TUMIX secara iteratif berbagi dan menyempurnakan respons berdasarkan pertanyaan dan jawaban sebelumnya, sehingga memungkinkan integrasi yang lebih mendalam serta eksplorasi jalur penalaran yang lebih beragam.
TUMIX mencapai peningkatan akurasi rata-rata sebesar 3,55% dibandingkan metode penguatan alat dan test-time scaling yang ada, serta menunjukkan performa unggul pada benchmark penalaran utama di model Gemini-2.5-Pro dan Gemini-2.5-Flash. Hasil ini menunjukkan bahwa keragaman dan kualitas agen merupakan faktor penting, dan riset ini mengusulkan metode untuk secara otomatis mengoptimalkan desain agen dengan memanfaatkan LLM (large language model). Dengan demikian, TUMIX menghasilkan peningkatan akurasi tambahan rata-rata sebesar 1,2%.
TUMIX menawarkan pendekatan inovatif yang dapat menghentikan penyempurnaan setelah mencapai tingkat kepercayaan yang memadai, sehingga biaya penalaran dapat dikurangi hingga 49% sambil mempertahankan performa. Meskipun scaling tambahan dapat menghasilkan performa yang lebih tinggi, kenaikan biaya dalam kasus tersebut menjadi faktor penting yang perlu dipertimbangkan dalam riset mendatang.
Riset ini menyajikan cara untuk memaksimalkan kemampuan penggunaan alat dan penalaran LLM, serta berkontribusi dalam menyediakan solusi efektif untuk berbagai jenis pertanyaan. TUMIX menunjukkan potensi untuk lebih mudah digeneralisasikan ke aplikasi nyata melalui pendekatan yang berbeda dari metodologi yang ada.
Abstrak makalah (Abstract)
Mengintegrasikan berbagai alat seperti Code Interpreter dan Search memang telah secara signifikan meningkatkan penalaran Large Language Model (LLM) pada model seperti ChatGPT Agent dan Gemini-Pro, tetapi panduan praktis tentang penggunaan alat yang optimal masih kurang. Tantangan utamanya adalah menggabungkan penalaran teks, coding, dan pencarian secara efektif untuk berbagai jenis pertanyaan. Dalam makalah ini, penulis mengusulkan Tool-Use Mixture (TUMIX), sebuah framework ensemble yang menjalankan beberapa agen secara paralel, masing-masing menggunakan strategi pemakaian alat dan jalur jawaban yang berbeda. Agen dalam TUMIX secara iteratif saling berbagi dan menyempurnakan respons berdasarkan pertanyaan dan jawaban sebelumnya. Dalam eksperimen, TUMIX mencapai peningkatan signifikan dibanding metode tool-augmented mutakhir dan test-time scaling, dengan memberikan peningkatan akurasi rata-rata hingga 3,55% dibanding baseline terbaik pada Gemini-2.5-Pro dan Gemini-2.5-Flash di berbagai benchmark penalaran utama, dengan biaya inferensi yang hampir setara. Penulis menemukan bahwa keragaman dan kualitas agen sangat penting, dan dapat ditingkatkan dengan menggunakan LLM untuk mengoptimalkan desain agen secara otomatis. Selain itu, TUMIX dapat menghentikan proses penyempurnaan saat tingkat kepercayaan yang memadai telah tercapai, sehingga performa tetap terjaga hanya dengan 49% dari biaya inferensi. Penskalaan lebih lanjut dapat menghasilkan performa yang lebih tinggi, meski dengan biaya yang lebih besar.
> While integrating tools like Code Interpreter and Search has significantly enhanced Large Language Model (LLM) reasoning in models like ChatGPT Agent and Gemini-Pro, practical guidance on optimal tool use is lacking. The core challenge is effectively combining textual reasoning, coding, and search for diverse questions. In this paper, we propose Tool-Use Mixture (TUMIX), an ensemble framework that runs multiple agents in parallel, each employing distinct tool-use strategies and answer paths. Agents in TUMIX iteratively share and refine responses based on the question and previous answers. In experiments, TUMIX achieves significant gains over state-of-the-art tool-augmented and test-time scaling methods, delivering an average accuracy improvement of up to 3.55% over the best baseline on Gemini-2.5-Pro and Gemini-2.5-Flash across key reasoning benchmarks, with near-equal inference costs. We find that agent diversity and quality are crucial and can be enhanced by using LLMs to auto-optimize agent designs. Furthermore, TUMIX can halt refinement upon reaching sufficient confidence, preserving performance at only 49% of the inference cost. Further scaling can achieve higher performance, albeit at a greater cost.
Tautan makalah
https://arxiv.org/abs/2510.01279
Dengan bahasa mereka sendiri: Jejak penalaran yang disesuaikan untuk model kecil membuatnya menjadi penalar yang lebih baik / In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners
Pengantar makalah
Transfer kemampuan penalaran dari model bahasa besar ke model kecil sering kali menimbulkan masalah penurunan performa yang tidak terduga. Fenomena ini berasal dari distributional misalignment yang terjadi selama proses Supervised Fine-Tuning (SFT), karena jejak penalaran dari model besar mengandung token berprobabilitas rendah yang tidak selaras dengan distribusi probabilitas model kecil. Akibatnya, model kecil tidak dapat secara efektif mempelajari pola penalaran tingkat lanjut dari model besar, dan justru menghadapi hambatan dalam pembelajaran.
Untuk mengatasi masalah ini, metodologi yang diusulkan, yaitu Reverse Speculative Decoding (RSD), bekerja dengan cara model guru mengusulkan token kandidat, lalu model siswa memutuskan apakah akan menerimanya berdasarkan distribusi probabilitasnya sendiri. Dalam proses ini, token berprobabilitas rendah difilter sehingga langkah-langkah penalaran yang berguna tetap dipertahankan dalam rentang yang dapat ditangani model kecil. RSD diterapkan pada model Qwen3-0.6B, dan sementara data jejak penalaran yang dihasilkan melalui pendekatan distilasi langsung yang ada menurunkan performa rata-rata sebesar 20,5%, pelatihan menggunakan jejak penalaran yang dihasilkan oleh RSD menunjukkan peningkatan performa yang signifikan sebesar 4,9%.
Efek RSD terlihat secara konsisten di berbagai benchmark penalaran, dan menegaskan bahwa token berprobabilitas rendah merupakan bottleneck utama dalam transfer penalaran yang efektif. Selain itu, RSD perlu dioptimalkan untuk tiap model, yang mengisyaratkan perlunya penyelarasan distribusi sesuai representasi internal unik dari setiap model siswa. Temuan ini dinilai sebagai metodologi penting yang dapat berkontribusi pada peningkatan performa model kecil, sekaligus menunjukkan potensi penerapannya dalam riset mendatang.
Sebagai kesimpulan, RSD merupakan pendekatan inovatif yang dapat mentransfer kemampuan penalaran model besar ke model kecil secara efektif, dan berkontribusi pada peningkatan kemampuan penalaran model kecil melalui penyaringan token berprobabilitas rendah. Penelitian ini menawarkan arah baru untuk meningkatkan performa model kecil, serta menjadi landasan penting yang memperluas kemungkinan penerapannya di bidang AI dan machine learning pada masa depan.
Abstrak makalah
Transfer kemampuan penalaran dari model bahasa yang lebih besar ke model yang lebih kecil melalui supervised fine-tuning sering kali gagal secara kontraintuitif, dengan performa menurun meski tersedia demonstrasi guru berkualitas tinggi. Kami mengidentifikasi bahwa kegagalan ini berasal dari ketidakselarasan distribusi: jejak penalaran dari model yang lebih besar mengandung token yang berprobabilitas rendah di bawah distribusi siswa, melampaui kapasitas representasi internal arsitektur yang lebih kecil dan menciptakan hambatan pembelajaran alih-alih panduan yang berguna. Kami mengusulkan Reverse Speculative Decoding (RSD), sebuah mekanisme untuk menghasilkan jejak penalaran yang ramah bagi siswa, di mana model guru mengusulkan token kandidat tetapi model siswa menentukan penerimaannya berdasarkan distribusi probabilitasnya sendiri, sehingga menyaring token berprobabilitas rendah. Saat diterapkan pada Qwen3-0.6B, distilasi langsung data jejak penalaran s1K-1.1 menurunkan performa rata-rata di berbagai benchmark penalaran utama sebesar 20.5%, sementara model yang sama yang dilatih pada jejak penalaran hasil RSD mencapai peningkatan yang bermakna sebesar 4.9%. Analisis kami mengungkap bahwa token berprobabilitas rendah merupakan bottleneck kritis dalam transfer kemampuan penalaran. Namun, eksperimen lintas model menunjukkan bahwa jejak RSD bersifat spesifik model dan bukan berlaku universal, yang menandakan bahwa penyelarasan distribusi harus disesuaikan dengan representasi internal unik dari setiap arsitektur siswa.
> Transferring reasoning capabilities from larger language models to smaller ones through supervised fine-tuning often fails counterintuitively, with performance degrading despite access to high-quality teacher demonstrations. We identify that this failure stems from distributional misalignment: reasoning traces from larger models contain tokens that are low probability under the student's distribution, exceeding the internal representation capacity of smaller architectures and creating learning barriers rather than helpful guidance. We propose Reverse Speculative Decoding (RSD), a mechanism for generating student-friendly reasoning traces in which the teacher model proposes candidate tokens but the student model determines acceptance based on its own probability distributions, filtering low probability tokens. When applied to Qwen3-0.6B, direct distillation of s1K-1.1 reasoning trace data degrades average performance across major reasoning benchmarks by 20.5%, while the same model trained on RSD-generated reasoning traces achieves meaningful improvements of 4.9%. Our analysis reveals that low probability tokens constitute the critical bottleneck in reasoning ability transfer. However, cross-model experiments demonstrate that RSD traces are model-specific rather than universally applicable, indicating that distributional alignment must be tailored for each student architecture's unique internal representation.
Tautan makalah
https://arxiv.org/abs/2509.22230
AgentMaster: Kerangka Percakapan Multi-Agen yang Menggunakan Protokol A2A dan MCP untuk Pengambilan serta Analisis Informasi Multimodal / AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis
Pengantar makalah
Dalam bidang kecerdasan buatan (AI), perkembangan Multi-Agent Systems (MAS) memainkan peran penting dalam memungkinkan beberapa agen cerdas bekerja sama untuk menyelesaikan masalah yang kompleks. Namun, MAS saat ini menghadapi berbagai tantangan dalam komunikasi yang mulus antaragennya, koordinasi, serta interaksi dengan beragam alat dan sumber daya. Untuk mengatasi masalah ini, penelitian ini mengusulkan kerangka MAS modular baru bernama AgentMaster. Kerangka ini mengintegrasikan protokol komunikasi Agent-to-Agent (A2A) dan Model Context Protocol (MCP) untuk memungkinkan koordinasi dinamis dan komunikasi yang fleksibel.
AgentMaster menyediakan antarmuka percakapan terpadu yang dirancang agar pengguna dapat berinteraksi dengan sistem melalui bahasa alami tanpa memerlukan keahlian teknis. Melalui ini, sistem mendukung respons terhadap berbagai kueri multimodal seperti pencarian informasi, tanya jawab, dan analisis gambar. Kontribusi utama penelitian ini adalah memanfaatkan A2A dan MCP untuk memungkinkan koordinasi yang efektif antaragen dan komunikasi yang mulus di antara agen pencarian yang terspesialisasi. Selain itu, AgentMaster menguraikan kueri pengguna menjadi alur kerja yang terspesialisasi, sehingga mendukung dekomposisi kueri otomatis, penugasan tugas, dan perutean dinamis.
Hasil eksperimen menunjukkan bahwa AgentMaster mencatat performa tinggi, dengan 96.3% pada BERTScore F1 dan 87.1% pada LLM-as-a-Judge G-Eval. Hasil ini membuktikan koordinasi otomatis yang kuat antargen dan respons relevan yang spesifik domain, sekaligus berkontribusi pada perluasan potensi MAS. Penelitian ini menunjukkan inovasi kerangka MAS yang mengintegrasikan A2A dan MCP, dan diharapkan dapat memberikan kontribusi penting bagi kemajuan AI percakapan yang kolaboratif dan skalabel.
Abstrak makalah
Munculnya Multi-Agent Systems (MAS) yang terintegrasi dengan Large Language Models (LLM) telah sangat mempermudah penyelesaian tugas-tugas kompleks. Namun, sistem saat ini masih menghadapi kesulitan dalam komunikasi dan koordinasi antaragen, serta interaksi dengan alat dan sumber daya yang heterogen. Baru-baru ini, Model Context Protocol (MCP) dari Anthropic dan protokol komunikasi Agent-to-Agent (A2A) dari Google telah diperkenalkan, dan sejauh pengetahuan kami, sangat sedikit kasus di mana kedua protokol tersebut digunakan secara bersamaan dalam satu framework MAS. Kami mempresentasikan studi percontohan AgentMaster, framework MAS modular multi-protokol baru dengan A2A dan MCP yang diimplementasikan sendiri, yang memungkinkan koordinasi dinamis, komunikasi fleksibel, dan iterasi cepat. Melalui antarmuka percakapan terpadu, sistem ini mendukung interaksi bahasa alami tanpa keahlian teknis sebelumnya dan merespons kueri multimodal untuk tugas seperti pencarian informasi, tanya jawab, dan analisis gambar. Eksperimen divalidasi melalui evaluasi manusia dan metrik kuantitatif, termasuk BERTScore F1 (96.3%) dan LLM-as-a-Judge G-Eval (87.1%). Hasil ini menunjukkan koordinasi antaragen otomatis yang kuat, dekomposisi kueri, alokasi tugas, routing dinamis, serta respons relevan yang spesifik domain. Secara keseluruhan, framework yang kami usulkan berkontribusi pada potensi kemampuan AI percakapan yang spesifik domain, kolaboratif, dan skalabel yang didukung oleh MAS.
> The rise of Multi-Agent Systems (MAS) in Artificial Intelligence (AI), especially integrated with Large Language Models (LLMs), has greatly facilitated the resolution of complex tasks. However, current systems are still facing challenges of inter-agent communication, coordination, and interaction with heterogeneous tools and resources. Most recently, the Model Context Protocol (MCP) by Anthropic and Agent-to-Agent (A2A) communication protocol by Google have been introduced, and to the best of our knowledge, very few applications exist where both protocols are employed within a single MAS framework. We present a pilot study of AgentMaster, a novel modular multi-protocol MAS framework with self-implemented A2A and MCP, enabling dynamic coordination, flexible communication, and rapid development with faster iteration. Through a unified conversational interface, the system supports natural language interaction without prior technical expertise and responds to multimodal queries for tasks including information retrieval, question answering, and image analysis. The experiments are validated through both human evaluation and quantitative metrics, including BERTScore F1 (96.3%) and LLM-as-a-Judge G-Eval (87.1%). These results demonstrate robust automated inter-agent coordination, query decomposition, task allocation, dynamic routing, and domain-specific relevant responses. Overall, our proposed framework contributes to the potential capabilities of domain-specific, cooperative, and scalable conversational AI powered by MAS.
Tautan makalah
https://arxiv.org/abs/2507.21105
Metode injeksi pengetahuan yang efisien: hukum penskalaan injeksi pengetahuan untuk pre-training large language model / How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models
Pengenalan makalah
Large language model (LLM) menunjukkan performa unggul pada berbagai tugas, tetapi jika optimasi khusus domain kurang memadai, model dapat berkinerja buruk pada benchmark pengetahuan khusus dan memunculkan fenomena halusinasi. Studi ini mengusulkan metodologi untuk secara strategis menyuntikkan pengetahuan domain selama proses pre-training, dengan fokus pada fenomena memory collapse yang muncul dalam proses tersebut. Memory collapse terjadi akibat injeksi pengetahuan yang berlebihan, dan hal ini secara drastis menurunkan kemampuan model untuk mempertahankan pengetahuan. Tim peneliti memperoleh dua temuan utama. Pertama, setiap model menunjukkan titik ambang di mana kemampuan retensi pengetahuannya menurun tajam, dan kedua, titik keruntuhan tersebut diskalakan secara konsisten dengan ukuran model.
Berdasarkan wawasan ini, penelitian tersebut mengusulkan knowledge infusion scaling law. Hukum ini membantu memprediksi jumlah optimal pengetahuan domain yang akan disuntikkan ke LLM skala besar, dan efektivitas serta generalitasnya divalidasi melalui eksperimen pada berbagai ukuran model dan anggaran token terkait. Secara khusus, studi ini menunjukkan bahwa fenomena memory collapse terjadi karena injeksi pengetahuan yang berlebihan, yang mengindikasikan bahwa injeksi pengetahuan tingkat token yang jarang sudah memadai bahkan pada dataset berskala besar.
Penelitian ini juga mengevaluasi performa retensi memori berdasarkan berbagai ukuran dataset pelatihan dan frekuensi injeksi, serta menemukan bahwa model yang lebih besar dapat mencapai kondisi jenuh hanya dengan sedikit pengetahuan. Hasil-hasil ini memberikan wawasan penting untuk spesialisasi domain dan optimasi LLM, serta diharapkan berkontribusi pada perancangan strategi injeksi pengetahuan dalam riset mendatang. Studi ini berfokus pada evaluasi efek injeksi pengetahuan pada large language model, serta menyajikan metodologi untuk menilai kemampuan retensi memori dan memprediksi titik keruntuhan, sekaligus menganalisis pengaruh berbagai template.
Abstrak makalah (Abstract)
Large language model (LLM) telah menarik perhatian besar berkat kemampuan umumnya yang mengesankan di berbagai tugas downstream. Namun, tanpa optimasi khusus domain, model-model ini sering berkinerja kurang baik pada tolok ukur pengetahuan spesialis dan bahkan menghasilkan halusinasi. Studi terbaru menunjukkan bahwa menyuntikkan pengetahuan domain secara strategis selama pra-pelatihan dapat secara signifikan meningkatkan kinerja pada tugas downstream. Tantangan utamanya adalah menyeimbangkan trade-off penyuntikan ini: jika data khusus domain yang disuntikkan terlalu sedikit, spesialisasi yang dihasilkan tidak memadai; sebaliknya, penyuntikan yang berlebihan memicu catastrophic forgetting terhadap pengetahuan yang telah diperoleh sebelumnya. Dalam penelitian ini, kami berfokus pada fenomena kolaps memori yang disebabkan oleh penyuntikan berlebihan. Melalui eksperimen sistematis, kami memperoleh dua pengamatan utama. Pertama, titik kolaps kritis: setiap model menunjukkan ambang batas di mana kemampuan retensi pengetahuannya menurun tajam. Kedua, korelasi skala: titik-titik kolaps ini meningkat secara konsisten seiring ukuran model. Berdasarkan wawasan ini, kami mengusulkan scaling law penyuntikan pengetahuan yang memprediksi jumlah optimal pengetahuan domain yang perlu disuntikkan ke LLM besar dengan menganalisis padanannya yang lebih kecil. Eksperimen ekstensif pada berbagai ukuran model dan anggaran token terkait memvalidasi baik efektivitas maupun generalisasi dari scaling law kami.
> Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.
Tautan makalah
https://arxiv.org/abs/2509.19371
Bifrost-1: Menjembatani MLLM multimodal dan model difusi dengan latent CLIP tingkat patch / Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents
Pengantar makalah
Bifrost-1 mengusulkan kerangka kerja inovatif yang menghubungkan multimodal large language model (MLLM) pralatih dan model difusi melalui embedding gambar CLIP (Contrastive Language-Image Pretraining) tingkat patch. Pendekatan sebelumnya menghadapi biaya pelatihan yang tinggi dan masalah efisiensi karena LLM tidak pernah mengalami representasi gambar selama pra-pelatihan. Untuk mengatasi masalah ini, Bifrost-1 memanfaatkan embedding gambar tingkat patch yang secara alami selaras dengan encoder visual CLIP milik MLLM, lalu mengintegrasikannya ke dalam model difusi. Dalam proses ini, melalui adaptasi ringan dari ControlNet, Bifrost-1 menambahkan cabang generasi visual yang memprediksi embedding gambar tingkat patch sambil tetap mempertahankan kemampuan penalaran multimodal asli dari MLLM.
Inovasi utama Bifrost-1 adalah memungkinkan penghubungan yang efisien antara MLLM dan model difusi dengan menggunakan latent CLIP tingkat patch. Dengan cara ini, sistem ini mewujudkan generasi gambar yang dapat dikendalikan dengan fidelitas tinggi sekaligus sangat meningkatkan efisiensi pelatihan. Hasil eksperimen menunjukkan bahwa Bifrost-1 memberikan kinerja yang setara atau lebih baik dibanding metode sebelumnya dalam hal fidelitas visual dan pemahaman multimodal, serta berhasil secara signifikan mengurangi biaya komputasi selama pelatihan.
Selain itu, melalui studi ablasi yang komprehensif, Bifrost-1 membuktikan bahwa pilihan desainnya efektif. Studi ini menekankan pentingnya pemrosesan informasi multimodal dan akan berkontribusi pada pembangunan sistem AI yang lebih maju melalui integrasi antara LLM dan model difusi. Bifrost-1 menghadirkan tolok ukur baru untuk generasi dan pemahaman multimodal, dan diharapkan menjadi tonggak penting bagi penelitian di masa depan.
Abstrak makalah
Minat untuk mengintegrasikan kemampuan sintesis visual berkefidelitas tinggi ke dalam large language model (LLM) terus meningkat, dengan arah yang tidak mengorbankan kemampuan penalaran kuat yang dimilikinya. Metode yang ada umumnya melatih LLM secara langsung atau mencoba menjembatani LLM dan diffusion model, tetapi menghadapi masalah pelatihan yang mahal karena backbone LLM tidak pernah melihat representasi gambar selama pretraining. Kami mengusulkan Bifrost-1, sebuah kerangka terpadu yang menjembatani multimodal LLM (MLLM) pralatih dan diffusion model dengan menggunakan embedding gambar CLIP tingkat patch sebagai variabel laten. Embedding gambar tingkat patch ini secara alami selaras dengan encoder visual CLIP milik MLLM. Embedding gambar tingkat patch tersebut diintegrasikan ke dalam diffusion model melalui adaptasi ringan dari ControlNet. Untuk mempertahankan kemampuan penalaran multimodal asli dari MLLM, kami melengkapi MLLM dengan cabang visual generation yang diinisialisasi dari parameter MLLM asli saat memprediksi embedding gambar tingkat patch. Dengan mengintegrasikan MLLM pralatih dan diffusion model secara mulus menggunakan laten CLIP tingkat patch, kerangka kami memungkinkan pembuatan gambar yang dapat dikendalikan dengan fidelitas tinggi sekaligus sangat meningkatkan efisiensi pelatihan. Hasil eksperimen menunjukkan bahwa Bifrost-1 mencapai kinerja yang sebanding atau lebih baik dibandingkan metode sebelumnya dalam hal fidelitas visual dan pemahaman multimodal, sambil secara signifikan mengurangi biaya komputasi selama pelatihan. Kami juga menyediakan ablation studies yang komprehensif untuk menunjukkan efektivitas pilihan desain kami.
> There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.
Tautan makalah
https://arxiv.org/abs/2508.05954
Baca lebih lanjut
Continual Learning untuk VLM: Survei dan Taksonomi Melampaui Forgetting / Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting
Pengenalan makalah
Vision-Language Models (VLM) menunjukkan kinerja yang unggul pada beragam tugas multimodal melalui pretraining skala besar, tetapi masih menghadapi berbagai tantangan dalam terus belajar dari data non-stasioner. Masalah ini menjadi semakin menonjol karena penyelarasan lintas modal dan kemampuan generalisasi sangat rentan terhadap catastrophic forgetting. Continual learning untuk VLM (VLM-CL) memiliki persoalan khas yang berbeda dari continual learning unimodal tradisional, dan makalah ini mengidentifikasi tiga mode kegagalan utama dalam VLM-CL serta mengusulkan kerangka taksonomi berbasis tantangan untuk mengatasinya.
Kerangka taksonomi yang diusulkan terdiri dari (1) strategi replay multimodal, (2) regularisasi lintas modal, dan (3) adaptasi yang efisien parameter. Strategi replay multimodal membantu mengurangi cross-modal feature drift dengan memutar ulang informasi dari tugas-tugas sebelumnya, sementara regularisasi lintas modal berfokus pada menjaga penyelarasan modalitas selama proses pembaruan. Adaptasi yang efisien parameter adalah metodologi yang membekukan model pralatih utama dan hanya memperbarui sejumlah kecil parameter baru untuk mengatasi masalah interferensi antar modul bersama.
Makalah ini memberikan ulasan yang komprehensif untuk VLM-CL, serta menganalisis protokol evaluasi, dataset, dan metrik saat ini untuk menekankan perlunya benchmark yang lebih baik yang dapat menangkap forgetting khas VLM dan generalisasi komposisional. Selain itu, makalah ini mengajukan arah riset ke depan, termasuk continual pretraining dan compositional zero-shot learning, sehingga dapat menjadi rujukan yang berguna bagi para peneliti dalam mengembangkan sistem vision-language sepanjang hayat. Pendekatan yang sistematis dan diagnostik ini akan membantu mendorong inovasi di bidang continual learning untuk VLM, serta berkontribusi dalam meletakkan fondasi bagi pembangunan sistem AI multimodal lifelong learning yang sesungguhnya.
Abstrak makalah(Abstract)
Vision-language model (VLM) telah mencapai kinerja yang mengesankan di berbagai tugas multimodal dengan memanfaatkan pra-pelatihan skala besar. Namun, memungkinkan model-model ini untuk terus belajar dari data non-stasioner masih menjadi tantangan utama, karena kemampuan penyelarasan lintas modal dan generalisasinya sangat rentan terhadap catastrophic forgetting. Berbeda dari continual learning (CL) unimodal tradisional, VLM menghadapi tantangan unik seperti drift fitur lintas modal, interferensi parameter akibat arsitektur bersama, dan penurunan kemampuan zero-shot. Makalah survei ini menyajikan ulasan terfokus dan sistematis pertama tentang continual learning untuk VLM (VLM-CL). Kami memulai dengan mengidentifikasi tiga mode kegagalan inti yang dapat menurunkan kinerja dalam VLM-CL. Berdasarkan hal ini, kami mengusulkan taksonomi berbasis tantangan untuk memetakan solusi terhadap masalah yang dituju: (1) \textit{Strategi Replay Multimodal} menangani drift lintas modal melalui mekanisme memori eksplisit maupun implisit; (2) \textit{Regularisasi Lintas Modal} mempertahankan penyelarasan modalitas selama pembaruan; dan (3) \textit{Adaptasi Hemat Parameter} mengurangi interferensi parameter melalui pembaruan modular atau low-rank. Kami juga menganalisis protokol evaluasi, dataset, dan metrik saat ini, sembari menyoroti perlunya benchmark yang lebih baik untuk menangkap forgetting spesifik VLM dan generalisasi komposisional. Terakhir, kami menguraikan masalah terbuka dan arah masa depan, termasuk pra-pelatihan berkelanjutan dan pembelajaran zero-shot komposisional. Makalah survei ini bertujuan menjadi referensi yang komprehensif dan diagnostik bagi para peneliti yang mengembangkan sistem vision-language seumur hidup. Semua sumber daya tersedia di tautan berikut: https://github.com/YuyangSunshine/….
> Vision-language models (VLMs) have achieved impressive performance across diverse multimodal tasks by leveraging large-scale pre-training. However, enabling them to learn continually from non-stationary data remains a major challenge, as their cross-modal alignment and generalization capabilities are particularly vulnerable to catastrophic forgetting. Unlike traditional unimodal continual learning (CL), VLMs face unique challenges such as cross-modal feature drift, parameter interference due to shared architectures, and zero-shot capability erosion. This survey offers the first focused and systematic review of continual learning for VLMs (VLM-CL). We begin by identifying the three core failure modes that degrade performance in VLM-CL. Based on these, we propose a challenge-driven taxonomy that maps solutions to their target problems: (1) \textit{Multi-Modal Replay Strategies} address cross-modal drift through explicit or implicit memory mechanisms; (2) \textit{Cross-Modal Regularization} preserves modality alignment during updates; and (3) \textit{Parameter-Efficient Adaptation} mitigates parameter interference with modular or low-rank updates. We further analyze current evaluation protocols, datasets, and metrics, highlighting the need for better benchmarks that capture VLM-specific forgetting and compositional generalization. Finally, we outline open problems and future directions, including continual pre-training and compositional zero-shot learning. This survey aims to serve as a comprehensive and diagnostic reference for researchers developing lifelong vision-language systems. All resources are available at: https://github.com/YuyangSunshine/….
Tautan makalah
https://arxiv.org/abs/2508.04227
Baca lebih lanjut
https://github.com/YuyangSunshine/…
Federasi Agen: Fabrik Komunikasi Sadar Semantik untuk Agentic AI Skala Besar / Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI
Pengenalan makalah
Federation of Agents (FoA) adalah kerangka orkestrasi terdistribusi inovatif yang mengubah koordinasi multi-agen statis menjadi kolaborasi dinamis yang berpusat pada kapabilitas. Sistem ini memperkenalkan Versioned Capability Vectors (VCV), yang mengubah kapabilitas agen menjadi profil yang dapat dibaca mesin, sehingga agen dapat secara efektif mengiklankan kemampuan, biaya, dan keterbatasannya. Arsitektur FoA mencakup tiga inovasi utama. Pertama, semantic routing digunakan untuk mencocokkan tugas dengan agen, dengan memanfaatkan indeks HNSW yang di-shard, serta melakukan optimisasi berbias biaya yang mematuhi kendala operasional. Kedua, melalui teknik dynamic task decomposition, agen-agen yang kompatibel memecah tugas kompleks menjadi sub-tugas berbentuk DAG (Directed Acyclic Graph) dan menjalankannya secara kolaboratif melalui penggabungan berbasis konsensus. Ketiga, teknik smart clustering mengelompokkan agen-agen yang menangani sub-tugas serupa ke dalam kanal kolaborasi, lalu menyempurnakan pekerjaan lebih lanjut melalui pemurnian k-putaran.
FoA mendukung pengiriman pesan yang skalabel berdasarkan semantik publish-subscribe MQTT, serta mencapai kompleksitas sub-linear melalui pencocokan kapabilitas hierarkis dan pengelolaan indeks yang efisien. Hasil evaluasi di HealthBench menunjukkan bahwa FoA memberikan peningkatan kinerja 13 kali lipat dibanding baseline model tunggal, dan secara khusus membuktikan bahwa kolaborasi yang diperkuat clustering efektif untuk tugas penalaran kompleks yang memerlukan berbagai sudut pandang. Sistem ini dapat diskalakan secara horizontal sambil mempertahankan kinerja yang konsisten, menunjukkan bahwa orkestrasi semantik melalui kolaborasi terstruktur dapat secara efektif memanfaatkan kecerdasan kolektif dari federasi agen AI yang heterogen. Penelitian ini diharapkan berkontribusi pada kemajuan bidang AI dengan menghadirkan metodologi yang dapat memaksimalkan efisiensi sistem multi-agen dan memproses tugas kompleks dengan lebih efektif.
Abstrak makalah
Berikut adalah abstrak makalah di bidang AI/ML. Kami memperkenalkan Federation of Agents (FoA). FoA adalah kerangka orkestrasi terdistribusi yang mengubah koordinasi multi-agent statis menjadi kolaborasi dinamis berbasis kapabilitas. FoA memperkenalkan Versioned Capability Vectors (VCVs). Ini adalah profil yang dapat dibaca mesin yang membuat kapabilitas agen dapat dicari melalui embedding semantik, sehingga agen dapat mengiklankan kapabilitas, biaya, dan keterbatasannya. Arsitektur kami menggabungkan tiga inovasi utama: (1) routing semantik yang mencocokkan tugas ke agen melalui indeks HNSW yang di-shard sambil menegakkan batasan operasional melalui optimisasi yang bias biaya, (2) dekomposisi tugas dinamis, di mana agen yang kompatibel secara kolaboratif memecah tugas kompleks menjadi DAG sub-tugas melalui penggabungan berbasis konsensus, dan (3) smart clustering yang mengelompokkan agen yang mengerjakan sub-tugas serupa ke dalam kanal kolaboratif untuk penyempurnaan k-putaran sebelum sintesis. Dibangun di atas semantik publish-subscribe MQTT, FoA mencapai kompleksitas sub-linear melalui pencocokan kapabilitas hierarkis dan pemeliharaan indeks yang efisien. Evaluasi pada HealthBench menunjukkan peningkatan 13x dibandingkan baseline model tunggal, serta membuktikan bahwa kolaborasi yang ditingkatkan dengan clustering sangat efektif untuk tugas penalaran kompleks yang memerlukan berbagai perspektif. Sistem ini dapat diskalakan secara horizontal sambil mempertahankan performa yang konsisten, menunjukkan bahwa orkestrasi semantik dengan kolaborasi terstruktur dapat membuka kecerdasan kolektif dari federasi agen AI yang heterogen.
> We present Federation of Agents (FoA), a distributed orchestration framework that transforms static multi-agent coordination into dynamic, capability-driven collaboration. FoA introduces Versioned Capability Vectors (VCVs): machine-readable profiles that make agent capabilities searchable through semantic embeddings, enabling agents to advertise their capabilities, cost, and limitations. Our aarchitecturecombines three key innovations: (1) semantic routing that matches tasks to agents over sharded HNSW indices while enforcing operational constraints through cost-biased optimization, (2) dynamic task decomposition where compatible agents collaboratively break down complex tasks into DAGs of subtasks through consensus-based merging, and (3) smart clustering that groups agents working on similar subtasks into collaborative channels for k-round refinement before synthesis. Built on top of MQTT,s publish-subscribe semantics for scalable message passing, FoA achieves sub-linear complexity through hierarchical capability matching and efficient index maintenance. Evaluation on HealthBench shows 13x improvements over single-model baselines, with clustering-enhanced laboration particularly effective for complex reasoning tasks requiring multiple perspectives. The system scales horizontally while maintaining consistent performance, demonstrating that semantic orchestration with structured collaboration can unlock the collective intelligence of heterogeneous federations of AI agents.
Tautan makalah
https://arxiv.org/abs/2509.20175
Survei mekanisme attention yang efisien untuk model bahasa skala besar / Efficient Attention Mechanisms for Large Language Models: A Survey
Pengantar makalah
Arsitektur berbasis Transformer merupakan inti dari model bahasa besar, tetapi kompleksitas waktu dan memori kuadratik dari self-attention menjadi kendala besar dalam pemrosesan konteks panjang. Untuk mengatasi hal ini, penelitian terbaru mengusulkan dua teknik attention efisien utama: linear attention, yang memanfaatkan aproksimasi kernel, struktur rekuren, dan dinamika fast weight, serta sparse attention, yang menggunakan pola tetap, routing berbasis blok, dan clustering. Dalam makalah survei ini, metode-metode tersebut disusun secara sistematis dengan mengintegrasikan baik inovasi algoritmik maupun perspektif perangkat keras, serta menganalisis berbagai pendekatan desain model bahasa pra-pelatihan skala besar yang menerapkan attention efisien. Dengan demikian, makalah ini menyediakan landasan yang menghubungkan teori dan strategi praktis untuk merancang model bahasa yang skalabel dan efisien.
Abstrak makalah
Arsitektur berbasis Transformer telah menjadi backbone utama model bahasa skala besar. Namun, kompleksitas waktu dan memori kuadratik dari self-attention tetap menjadi hambatan mendasar bagi pemodelan konteks panjang yang efisien. Untuk mengatasi keterbatasan ini, riset terbaru telah memperkenalkan dua kategori utama mekanisme attention yang efisien. Metode linear attention mencapai kompleksitas linear melalui pendekatan kernel, formulasi rekuren, atau fastweight dynamics, sehingga memungkinkan inferensi yang dapat diskalakan dengan overhead komputasi yang lebih rendah. Sebaliknya, teknik sparse attention membatasi komputasi attention hanya pada subset token terpilih berdasarkan pola tetap, routing berbasis blok, atau strategi clustering, sehingga meningkatkan efisiensi sambil tetap mempertahankan cakupan konteks. Makalah survei ini menyajikan tinjauan yang sistematis dan komprehensif atas perkembangan tersebut, dengan mengintegrasikan inovasi algoritmik dan pertimbangan pada tingkat hardware. Selain itu, makalah ini menganalisis penerapan efficient attention ke dalam model bahasa pra-pelatihan skala besar, termasuk arsitektur yang sepenuhnya dibangun di atas efficient attention maupun desain hibrida yang menggabungkan komponen lokal (local) dan global (global). Dengan menyelaraskan landasan teoretis dan strategi deployment praktis, karya ini bertujuan menjadi referensi dasar untuk memajukan desain model bahasa yang skalabel dan efisien.
> Transformer-based architectures have become the prevailing backbone of large language models. However, the quadratic time and memory complexity of self-attention remains a fundamental obstacle to efficient long-context modeling. To address this limitation, recent research has introduced two principal categories of efficient attention mechanisms. Linear attention methods achieve linear complexity through kernel approximations, recurrent formulations, or fastweight dynamics, thereby enabling scalable inference with reduced computational overhead. Sparse attention techniques, in contrast, limit attention computation to selected subsets of tokens based on fixed patterns, block-wise routing, or clustering strategies, enhancing efficiency while preserving contextual coverage. This survey provides a systematic and comprehensive overview of these developments, integrating both algorithmic innovations and hardware-level considerations. In addition, we analyze the incorporation of efficient attention into largescale pre-trained language models, including both architectures built entirely on efficient attention and hybrid designs that combine local and global components. By aligning theoretical foundations with practical deployment strategies, this work aims to serve as a foundational reference for advancing the design of scalable and efficient language models.
Tautan makalah
https://arxiv.org/abs/2507.19595
鈿狅笍Iklan鈿狅笍: Apakah tulisan yang dirangkum oleh 馃敟Komunitas Pengguna PyTorch Korea馃嚢馃嚪 ini bermanfaat bagi Anda? Jika bergabung sebagai anggota, kami akan mengirimkan tulisan-tulisan utama melalui email馃拰! Default-nya mingguan, tetapi bisa diubah menjadi harian.
Belum ada komentar.