ML yang Patut Disimak Minggu Ini

(discuss.pytorch.kr)

7 poin oleh ninebow 2025-12-24 | Belum ada komentar. | Bagikan ke WhatsApp

[2025/12/15 ~ 21] Kumpulan Makalah AI/ML yang Patut Disimak Minggu Ini

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Pentingnya adaptasi agen: Makalah-makalah yang dipilih minggu ini menekankan perlunya adaptasi untuk meningkatkan performa dan keandalan sistem AI berbasis agen. Sebuah kerangka kerja sistematis yang mengintegrasikan adaptasi agen dan alat telah diusulkan, yang memperjelas ruang desain berbagai strategi adaptasi dan memberikan panduan praktis.

2️⃣ Perkembangan sistem memori: Memori agen kini menjadi fungsi inti dalam sistem AI, dan berbagai bentuk serta fungsi sistem memori sedang diteliti. Dengan menyadari bahwa metode klasifikasi memori yang ada belum cukup untuk menangkap keragaman memori agen modern, penelitian ini menganalisis bentuk, fungsi, dan dinamika memori secara terpadu serta mengusulkan arah riset baru.

3️⃣ Transisi dan optimasi model yang efisien: Makalah-makalah terbaru mengeksplorasi cara meningkatkan kecepatan dan akurasi sekaligus melalui transisi dari model bahasa autoregresif (AR) ke diffusion language model (dLM). Secara khusus, penelitian bergerak ke arah memaksimalkan performa model dengan membandingkan berbagai pola attention dan strategi pelatihan, serta mengusulkan prinsip dan metodologi untuk transisi yang efisien.

Adaptasi AI Agentic / Adaptation of Agentic AI

Pengantar makalah

Sistem AI agentic mutakhir dibangun di atas foundation model dan semakin mampu menangani tugas yang kompleks serta terspesialisasi. Untuk meningkatkan performa, keandalan, dan generalisasi sistem semacam ini, adaptasi telah menjadi mekanisme kunci. Studi ini menyajikan kerangka kerja sistematis yang mencakup adaptasi agen dan adaptasi alat, sehingga memperjelas ruang desain dari berbagai strategi adaptasi dan menegaskan trade-off antarsebuah strategi. Kerangka ini dipecah menjadi adaptasi berbentuk sinyal eksekusi alat dan sinyal keluaran agen, serta juga dibagi menjadi adaptasi alat dalam bentuk critic agent dan supervisor agent.

Penelitian ini meninjau pendekatan representatif di setiap kategori, menganalisis kekuatan dan keterbatasannya, serta menyoroti tantangan terbuka utama dan peluang masa depan. Secara khusus, metode tipe A1 awal berfokus pada Supervised Fine-Tuning dan Direct Preference Optimization, dan metode-metode ini berkembang dengan cara mengumpulkan respons model terkait penggunaan alat untuk memperoleh sinyal pembelajaran. Model awal seperti Toolformer berupaya meningkatkan penggunaan alat dengan memanfaatkan sinyal pembelajaran self-supervised, tetapi memiliki keterbatasan dalam penerapan di lingkungan nyata.

Untuk mengatasi keterbatasan ini, model lanjutan seperti TRICE dan ToolAlpaca mengadopsi reinforcement learning melalui feedback eksekusi untuk secara langsung meningkatkan kemampuan penggunaan alat. TP-LLaMA mengusulkan pendekatan baru yang memanfaatkan lintasan yang gagal agar model dapat belajar dari kegagalan, sementara Gorilla menekankan ketepatan struktural untuk menghasilkan pemanggilan API yang benar dari kumpulan besar API machine learning. CodeAct mengusulkan paradigma pembelajaran melalui interaksi langsung dengan lingkungan kode yang dapat dieksekusi, sehingga memungkinkan penetapan tujuan pembelajaran berbasis hasil yang dapat diverifikasi.

Terakhir, metode berbasis RLVR (verifiable rewards) memungkinkan model belajar secara langsung melalui interaksi online dengan alat dan lingkungan, sehingga adaptasi menjadi dinamis dan peka terhadap konteks. Riset-riset ini berkontribusi pada perkembangan sistem AI agentic dan menyediakan landasan penting yang menunjukkan kemungkinan penerapan dalam riset dan praktik ke depan.

Abstrak makalah (Abstract)

Sistem AI agen mutakhir dibangun di atas foundation model yang dapat diadaptasi untuk merencanakan, bernalar, dan berinteraksi dengan alat eksternal guna menjalankan tugas yang semakin kompleks dan terspesialisasi. Seiring sistem ini bertambah dalam kemampuan dan cakupan, adaptasi menjadi mekanisme sentral untuk meningkatkan performa, keandalan, dan generalisasi. Dalam makalah ini, kami menyatukan lanskap riset yang berkembang pesat ke dalam sebuah kerangka kerja sistematis yang mencakup baik adaptasi agen maupun adaptasi alat. Kami selanjutnya menguraikannya menjadi adaptasi agen berbasis sinyal eksekusi alat dan adaptasi agen berbasis sinyal keluaran agen, serta adaptasi alat yang agent-agnostic dan agent-supervised. Kami menunjukkan bahwa kerangka ini membantu memperjelas ruang desain strategi adaptasi dalam AI agentic, menegaskan trade-off di antaranya, dan memberikan panduan praktis untuk memilih atau beralih di antara strategi selama perancangan sistem. Kami kemudian meninjau pendekatan representatif di setiap kategori, menganalisis kekuatan dan keterbatasannya, serta menyoroti tantangan terbuka utama dan peluang masa depan. Secara keseluruhan, makalah ini bertujuan menawarkan landasan konseptual dan roadmap praktis bagi peneliti serta praktisi yang ingin membangun sistem AI agen yang lebih mumpuni, efisien, dan andal.
> Cutting-edge agentic AI systems are built on foundation models that can be adapted to plan, reason, and interact with external tools to perform increasingly complex and specialized tasks. As these systems grow in capability and scope, adaptation becomes a central mechanism for improving performance, reliability, and generalization. In this paper, we unify the rapidly expanding research landscape into a systematic framework that spans both agent adaptations and tool adaptations. We further decompose these into tool-execution-signaled and agent-output-signaled forms of agent adaptation, as well as agent-agnostic and agent-supervised forms of tool adaptation. We demonstrate that this framework helps clarify the design space of adaptation strategies in agentic AI, makes their trade-offs explicit, and provides practical guidance for selecting or switching among strategies during system design. We then review the representative approaches in each category, analyze their strengths and limitations, and highlight key open challenges and future opportunities. Overall, this paper aims to offer a conceptual foundation and practical roadmap for researchers and practitioners seeking to build more capable, efficient, and reliable agentic AI systems.

Tautan makalah

https://arxiv.org/abs/2512.16301

Baca lebih lanjut

https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI

Memori di Era AI Agents / Memory in the Age of AI Agents

Pengantar makalah

Memori agen telah menjadi elemen esensial dalam sistem kecerdasan buatan (AI) modern, dan studi ini bertujuan menata serta menganalisis secara sistematis kompleksitas dan keragaman memori tersebut. Penelitian-penelitian sebelumnya menunjukkan perbedaan besar dalam motivasi, metode implementasi, dan protokol evaluasi memori agen, sehingga menimbulkan kurangnya kejelasan konseptual. Karena itu, makalah ini mendefinisikan secara jelas cakupan memori agen dan menekankan perbedaannya dengan large language model (LLM) memory, retrieval-augmented generation (RAG), dan context engineering.

Penelitian ini menganalisis memori agen dari tiga sudut pandang: bentuk, fungsi, dan dinamika. Dari sudut pandang bentuk, makalah ini menyajikan tiga bentuk utama, yaitu memori tingkat token, parametrik, dan laten, serta menjelaskan karakteristik dan cara kerjanya masing-masing. Dari sudut pandang fungsional, memori dibagi menjadi memori faktual, eksperimental, dan memori tugas untuk memperjelas peran yang dijalankan oleh masing-masing jenis memori. Dari sudut pandang dinamika, penelitian ini mengeksplorasi proses pembentukan, evolusi, dan pengambilan memori untuk menganalisis bagaimana memori bekerja saat agen berinteraksi dengan lingkungan.

Penelitian ini juga memberikan ringkasan komprehensif tentang benchmark memori dan framework open source untuk mendukung pengembangan praktis, serta menyajikan prospek atas frontier riset baru seperti otomasi memori, integrasi reinforcement learning, memori multimodal, dan memori multi-agent. Pendekatan ini meletakkan dasar untuk memikirkan kembali memori sebagai primitif kelas satu dalam desain sistem memori agent, sekaligus menunjukkan arah bagi riset di masa depan.

Sebagai hasilnya, makalah ini diharapkan berkontribusi pada pengembangan sistem memori AI agent dengan merangkum secara komprehensif kondisi terkini riset memori agent dan memberikan wawasan untuk penelitian selanjutnya.

Abstrak Makalah(Abstract)

Memori telah muncul sebagai kemampuan inti dari agent berbasis foundation model, dan akan terus memainkan peran penting ke depannya. Seiring riset tentang memori agent berkembang pesat dan menarik perhatian yang belum pernah terjadi sebelumnya, bidang ini juga menjadi semakin terfragmentasi. Karya-karya yang ada dalam payung memori agent sering kali sangat berbeda dalam motivasi, implementasi, dan protokol evaluasinya, sementara menjamurnya terminologi memori yang didefinisikan secara longgar semakin mengaburkan kejelasan konseptual. Taksonomi tradisional seperti memori jangka panjang/jangka pendek telah terbukti tidak memadai untuk menangkap keragaman sistem memori agent kontemporer. Karya ini bertujuan memberikan lanskap terkini dari riset memori agent saat ini. Kami memulai dengan secara jelas membatasi cakupan memori agent dan membedakannya dari konsep terkait seperti memori LLM, retrieval augmented generation (RAG), dan context engineering. Selanjutnya, kami menelaah memori agent melalui lensa terpadu berupa bentuk, fungsi, dan dinamika. Dari perspektif bentuk, kami mengidentifikasi tiga realisasi dominan memori agent, yaitu memori tingkat token, parametrik, dan laten. Dari perspektif fungsi, kami mengusulkan taksonomi yang lebih terperinci yang membedakan memori faktual, eksperiensial, dan working memory. Dari perspektif dinamika, kami menganalisis bagaimana memori dibentuk, berkembang, dan diambil kembali seiring waktu. Untuk mendukung pengembangan praktis, kami menyusun ringkasan komprehensif tentang benchmark memori dan framework open source. Lebih dari sekadar konsolidasi, kami menguraikan perspektif berorientasi masa depan atas frontier riset yang sedang muncul, termasuk otomasi memori, integrasi reinforcement learning, memori multimodal, memori multi-agent, dan isu trustworthiness. Kami berharap survei ini tidak hanya menjadi referensi bagi karya yang sudah ada, tetapi juga menjadi landasan konseptual untuk memikirkan kembali memori sebagai primitif kelas satu dalam desain agentic intelligence masa depan.

Memory has emerged, and will continue to remain, a core capability of foundation model-based agents. As research on agent memory rapidly expands and attracts unprecedented attention, the field has also become increasingly fragmented. Existing works that fall under the umbrella of agent memory often differ substantially in their motivations, implementations, and evaluation protocols, while the proliferation of loosely defined memory terminologies has further obscured conceptual clarity. Traditional taxonomies such as long/short-term memory have proven insufficient to capture the diversity of contemporary agent memory systems. This work aims to provide an up-to-date landscape of current agent memory research. We begin by clearly delineating the scope of agent memory and distinguishing it from related concepts such as LLM memory, retrieval augmented generation (RAG), and context engineering. We then examine agent memory through the unified lenses of forms, functions, and dynamics. From the perspective of forms, we identify three dominant realizations of agent memory, namely token-level, parametric, and latent memory. From the perspective of functions, we propose a finer-grained taxonomy that distinguishes factual, experiential, and working memory. From the perspective of dynamics, we analyze how memory is formed, evolved, and retrieved over time. To support practical development, we compile a comprehensive summary of memory benchmarks and open-source frameworks. Beyond consolidation, we articulate a forward-looking perspective on emerging research frontiers, including memory automation, reinforcement learning integration, multimodal memory, multi-agent memory, and trustworthiness issues. We hope this survey serves not only as a reference for existing work, but also as a conceptual foundation for rethinking memory as a first-class primitive in the design of future agentic intelligence.

Tautan Makalah

https://arxiv.org/abs/2512.13564

Bacaan Lanjutan

https://github.com/Shichun-Liu/Agent-Memory-Paper-List

Keseimbangan terperinci pada agent berbasis large language model / Detailed balance in large language model-driven agents

Pengantar Makalah

Agent berbasis large language model (LLM) menawarkan pendekatan revolusioner untuk menyelesaikan masalah kompleks, tetapi terlepas dari keberhasilan empiris sistem semacam ini, masih terdapat kekurangan kerangka teoretis. Studi ini mengusulkan metodologi baru untuk mengestimasi arah generasi LLM berdasarkan prinsip aksi minimum. Metodologi ini secara eksperimental mengukur probabilitas transisi antarkeadaan yang dihasilkan LLM, sehingga membuktikan secara statistik adanya keseimbangan terperinci yang ditemukan dalam transisi generatif LLM. Temuan ini menunjukkan bahwa LLM mungkin tidak mempelajari seperangkat aturan atau strategi tertentu, melainkan secara implisit mempelajari kelas fungsi potensial yang dapat melampaui beragam arsitektur LLM dan template prompt.

Riset ini merupakan kasus pertama yang menemukan hukum fisika makroskopik dalam dinamika generatif LLM, dan memuat upaya untuk membangun teori dinamika makroskopik bagi sistem artificial intelligence (AI) yang kompleks. Melalui hal ini, penelitian AI diharapkan dapat memiliki landasan agar berkembang dari sekadar kumpulan praktik engineering menjadi sains yang dapat diprediksi dan dikuantifikasi. Memahami dinamika transisi yang terjadi dalam proses generasi LLM sangat penting untuk menjelaskan prinsip kerja sistem semacam ini.

Studi ini mengusulkan kerangka teoretis baru yang dapat menjelaskan dinamika generatif LLM, dan melalui hal tersebut menawarkan arah baru bagi riset AI. Data yang dikumpulkan melalui pendekatan eksperimental memberikan kontribusi penting untuk memahami prinsip kerja LLM, serta dapat dimanfaatkan sebagai bahan dasar untuk penelitian berikutnya. Hasil riset ini diharapkan memberikan wawasan penting dalam perancangan dan pemanfaatan agent berbasis LLM, serta berkontribusi pada kemajuan teknologi AI.

Abstrak Makalah

Agen berbasis large language model (LLM) muncul sebagai paradigma baru yang kuat untuk menyelesaikan masalah kompleks. Meski praktik ini telah menunjukkan keberhasilan empiris, kerangka teoretis untuk memahami dan menyatukan dinamika makroskopiknya masih belum memadai. Makalah ini mengusulkan metode berbasis prinsip aksi minimum untuk memperkirakan arah generatif dasar dari LLM yang tertanam dalam agen. Dengan mengukur secara eksperimental probabilitas transisi antarstatus yang dihasilkan LLM, kami menemukan secara statistik adanya detailed balance dalam transisi yang dihasilkan LLM. Temuan ini menunjukkan bahwa generasi LLM kemungkinan umumnya tidak dicapai dengan mempelajari kumpulan aturan dan strategi, melainkan dengan secara implisit mempelajari kelas fungsi potensial dasar yang dapat melampaui berbagai arsitektur LLM dan template prompt. Sepanjang pengetahuan kami, ini adalah penemuan pertama hukum fisika makroskopik dalam dinamika generatif LLM yang tidak bergantung pada detail model tertentu. Penelitian ini merupakan upaya untuk membangun teori dinamika makroskopik bagi sistem AI kompleks, dengan tujuan mengangkat studi tentang agen AI dari sekadar kumpulan praktik rekayasa menjadi ilmu yang dibangun di atas pengukuran efektif yang dapat diprediksi dan dikuantifikasi.
> Large language model (LLM)-driven agents are emerging as a powerful new paradigm for solving complex problems. Despite the empirical success of these practices, a theoretical framework to understand and unify their macroscopic dynamics remains lacking. This Letter proposes a method based on the least action principle to estimate the underlying generative directionality of LLMs embedded within agents. By experimentally measuring the transition probabilities between LLM-generated states, we statistically discover a detailed balance in LLM-generated transitions, indicating that LLM generation may not be achieved by generally learning rule sets and strategies, but rather by implicitly learning a class of underlying potential functions that may transcend different LLM architectures and prompt templates. To our knowledge, this is the first discovery of a macroscopic physical law in LLM generative dynamics that does not depend on specific model details. This work is an attempt to establish a macroscopic dynamics theory of complex AI systems, aiming to elevate the study of AI agents from a collection of engineering practices to a science built on effective measurements that are predictable and quantifiable.

Tautan makalah

https://arxiv.org/abs/2512.10047

Efficient-DLM: dari autoregressive ke diffusion language models, dan melampaui kecepatan / Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

Pengenalan makalah

Diffusion language models (dLM) muncul sebagai paradigma menjanjikan yang memungkinkan generasi paralel non-autoregressive, tetapi memiliki kelemahan dalam efisiensi pelatihan dibandingkan dengan autoregressive language models (AR). Untuk mengatasi masalah ini, diusulkan sebuah metodologi untuk mengonversi model AR menjadi dLM yang efisien. Para peneliti menganalisis keterbatasan metode konversi AR-to-dLM yang ada dan menemukan bahwa mempertahankan distribusi bobot pra-pelatihan model AR sangat penting untuk konversi yang efektif.

Berdasarkan hal tersebut, mereka memperkenalkan pendekatan pretraining lanjutan yang mempertahankan pola attention per blok. Pendekatan ini memungkinkan pemodelan dua arah di dalam setiap blok, sehingga distribusi bobot model AR dapat dipertahankan dengan lebih baik. Selain itu, pendekatan ini juga memungkinkan KV caching, sehingga memberikan keuntungan berupa peningkatan akurasi dan efisiensi secara bersamaan. Untuk mengurangi perbedaan distribusi mask token saat pelatihan, juga diusulkan strategi token masking yang bergantung pada posisi. Strategi ini memberikan probabilitas masking yang lebih tinggi pada token-token berikutnya selama pelatihan agar dapat meniru perilaku saat pengujian dengan lebih baik.

Melalui metodologi ini, dilakukan studi ekstensif terhadap pola attention, dinamika pelatihan, dan pilihan desain pada dLM, yang memberikan wawasan praktis untuk konversi yang skalabel dari AR ke dLM. Pada akhirnya, keluarga Efficient-DLM menunjukkan performa yang melampaui model AR dan dLM mutakhir. Secara khusus, Efficient-DLM 8B mencapai akurasi yang masing-masing lebih tinggi sebesar +5.4% dan +2.7% serta throughput 4.5 kali dan 2.7 kali lebih tinggi dibandingkan Dream 7B dan Qwen3 4B. Penelitian ini menghadirkan metodologi baru untuk konversi efektif dari model AR ke dLM, serta berkontribusi pada peningkatan efisiensi pelatihan dan performa model secara bersamaan.

Abstrak makalah (Abstract)

Model bahasa difusi (dLMs) telah muncul sebagai paradigma menjanjikan yang memungkinkan generasi paralel non-autoregresif, tetapi efisiensi pembelajarannya tertinggal dibanding model bahasa autoregresif (AR) saat dilatih dari awal. Untuk mengatasi hal ini, kami meneliti konversi AR-to-dLM guna mentransformasikan model AR yang telah dipralatih menjadi dLM yang efisien, unggul dalam kecepatan sambil mempertahankan akurasi tugas model AR. Kami mencapainya dengan mengidentifikasi keterbatasan pada pola attention dan objective dari metode AR-to-dLM yang ada, lalu mengusulkan prinsip dan metodologi untuk konversi AR-to-dLM yang lebih efektif. Secara spesifik, kami terlebih dahulu membandingkan berbagai pola attention secara sistematis dan menemukan bahwa mempertahankan distribusi bobot AR yang telah dipralatih sangat penting untuk konversi AR-to-dLM yang efektif. Karena itu, kami memperkenalkan skema prapelatihan berkelanjutan dengan pola attention berbasis blok, yang tetap kausal antarblo k sambil memungkinkan pemodelan dua arah di dalam setiap blok. Kami menemukan bahwa pendekatan ini dapat mempertahankan distribusi bobot model AR yang telah dipralatih dengan lebih baik dibanding pemodelan dua arah penuh, di samping manfaat yang telah diketahui berupa memungkinkan KV caching, dan menghasilkan keuntungan ganda dalam akurasi serta efisiensi. Kedua, untuk mengurangi kesenjangan train-test pada distribusi token mask (uniform vs. sangat left-to-right), kami mengusulkan strategi token masking yang bergantung pada posisi, yang memberikan probabilitas masking lebih tinggi pada token-token belakangan selama pelatihan agar lebih meniru perilaku saat inferensi. Dengan memanfaatkan kerangka kerja ini, kami melakukan studi ekstensif atas pola attention dLM, dinamika pelatihan, dan pilihan desain lainnya, sehingga memberikan wawasan yang dapat ditindaklanjuti untuk konversi AR-to-dLM yang skalabel. Studi-studi ini menghasilkan keluarga Efficient-DLM, yang melampaui model AR dan dLM state-of-the-art, misalnya Efficient-DLM 8B kami mencapai akurasi +5.4%/+2.7% lebih tinggi dengan throughput 4.5x/2.7x lebih tinggi dibanding Dream 7B dan Qwen3 4B. > Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.

Tautan makalah

https://arxiv.org/abs/2512.14067

Segalanya adalah konteks: abstraksi sistem file agentik untuk context engineering / Everything is Context: Agentic File System Abstraction for Context Engineering

Pengantar makalah

Kemajuan Generative AI (GenAI) telah membawa perubahan transformatif pada desain sistem perangkat lunak, khususnya melalui foundation model yang sedang mendefinisikan ulang arsitektur dan operasional. Tantangan utama saat ini telah bergeser dari fine-tuning model menuju "context engineering", yaitu upaya menangkap dan menyusun pengetahuan eksternal, memori, alat, serta masukan manusia secara efektif. Pendekatan yang ada seperti prompt engineering atau retrieval-augmented generation (RAG) bersifat terfragmentasi, sehingga artefak konteks yang dihasilkan sering kali bersifat sementara dan sulit diverifikasi.

Penelitian ini, yang terinspirasi oleh filosofi Unix "everything is a file", mengusulkan abstraksi sistem file untuk context engineering. Abstraksi ini menyediakan infrastruktur yang persisten dan terkelola untuk mengelola artefak konteks yang heterogen, sehingga memungkinkan mounting, metadata, dan kontrol akses yang konsisten. Diimplementasikan dalam kerangka kerja AIGNE, arsitektur ini menjalankan fungsi perakitan, pengiriman, dan verifikasi konteks di bawah batasan token melalui pipeline context engineering yang dapat diverifikasi, yang terdiri dari context generator, loader, dan evaluator.

Seiring GenAI menjadi kolaborator aktif dalam dukungan pengambilan keputusan, manusia akan memegang peran sentral sebagai kurator, validator, dan rekan bernalar. Penelitian ini menunjukkan kepraktisan arsitektur yang diusulkan melalui agen dengan memori dan asisten GitHub berbasis MCP, serta memperlihatkan kelayakan operasionalnya di lingkungan pengembang dan industri. Pendekatan ini membangun fondasi yang dapat digunakan kembali untuk kolaborasi AI yang bertanggung jawab dan berpusat pada manusia, serta berkontribusi dalam mendukung sistem GenAI yang dapat diverifikasi dan mudah dipelihara.

Sebagai kesimpulan, penelitian ini menekankan pentingnya context engineering dalam desain sistem GenAI, dan menunjukkan bagaimana abstraksi berbasis sistem file dapat menjadi landasan bagi pengelolaan konteks yang persisten dan transparan.

Abstrak makalah (Abstract)

Generative AI (GenAI) telah membentuk ulang desain sistem perangkat lunak dengan memperkenalkan foundation model sebagai subsistem pra-pelatihan. Tantangan baru kini bukan lagi fine-tuning model, melainkan context engineering: bagaimana sistem menangkap, menyusun, dan mengelola pengetahuan eksternal, memori, alat, serta masukan manusia agar penalaran yang andal dapat dimungkinkan. Praktik yang ada seperti prompt engineering, retrieval-augmented generation (RAG), dan integrasi alat masih terfragmentasi, menghasilkan artefak sementara yang membatasi keterlacakan dan akuntabilitas. Makalah ini mengusulkan abstraksi file system untuk context engineering, terinspirasi dari konsep Unix bahwa 'everything is a file'. Abstraksi ini menyediakan infrastruktur persisten dan terkelola untuk mengelola artefak konteks yang heterogen melalui mounting yang seragam, metadata, dan kontrol akses. Diimplementasikan dalam framework open-source AIGNE, arsitektur ini mewujudkan pipeline context engineering yang dapat diverifikasi, terdiri dari Context Constructor, Loader, dan Evaluator, yang merakit, menyampaikan, dan memvalidasi konteks di bawah batasan token. Saat GenAI menjadi kolaborator aktif dalam dukungan pengambilan keputusan, manusia memegang peran sentral sebagai kurator, verifikator, dan rekan penalaran. Arsitektur yang diusulkan membangun fondasi yang dapat digunakan kembali untuk kolaborasi AI yang akuntabel dan berpusat pada manusia, ditunjukkan melalui dua contoh: agen dengan memori dan asisten GitHub berbasis MCP. Implementasi dalam framework AIGNE menunjukkan bagaimana arsitektur ini dapat dioperasionalkan di lingkungan pengembang dan industri, mendukung sistem GenAI yang dapat diverifikasi, mudah dipelihara, dan siap untuk industri.
> Generative AI (GenAI) has reshaped software system design by introducing foundation models as pre-trained subsystems that redefine architectures and operations. The emerging challenge is no longer model fine-tuning but context engineering-how systems capture, structure, and govern external knowledge, memory, tools, and human input to enable trustworthy reasoning. Existing practices such as prompt engineering, retrieval-augmented generation (RAG), and tool integration remain fragmented, producing transient artefacts that limit traceability and accountability. This paper proposes a file-system abstraction for context engineering, inspired by the Unix notion that 'everything is a file'. The abstraction offers a persistent, governed infrastructure for managing heterogeneous context artefacts through uniform mounting, metadata, and access control. Implemented within the open-source AIGNE framework, the architecture realises a verifiable context-engineering pipeline, comprising the Context Constructor, Loader, and Evaluator, that assembles, delivers, and validates context under token constraints. As GenAI becomes an active collaborator in decision support, humans play a central role as curators, verifiers, and co-reasoners. The proposed architecture establishes a reusable foundation for accountable and human-centred AI co-work, demonstrated through two exemplars: an agent with memory and an MCP-based GitHub assistant. The implementation within the AIGNE framework demonstrates how the architecture can be operationalised in developer and industrial settings, supporting verifiable, maintainable, and industry-ready GenAI systems.

Tautan makalah

https://arxiv.org/abs/2512.05470

Menuju Ilmu tentang Scaling Sistem Agen / Towards a Science of Scaling Agent Systems

Pengantar makalah

Sistem berbasis agen dan language model memainkan peran yang semakin penting dalam aplikasi kecerdasan buatan dunia nyata, tetapi prinsip-prinsip yang menentukan kinerja sistem semacam ini masih belum dieksplorasi secara memadai. Penelitian ini berupaya menutup kesenjangan tersebut dengan menurunkan prinsip scaling kuantitatif untuk sistem agen, sehingga para praktisi dapat membuat pilihan desain yang berlandaskan prinsip, bukan sekadar metode empiris. Penelitian dilakukan melalui empat benchmark yang beragam, yaitu Finance-Agent, BrowseComp-Plus, PlanCraft, dan Workbench, dengan mengevaluasi secara terkontrol 180 konfigurasi melalui penerapan lima arsitektur tipikal (tunggal, independen, tersentralisasi, terdistribusi, hibrida) pada tiga keluarga language model.

Inti dari penelitian ini adalah menurunkan model prediktif menggunakan metrik penyesuaian empiris. Model ini mempertimbangkan berbagai faktor seperti efisiensi, overhead, amplifikasi kesalahan, dan redundansi, serta mencapai nilai R² tervalidasi silang sebesar 0.513. Penelitian ini mengidentifikasi tiga efek utama. Pertama, trade-off tool-coordination menunjukkan bahwa di bawah anggaran komputasi tetap, tugas yang berpusat pada tool terdampak secara tidak proporsional oleh overhead multi-agen. Kedua, fenomena saturasi kapabilitas menunjukkan bahwa ketika kinerja agen tunggal melebihi sekitar 45%, koordinasi justru menurun atau menghasilkan keuntungan negatif. Ketiga, fenomena amplifikasi kesalahan yang bergantung pada topologi menunjukkan bahwa agen independen memperbesar kesalahan hingga 17.2 kali, sementara koordinasi tersentralisasi membatasinya menjadi 4.4 kali.

Koordinasi tersentralisasi meningkatkan kinerja hingga 80.9% pada tugas yang dapat diparalelkan seperti penalaran keuangan, sementara koordinasi terdistribusi menunjukkan kinerja yang relatif lebih baik pada penjelajahan web dinamis. Namun, pada tugas penalaran sekuensial, semua varian multi-agen justru menurunkan kinerja sebesar 39-70%. Temuan-temuan ini memberikan kontribusi penting untuk memprediksi kinerja sistem agen dan mengusulkan strategi koordinasi yang optimal, dengan menawarkan prinsip prediktif berdasarkan karakteristik tugas agentic. Dengan menurunkan prinsip scaling sistem agen secara kuantitatif, penelitian ini meletakkan dasar agar para praktisi dapat merancang dan mengoptimalkan sistem secara lebih efektif.

Abstrak makalah (Abstract)

Sistem berbasis agen dan language model (LM), yang mampu melakukan penalaran, perencanaan, dan tindakan, kini menjadi paradigma dominan untuk aplikasi AI di dunia nyata. Meskipun adopsinya sangat luas, prinsip-prinsip yang menentukan kinerjanya masih belum banyak dieksplorasi, sehingga praktisi cenderung bergantung pada heuristik alih-alih pilihan desain yang berlandaskan prinsip. Kami menutup kesenjangan ini dengan menurunkan prinsip scaling kuantitatif untuk sistem agen. Kami mengevaluasinya pada empat benchmark yang beragam: Finance-Agent, BrowseComp-Plus, PlanCraft, dan Workbench. Dengan menggunakan lima arsitektur kanonik (Single, Independent, Centralized, Decentralized, Hybrid) yang diimplementasikan pada tiga keluarga LLM, kami melakukan evaluasi terkontrol yang mencakup 180 konfigurasi dengan alat dan anggaran token yang distandardisasi. Kami menurunkan model prediktif menggunakan metrik koordinasi empiris, termasuk efisiensi, overhead, amplifikasi kesalahan, dan redundansi, yang mencapai validasi silang $R^2=0.513$. Kami mengidentifikasi tiga efek dominan: (1) trade-off koordinasi alat: di bawah anggaran komputasi tetap, tugas yang sarat alat terdampak secara tidak proporsional oleh overhead multi-agent. (2) saturasi kapabilitas: koordinasi memberikan hasil yang makin menurun atau bahkan negatif (beta=-0.408, p<0.001) setelah baseline single-agent melampaui ~45%. (3) amplifikasi kesalahan yang bergantung pada topologi: agen independen memperbesar kesalahan hingga 17.2x melalui propagasi yang tak terkendali, sedangkan koordinasi terpusat membatasinya menjadi 4.4x. Koordinasi terpusat meningkatkan kinerja sebesar 80.9% pada tugas yang dapat diparalelkan seperti penalaran finansial, sementara koordinasi terdesentralisasi unggul pada navigasi web dinamis (+9.2% vs. +0.2%). Namun, untuk tugas penalaran sekuensial, semua varian multi-agent menurunkan kinerja sebesar 39-70%. Kerangka kerja ini memprediksi strategi koordinasi optimal untuk 87% konfigurasi hold-out, dengan memberikan prinsip prediktif scaling agentic berdasarkan properti tugas yang dapat diukur.
> Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated $R^2=0.513$. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.

Tautan makalah

https://arxiv.org/abs/2512.08296

LMCache: Lapisan cache KV yang efisien untuk inferensi LLM skala enterprise / LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference

Pengantar makalah

Sebagai pendekatan baru untuk meningkatkan efisiensi inferensi large language model (LLM), LMCache telah diusulkan. Secara tradisional, cache KV disimpan di memori GPU dan digunakan untuk mempercepat tahap decoding LLM, tetapi belakangan ini jumlah cache KV yang disimpan pengguna telah melampaui kapasitas memori GPU. Dalam konteks ini, LMCache menjadi solusi open source pertama yang memindahkan cache KV ke luar GPU sehingga dapat digunakan kembali di antara kueri yang berbeda dan engine inferensi yang berbeda.

Fitur inti LMCache adalah mendukung cache offload dan distribusi prefill-decode (PD). Dengan ini, reuse prefix antar-kueri menjadi memungkinkan, dan transfer cache antar-GPU yang berbeda menjadi lebih mudah. LMCache memaksimalkan kinerja melalui tiga kontribusi utama. Pertama, LMCache mengoptimalkan perpindahan data cache KV melalui operasi perpindahan data batch serta pipelining komputasi dan input/output (I/O). Kedua, LMCache memperkenalkan konektor cache KV modular agar dapat secara fleksibel mengikuti perkembangan berbagai engine inferensi. Ketiga, LMCache menyediakan API kontrol kelas satu untuk koordinasi cache di antara lapisan GPU, CPU, storage, dan jaringan, sehingga memberi pengguna fleksibilitas lebih besar.

Kinerja LMCache, ketika dipadukan dengan vLLM, menunjukkan peningkatan throughput hingga 15x pada berbagai tugas seperti tanya jawab multi-round dan analisis dokumen. Melalui use case nyata, terkonfirmasi bahwa mengambil cache KV dari storage jarak jauh efektif untuk mengurangi latensi prefill, dan juga memberikan wawasan penting bahwa teknik context truncation yang banyak digunakan di industri dapat memangkas rasio prefix cache hit hingga setengahnya.

Sebagai kesimpulan, LMCache merupakan solusi inovatif yang secara signifikan meningkatkan efisiensi inferensi LLM, dan diharapkan dapat berkontribusi ke berbagai industri melalui adopsi skala besar di lingkungan enterprise. Ini mengubah engine LLM menjadi ekosistem komputasi dan storage terdistribusi, serta mengisyaratkan kemungkinan bahwa data native AI di masa depan akan menjadi fondasi inferensi LLM.

Abstrak makalah (Abstract)

KV cache secara tradisional disimpan di memori GPU untuk mempercepat tahap decoding pada inferensi large language model (LLM). Namun, kebutuhan untuk memindahkan KV cache ke luar perangkat GPU semakin meningkat agar cache dapat digunakan ulang di berbagai kueri dan engine inferensi. Statistik penggunaan dunia nyata kami mengonfirmasi tren ini: seiring waktu, total KV cache yang disimpan pengguna meningkat pesat hingga jauh melampaui kapasitas memori GPU. Meski kebutuhan ini jelas ada, solusi yang efisien untuk offloading dan transfer KV cache masih kurang. Kami memperkenalkan LMCACHE, solusi open-source KV caching pertama dan sejauh ini paling efisien, yang mengekstrak serta menyimpan KV cache yang dihasilkan engine LLM modern (vLLM dan SGLang) di luar memori GPU, lalu membagikannya lintas engine dan kueri. LMCACHE mendukung cache offloading (penggunaan ulang prefix antar-kueri) sekaligus prefill-decode (PD) disaggregation (transfer cache lintas engine/GPU). Kinerja tinggi dan adopsi luas LMCACHE berasal dari kontribusi berikut: (1) perpindahan data KV cache yang sangat dioptimalkan melalui operasi perpindahan data batch, serta pipelining komputasi dan I/O; (2) komponen konektor KV cache modular yang memisahkan LMCACHE dari evolusi cepat engine inferensi; (3) control API kelas utama untuk orkestrasi cache yang fleksibel di lapisan GPU, CPU, storage, dan network. Evaluasi kami menunjukkan bahwa menggabungkan LMCACHE dengan vLLM menghasilkan peningkatan throughput hingga 15x pada beban kerja seperti tanya jawab multi-putaran dan analisis dokumen. Adopsi LMCACHE dalam skala besar di lingkungan enterprise juga memberi wawasan berharga: mengambil KV cache dari remote storage secara konsisten bermanfaat bagi latensi prefill, dan context truncation—teknik yang banyak diterapkan di industri—dapat memangkas rasio prefix cache hit hingga setengahnya. Kode sumber LMCACHE tersedia di tautan berikut: https://github.com/LMCache/LMCache.
> KV cache secara tradisional disimpan di memori GPU untuk mempercepat fase decoding pada inferensi large language model (LLM). Namun, semakin diperlukan untuk memindahkan KV cache ke luar perangkat GPU agar cache dapat digunakan ulang di berbagai kueri dan engine inferensi. Statistik penggunaan dunia nyata kami mengonfirmasi tren ini: seiring waktu, total KV cache yang disimpan pengguna tumbuh pesat, jauh melebihi kapasitas memori GPU. Meski kebutuhan ini ada, belum tersedia solusi yang efisien untuk offloading dan transfer KV cache. Kami memperkenalkan LMCACHE, solusi open-source KV caching pertama dan sejauh ini paling efisien, yang mengekstrak dan menyimpan KV cache yang dihasilkan oleh engine LLM modern (vLLM dan SGLang) di luar memori GPU serta membagikannya lintas engine dan kueri. LMCACHE mendukung cache offloading (penggunaan ulang prefix antar-kueri) dan prefill-decode (PD) disaggregation (transfer cache lintas engine/GPU). Kinerja tinggi dan adopsi luas LMCACHE berasal dari kontribusi berikut: (1) perpindahan data KV cache yang sangat dioptimalkan dengan operasi perpindahan data batch, serta pipelining komputasi dan I/O; (2) komponen konektor KV cache modular, yang memisahkan LMCACHE dari evolusi cepat engine inferensi; (3) control API kelas utama untuk orkestrasi cache yang fleksibel di lapisan GPU, CPU, storage, dan network. Evaluasi kami menunjukkan bahwa penggabungan LMCACHE dengan vLLM mencapai peningkatan throughput hingga 15x pada workload seperti tanya jawab multi-putaran dan analisis dokumen. Adopsi LMCACHE secara besar-besaran di lingkungan enterprise memberi kami wawasan berharga; misalnya, pengambilan KV cache dari remote storage terbukti bermanfaat bagi latensi prefill, dan context truncation, yang merupakan teknik yang banyak dipakai di industri, dapat secara signifikan menurunkan rasio prefix cache hit hingga setengahnya. Kode sumber LMCACHE tersedia di: https://github.com/LMCache/LMCache.

Tautan makalah

https://arxiv.org/abs/2510.09665

Bacaan lanjutan

https://github.com/LMCache/LMCache

https://discuss.pytorch.kr/t/lmcache-llm/7179

ReFusion: large language model difusi dengan decoding autoregresif paralel / ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Pengantar makalah

ReFusion adalah model mask diffusion inovatif yang memanfaatkan decoding autoregresif paralel, dirancang untuk mengatasi keterbatasan model autoregresif (ARM) dan model mask diffusion (MDM) yang ada. ARM tradisional mengalami inferensi yang lambat karena decoding dilakukan secara berurutan, sementara MDM mengasumsikan conditional independence tetapi efisiensinya menurun akibat bottleneck arsitektural dan masalah generasi yang tidak konsisten. Untuk mengatasi hal ini, ReFusion meningkatkan decoding paralel ke tingkat slot, yang diwujudkan melalui slot berupa subsekuens kontinu dengan panjang tetap.

Inti dari ReFusion adalah proses decoding "plan-and-infill". Pada proses ini, tahap pertama mengidentifikasi slot dengan dependensi lemah, lalu tahap kedua mendekode slot-slot tersebut secara paralel. Desain berbasis slot ini memungkinkan penggunaan ulang Key-Value (KV) cache, sehingga status KV dari seluruh konteks tidak perlu dihitung ulang setiap saat. Hasilnya, kompleksitas pelatihan berkurang dari ruang kombinasi token ke ruang permutasi tingkat slot, sehingga efisiensi meningkat secara signifikan.

Hasil eksperimen menunjukkan bahwa ReFusion mencatat peningkatan performa 34% dibanding MDM sebelumnya dan percepatan rata-rata 18x, sekaligus memperkecil kesenjangan performa dengan ARM yang kuat serta mencapai percepatan rata-rata 2,33x. Pencapaian ini menunjukkan bahwa ReFusion mampu mengatasi keterbatasan model yang ada dan membuka kemungkinan baru bagi model difusi.

Melalui penggunaan ulang KV cache dan pengurangan kompleksitas pelatihan, ReFusion memberikan kontribusi inovatif baik dalam performa maupun kecepatan, serta menawarkan wawasan penting untuk arah riset selanjutnya. Model ini diharapkan dapat berkontribusi pada perkembangan large language model dengan menggabungkan keunggulan model difusi dan model autoregresif.

Abstrak makalah

Model autoregresif (ARM) terkendala oleh inferensi sekuensial yang lambat. Sementara model difusi termask (MDM) menawarkan alternatif paralel, model ini memiliki kekurangan krusial: overhead komputasi tinggi karena tidak dapat memanfaatkan caching Key-Value (KV), serta generasi yang tidak koheren akibat pembelajaran dependensi pada ruang kombinasi token yang sulit ditangani. Untuk mengatasi keterbatasan ini, kami memperkenalkan ReFusion, model difusi termask baru yang mencapai kinerja dan efisiensi lebih baik dengan mengangkat decoding paralel dari level token ke level slot yang lebih tinggi, di mana setiap slot merupakan sub-sekuens berurutan dengan panjang tetap. Hal ini dicapai melalui proses decoding iteratif ``plan-and-infill'': langkah perencanaan berbasis difusi terlebih dahulu mengidentifikasi sekumpulan slot yang dependensinya lemah, lalu langkah infilling autoregresif mendekode slot-slot terpilih tersebut secara paralel. Desain berbasis slot ini sekaligus membuka pemanfaatan ulang penuh cache KV dengan kerangka kausal terpadu, serta menurunkan kompleksitas pembelajaran dari ruang kombinasi token ke ruang permutasi level slot yang lebih mudah dikelola. Eksperimen ekstensif pada tujuh benchmark yang beragam menunjukkan bahwa ReFusion tidak hanya jauh melampaui MDM sebelumnya dengan peningkatan performa 34% dan percepatan rata-rata lebih dari 18$\times$, tetapi juga memperkecil kesenjangan performa dengan ARM yang kuat sambil tetap mempertahankan percepatan rata-rata 2.33$\times$.

Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18$\times$ speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33$\times$ average speedup.

Tautan makalah

https://arxiv.org/abs/2512.13586

Baca selengkapnya

https://github.com/ML-GSAI/ReFusion

https://huggingface.co/GSAI-ML/ReFusion

Pendekatan pra-pelatihan yang skalabel untuk generasi visual tokenizer / Towards Scalable Pre-training of Visual Tokenizers for Generation

Pengantar makalah

Kualitas ruang laten dari visual tokenizer sangat memengaruhi performa model generatif modern. Namun, pendekatan pembelajaran berbasis rekonstruksi yang ada saat ini menghasilkan ruang laten yang bias terhadap informasi level rendah, sehingga akurasi tingkat piksel yang lebih baik tidak selalu menjamin generasi berkualitas lebih tinggi. Fenomena ini didefinisikan sebagai "masalah scaling pra-pelatihan", yang menegaskan perlunya ruang laten untuk merepresentasikan semantik tingkat tinggi secara ringkas demi model generatif yang efektif.

Dalam studi ini, peneliti mengusulkan kerangka pra-pelatihan visual tokenizer terpadu baru bernama VTP (Visual Tokenizer Pre-training). VTP mengadopsi pendekatan inovatif yang bersama-sama mengoptimalkan image-text contrast, pembelajaran self-supervised, dan reconstruction loss, sehingga berkontribusi pada peningkatan performa generasi. Melalui studi berskala besar, mereka memperoleh dua temuan utama. Pertama, pemahaman semantik merupakan pendorong utama generasi. Kedua, VTP menunjukkan karakteristik scaling yang unggul, di mana performa generasi meningkat secara efektif seiring bertambahnya sumber daya komputasi, parameter model, dan ukuran data.

VTP mencapai akurasi zero-shot 78.2% dan rFID 0.36 pada ImageNet, serta mencatat konvergensi 4.1 kali lebih cepat dibanding metode distilasi canggih sebelumnya. Selain itu, VTP menghasilkan perbaikan FID sebesar 65.8% pada generasi downstream hanya dengan mengalokasikan lebih banyak FLOPS untuk pra-pelatihan tanpa mengubah spesifikasi pelatihan DiT standar. Hasil ini menunjukkan bahwa VTP memberikan performa lebih unggul dibanding pendekatan autoencoder tradisional dan berpotensi menjadi model yang skalabel.

Sebagai kesimpulan, VTP membantu menyelesaikan masalah scaling pra-pelatihan pada visual tokenizer dan berkontribusi dalam menetapkan korelasi kuat antara pemahaman ruang laten dan kemampuan generasi. Studi ini menawarkan arah baru untuk meningkatkan performa model generatif dan dapat menjadi landasan penting bagi penelitian selanjutnya.

Abstrak makalah

Dalam visual tokenizer (misalnya VAE), kualitas ruang laten sangat penting bagi model generatif modern. Namun, paradigma pelatihan berbasis rekonstruksi standar menghasilkan ruang laten yang bias terhadap informasi level rendah, sehingga memunculkan cacat mendasar: akurasi level piksel yang lebih baik tidak menghasilkan generasi dengan kualitas lebih tinggi. Ini berarti bahwa mencurahkan banyak sumber daya komputasi ke pra-pelatihan visual tokenizer tidak serta-merta meningkatkan performa generasi. Kami mendefinisikan hal ini sebagai "masalah penskalaan pra-pelatihan" dan mengusulkan bahwa, agar efektif untuk generasi, ruang laten harus merepresentasikan semantik tingkat tinggi secara ringkas. Kami memperkenalkan VTP, kerangka kerja pra-pelatihan visual tokenizer terpadu yang memelopori optimisasi bersama atas image-text contrastive, self-supervised, dan reconstruction losses. Studi skala besar kami mengungkap dua temuan utama: (1) pemahaman adalah pendorong utama generasi, dan (2) performa generatif memiliki karakteristik scaling yang jauh lebih baik, di mana performa generasi meningkat secara efektif seiring compute, parameter, dan data yang dialokasikan untuk pra-pelatihan visual tokenizer. Setelah pra-pelatihan skala besar, tokenizer kami memberikan profil yang kompetitif (akurasi zero-shot 78.2 dan 0.36 rFID di ImageNet) serta menunjukkan konvergensi 4.1 kali lebih cepat pada generasi dibandingkan metode distilasi tingkat lanjut. Yang lebih penting, metode ini dapat diskalakan secara efektif: tanpa memodifikasi spesifikasi pelatihan DiT standar, hanya dengan menginvestasikan lebih banyak FLOPS pada pra-pelatihan VTP, kami mencapai peningkatan FID 65.8% pada generasi downstream, sementara autoencoder tradisional mengalami stagnasi sangat awal pada 1/10 FLOPS. Model pra-latih kami tersedia di https://github.com/MiniMax-AI/VTP.
> The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the pre-training scaling problem and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.

Tautan makalah

https://arxiv.org/abs/2512.13687

Baca lebih lanjut

https://github.com/MiniMax-AI/VTP

CLaRa: Menjembatani Retrieval dan Generation dengan Continuous Latent Reasoning / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

Pengantar makalah

CLaRa (Continuous Latent Reasoning) adalah framework inovatif yang dikembangkan untuk mengatasi keterbatasan sistem retrieval-augmented generation (RAG). Pendekatan RAG yang ada mengalami kesulitan dalam memproses konteks panjang, dan optimisasi antara retrieval serta generation terpisah sehingga efisiensinya menurun. Untuk mengatasi masalah ini, CLaRa mengusulkan metodologi baru yang menyatukan retrieval dan generation melalui kompresi berbasis embedding dan optimisasi bersama dalam ruang kontinu yang dibagikan.

Salah satu komponen inti CLaRa, SCP (key-preserving data synthesis), memanfaatkan question-answering (QA) dan parafrase (supervision) untuk menghasilkan vektor kompresi yang kaya secara semantik dan dapat diambil kembali. Proses ini membantu meningkatkan akurasi retrieval sambil mempertahankan keragaman dan kualitas data. Setelah itu, CLaRa melatih reranker dan generator secara end-to-end melalui satu language modeling loss, sehingga aliran gradien di antara kedua modul tersebut dapat dioptimalkan. Pendekatan optimisasi terintegrasi ini memainkan peran penting dalam menyelaraskan relevansi retrieval dengan kualitas jawaban yang dihasilkan.

Hasil eksperimen menunjukkan bahwa CLaRa menampilkan performa compression dan reranking mutakhir yang melampaui metode berbasis teks sebelumnya pada berbagai benchmark question-answering (QA). Secara khusus, CLaRa menunjukkan hasil yang menguntungkan dalam menangani konteks panjang, yang membuktikan bahwa pendekatan optimisasi terintegrasinya memang efektif. Pencapaian ini menunjukkan bahwa CLaRa memiliki potensi untuk secara signifikan meningkatkan performa sistem RAG.

Pendekatan CLaRa berbeda dari riset RAG sebelumnya dan, sebagai metode pertama yang secara langsung mengoptimalkan retrieval dan generation, menunjukkan kemungkinan untuk diterapkan di berbagai bidang aplikasi pada masa mendatang. Riset ini menghadirkan kemungkinan baru bagi sistem RAG dan diharapkan dapat dimanfaatkan sebagai landasan penting untuk penelitian selanjutnya.

Abstrak makalah

Retrieval-augmented generation (RAG) memperkuat large language model (LLM) dengan pengetahuan eksternal, tetapi masih menghadapi masalah konteks panjang dan optimasi retrieval-generation yang terpisah. Dalam penelitian ini, diperkenalkan CLaRa (Continuous Latent Reasoning), sebuah kerangka kerja terpadu yang melakukan kompresi berbasis embedding dan optimasi bersama dalam ruang kontinu bersama. Untuk memperoleh vektor terkompresi yang kaya secara semantik dan dapat di-retrieve, diperkenalkan SCP, kerangka sintesis data yang mempertahankan kunci dengan menggunakan supervisi QA dan parafrasa. Selanjutnya, CLaRa melatih reranker dan generator secara end-to-end melalui satu loss language modeling, dengan gradien mengalir melalui kedua modul menggunakan estimator top-k yang dapat didiferensiasikan. Secara teoretis, optimasi terpadu ini menyelaraskan relevansi retrieval dengan kualitas jawaban. Hasil eksperimen di berbagai benchmark QA menunjukkan bahwa CLaRa mencapai performa kompresi dan reranking mutakhir, serta sering melampaui baseline fine-tuning berbasis teks.
> Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.

Tautan makalah

https://arxiv.org/abs/2511.18659

Baca lebih lanjut

https://github.com/apple/ml-clara

⚠️Iklan⚠️: Apakah tulisan yang dirangkum oleh 🔥Komunitas Pengguna PyTorch🇰🇷 ini bermanfaat? Jika Anda bergabung sebagai anggota, kami akan mengirimkan tulisan-tulisan utama melalui email💌! (Default-nya Weekly, tetapi bisa diubah ke Daily.)

[2025/12/15 ~ 21] Kumpulan Makalah AI/ML yang Patut Disimak Minggu Ini