2 poin oleh ninebow 4 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

PyTorchKR🔥🇰🇷 🤔💭

Jika melihat 10 paper yang dipilih minggu ini, arahnya cepat berkumpul pada pengelolaan state agen berbasis large language model (LLM), efisiensi inferensi, serta keamanan dan verifiabilitas di lingkungan nyata. Secara khusus, terlihat alur riset yang menarik mulai dari perubahan struktural untuk memaksimalkan efisiensi agen, redesain mendasar arsitektur transformer, hingga penguatan robustness agar dapat beradaptasi dengan lingkungan dunia nyata yang dinamis.

:one: Inovasi alur kerja agen: eksternalisasi state dan internalisasi logika inferensi Pada paper minggu ini, dua pendekatan yang saling berlawanan namun saling melengkapi untuk mengatasi biaya dan bottleneck konteks saat agen menjalankan tugas yang kompleks dan panjang tampak menonjol. Harness-1 dan AdaCoM meningkatkan stabilitas tugas jangka panjang dengan memindahkan beban pengelolaan state atau konteks yang harus diingat agen ke lingkungan eksternal atau model pengelola terpisah. Sebaliknya, Latent Agents dan riset internalisasi alur kerja agentic (Subterranean Agents) mengusulkan post-training yang mengompilasi proses komunikasi kompleks antara orkestrator eksternal atau banyak agen langsung ke dalam bobot (weights) satu model. Dengan ini, model dapat berdiskusi sendiri atau melakukan inferensi prosedural tanpa bergantung pada prompt atau koordinasi eksternal, sehingga membuka arah pengurangan biaya inferensi dan penggunaan token secara drastis sambil tetap mempertahankan performa kelas frontier model.

:two: Redesain arsitektur dasar: fusi mekanisme attention dan optimasi parameter Riset dasar untuk mengatasi inefisiensi komputasi mendasar pada transformer dan mengurangi penggunaan memori juga menjadi tren kuat. Paper SISA(Forget Attention) mencapai kemampuan pencarian global dan penilaian prioritas sekuensial sekaligus melalui "fusi pada level skor" yang secara langsung menyuntikkan sinyal kepentingan berurutan dari state space model (SSM) ke perhitungan skor attention. Selain itu, riset varian QKV (Do Transformers Need Three Projections?) mempertanyakan standar lama yang dianggap wajar, yaitu memisahkan query, key, dan value, lalu membuktikan secara empiris bahwa metode proyeksi berbagi key dan value (Q-K=V) dapat sangat mengurangi KV cache dengan penurunan performa yang minimal. Perbaikan struktural pada level arsitektur seperti ini melampaui sekadar peningkatan performa, dan sangat memperluas kemungkinan deployment praktis pada edge device bermemori terbatas maupun lingkungan AI on-device.

:three: Adaptasi real-time di lingkungan dinamis dan penguatan robustness pada level sistem Riset yang tidak hanya menghasilkan jawaban benar, tetapi juga secara aktif menangani perubahan situasi dan ancaman sambil mengembangkan sistem itu sendiri, sangat menarik perhatian. MOSS memperluas self-evolution yang sebelumnya berhenti pada modifikasi prompt menjadi penulisan ulang pada level source code, sehingga sistem agen dapat menyembuhkan cacat strukturalnya sendiri. FuzzingBrain V2 memanfaatkan multi-agent untuk mendeteksi dan memperbaiki kerentanan perangkat lunak nyata dengan cara yang 100% dapat direproduksi. Selain itu, AdvGame memecahkan alignment keamanan language model sebagai permainan non-kooperatif real-time antara penyerang dan pembela untuk meningkatkan kemampuan pertahanan dinamis, sementara riset Plan, Watch, Recover menghadirkan model asisten proaktif yang dapat turun tangan dan memberi coaching secara real-time ketika pengguna menyimpang dari prosedur yang telah ditetapkan. Ini menunjukkan bahwa AI telah bergerak keluar dari laboratorium yang terkontrol dan mulai menjadi sistem proaktif yang andal bahkan di tengah error tak terduga dan ancaman keamanan di dunia nyata.

Ringkasan inti per paper

  • Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses: Agen pencarian berbasis reinforcement learning yang memisahkan beban memori agen sehingga harness, bukan policy, yang menanganinya. Mencatat curated recall rata-rata 0.730 pada 8 benchmark, dengan performa transfer yang sangat kuat.

  • Forget Attention: Importance-Aware Attention Is All You Need: Mengusulkan SISA yang secara langsung menyuntikkan sinyal kepentingan dari state space model (SSM) ke skor attention. Dapat diimplementasikan dengan satu panggilan SDPA, sekaligus sangat meningkatkan performa pencarian dan pemulihan dependensi jarak jauh.

  • Do Transformers Need Three Projections? Systematic Study of QKV Variants: Studi yang menganalisis secara sistematis sejauh mana proyeksi QKV dapat dibagi pakai. Q-K=V hampir mempertahankan performa sambil sangat mengurangi KV cache, dan efek penghematan memorinya makin besar jika digabungkan dengan GQA/MQA.

  • Compiling Agentic Workflows into LLM Weights: Membahas pendekatan yang mengompilasi prosedur tugas itu sendiri ke bobot model alih-alih mengandalkan orkestrasi eksternal. Mengurangi panggilan berulang dan konsumsi konteks panjang sambil mencapai kualitas tingkat near-frontier.

  • Learning Agent-Compatible Context Management for Long-Horizon Tasks: Mengusulkan AdaCoM, di mana LLM eksternal mengedit konteks secara dinamis untuk agen yang tetap. Pada tugas pencarian web dan riset jangka panjang, metode ini mengurangi informasi lama yang tidak perlu sambil mempertahankan batasan tugas.

  • Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate: Metode post-training yang mendistilasi debat multi-agent ke dalam satu LLM. Menunjukkan performa yang setara atau lebih baik daripada explicit debate dengan token hingga 93% lebih sedikit.

  • MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems: Sistem agen yang melakukan evolusi mandiri pada level source code, bukan prompt. Menulis ulang struktur kode berdasarkan bukti kegagalan nyata, lalu menerapkannya dengan mekanisme yang bisa diverifikasi dan di-rollback.

  • Safety Alignment of LMs via Non-cooperative Games: Mendefinisikan ulang alignment keamanan sebagai permainan non-kooperatif di mana LM penyerang dan LM pembela saling beradaptasi. Melalui preference-based reinforcement learning, pendekatan ini secara bersamaan mendorong Pareto frontier keamanan dan kegunaan.

  • Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance: Sistem bantuan multimodal proaktif yang mempelajari kapan harus turun tangan dan bagaimana mengembalikan pengguna saat mereka keluar dari prosedur. Mengevaluasi performa coaching pemulihan nyata melalui EgoProactive dan Pro²Bench.

  • FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction: Sistem keamanan yang mengotomatiskan penemuan dan reproduksi kerentanan dengan multi-agent LLM. Menggabungkan verifikasi berbasis OSS-Fuzz, lokalisasi kerentanan yang presisi, dan hierarchical fuzzing untuk menghasilkan tingkat deteksi tinggi serta temuan kerentanan nyata.


Harness-1: Reinforcement Learning untuk agen pencarian dengan harness eksternalisasi state / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Pengenalan paper

Agen pencarian sering dilatih sebagai policy di atas transcript yang terus bertambah, sehingga model harus menentukan cara mencari sekaligus mengingat apa yang sudah dilihat, bukti mana yang berguna, batasan mana yang masih terbuka, dan klaim mana yang benar-benar telah diverifikasi. Para penulis menilai bahwa pengaturan seperti ini membebani terlalu banyak pengelolaan state ke dalam policy, dan membuat reinforcement learning harus sekaligus mengoptimalkan pengambilan keputusan pencarian yang bermakna serta pengelolaan catatan yang dapat dipulihkan, yang sebenarnya bisa ditangani lebih stabil oleh lingkungan.

Untuk mengatasi hal ini, mereka mengusulkan Harness-1, agen pencarian 20B yang dilatih dengan reinforcement learning di dalam state-externalizing harness. Harness ini mengelola working memory sisi lingkungan seperti kumpulan kandidat, himpunan kurasi bertag kepentingan, tautan bukti terkompresi, catatan verifikasi, observasi yang telah dikompresi dan di-deduplicate, serta rendering konteks yang mempertimbangkan anggaran.

Iklan

Sebaliknya, kebijakan bertanggung jawab atas keputusan semantik, termasuk apa yang harus dicari, dokumen mana yang harus dipertahankan atau dibuang, apa yang harus diverifikasi, dan kapan harus berhenti. Pada 8 benchmark retrieval yang mencakup web, keuangan, paten, dan tanya-jawab multi-hop, Harness-1 mencapai curated recall rata-rata 0,730, 11,4 poin lebih tinggi dibanding subagen pencarian open source terkuat berikutnya. Peningkatan ini terutama menonjol pada benchmark transfer di luar domain pelatihan, yang menunjukkan bahwa reinforcement learning atas status pencarian yang eksplisit dapat menghasilkan perilaku retrieval yang menggeneralisasi dengan lebih baik.

Abstrak(Abstract)

Agen pencarian sering kali dilatih sebagai kebijakan di atas transkrip yang terus bertambah. Artinya, model harus memutuskan apa yang akan dicari sambil sekaligus mengingat apa yang telah dilihat, bukti mana yang berguna, kendala mana yang masih terbuka, dan klaim mana yang benar-benar sudah diperiksa.

Mereka berargumen bahwa formulasi ini memasukkan terlalu banyak pengelolaan status rutin ke dalam kebijakan. Dengan kata lain, reinforcement learning (RL) dipaksa untuk mengoptimalkan baik keputusan pencarian semantik maupun pembukuan yang dapat dipulihkan dan sebenarnya bisa dipelihara lingkungan dengan lebih andal.

Mereka memperkenalkan Harness-1, agen pencarian 20B (subagen retrieval) yang dilatih dengan reinforcement learning di dalam stateful search harness. Harness ini mempertahankan memori kerja di sisi lingkungan, termasuk candidate pool, curated set dengan tag kepentingan, tautan bukti yang ringkas, catatan verifikasi, observasi yang dikompresi dan dideduplikasi, serta context rendering yang sadar anggaran. Kebijakan mempertahankan keputusan semantik seperti apa yang harus dicari, dokumen mana yang harus disimpan atau dibuang, apa yang harus diverifikasi, dan kapan harus berhenti.

Di 8 benchmark retrieval yang mencakup web, keuangan, paten, dan multi-hop QA, Harness-1 mencapai curated recall rata-rata 0,730, unggul +11,4 poin atas subagen pencarian terbuka peringkat kedua, dan menunjukkan performa yang kompetitif bahkan terhadap searcher frontier model yang jauh lebih besar. Peningkatannya sangat menonjol pada benchmark transfer yang belum pernah dilihat, yang menunjukkan bahwa reinforcement learning di atas status pencarian eksplisit dapat menghasilkan perilaku retrieval yang menggeneralisasi melampaui domain pelatihan. Kode: https://github.com/pat-jj/harness-1

Agen pencarian sering dilatih sebagai kebijakan di atas transkrip yang terus bertambah: model harus memutuskan cara mencari sambil juga mengingat apa yang telah dilihatnya, bukti mana yang berguna, kendala mana yang masih terbuka, dan klaim mana yang benar-benar telah diperiksa. Kami berargumen bahwa formulasi ini menempatkan terlalu banyak pengelolaan status rutin di dalam kebijakan: reinforcement learning dipaksa mengoptimalkan baik keputusan pencarian semantik maupun pembukuan yang dapat dipulihkan yang sebenarnya dapat dipelihara lingkungan dengan lebih andal. Kami memperkenalkan Harness-1, agen pencarian 20B (subagen retrieval) yang dilatih dengan reinforcement learning di dalam stateful search harness. Harness ini mempertahankan memori kerja di sisi lingkungan, termasuk candidate pool, curated set dengan tag kepentingan, tautan bukti ringkas, catatan verifikasi, observasi yang dikompresi dan dideduplikasi, serta context rendering yang sadar anggaran. Kebijakan mempertahankan keputusan semantik: apa yang harus dicari, dokumen mana yang harus disimpan atau dibuang, apa yang harus diverifikasi, dan kapan harus berhenti. Di delapan benchmark retrieval yang mencakup web, keuangan, paten, dan multi-hop QA, Harness-1 mencapai curated recall rata-rata 0,730, mengungguli subagen pencarian terbuka terkuat berikutnya sebesar +11,4 poin dan tetap kompetitif dengan searcher frontier-model yang jauh lebih besar. Keunggulannya terutama kuat pada benchmark transfer held-out, yang menunjukkan bahwa reinforcement learning atas status pencarian eksplisit dapat menghasilkan perilaku retrieval yang menggeneralisasi melampaui domain pelatihan. Kode kami tersedia di https://github.com/pat-jj/harness-1.

Tautan paper

https://arxiv.org/abs/2606.02373

Baca lebih lanjut

https://github.com/pat-jj/harness-1

https://huggingface.co/pat-jj/harness-1


Lupakan Attention: Importance-Aware Attention Sudah Cukup / Forget Attention: Importance-Aware Attention Is All You Need

Pengantar paper

Dalam pemodelan bahasa hibrida yang menggabungkan Transformer dan State Space Model (SSM), tantangan utamanya adalah bagaimana sekaligus memanfaatkan kemampuan menelusuri informasi secara global dan kemampuan menentukan apa yang penting di dalam sekuens. Transformer yang ada dapat melihat ke mana saja, tetapi memiliki keterbatasan dalam menentukan prioritas, sementara SSM dapat mengakumulasi sinyal penting tetapi sulit untuk kembali merujuk secara presisi pada informasi yang sudah lewat, sehingga keduanya saling melengkapi. Namun, pendekatan hibrida yang ada selama ini umumnya hanya menempatkan dua mekanisme tersebut secara paralel pada tingkat blok atau head, sehingga pada saat skor attention dihitung, sinyal kepentingan dari SSM tidak dapat tercermin secara langsung. Berangkat dari masalah ini, para penulis mengusulkan SSM-Informed Softmax Attention (SISA) dan merancang cara penggabungan baru yang menyuntikkan sinyal kepentingan sekuensial yang disediakan SSM bukan ke keluaran attention, melainkan ke skornya sendiri. Ide intinya adalah, selain suku inner product standar yang merepresentasikan kemiripan konten, mereka juga menambahkan suku inner product dari vektor kepentingan yang diturunkan dari SSM, sehingga relasi antartoken diperluas dari sekadar kecocokan konten menjadi juga mencerminkan “apa yang penting saat ini”.

Hal yang sangat penting dari metode ini adalah bahwa ia dapat diimplementasikan hanya dengan satu panggilan Scaled Dot-Product Attention (SDPA) melalui penyusunan query dan key yang diperluas, tanpa status rekursif tambahan maupun custom kernel. Dengan kata lain, secara matematis SISA memanfaatkan informasi sekuensial dari SSM, tetapi dari sudut pandang implementasi ia dirancang agar selaras dengan alur operasi Transformer standar, sehingga tetap kompatibel dengan optimisasi keluarga FlashAttention. Selain itu, kanal SSM membentuk sinyal kepentingan dengan menghitung komponen decay dan rotation dari input, lalu membuat sinyal ini bekerja pada level score dari attention sehingga langsung meningkatkan performa retrieval. Hasil eksperimen juga dengan jelas menunjukkan efektivitas desain ini: pada skala 152M dan kondisi 5B token, SISA mencatat 17,3% pada LAMBADA-greedy, melampaui Transformer standar dan Mamba-3, sementara pada NIAH(Needle-in-a-Haystack) ia mencapai 100% sejak titik pelatihan 1K step, menunjukkan konvergensi pencarian yang sangat cepat.

Lebih jauh, meskipun pada skala 369M SISA juga tidak selalu menunjukkan metrik yang sepenuhnya unggul, setidaknya ia memiliki makna praktis yang besar karena tetap mempertahankan performa kuat secara stabil pada tugas retrieval penting tanpa kehilangan kemampuan eksekusi stock SDPA. Para penulis melalui hal ini mengajukan sumbu desain ketiga yang melampaui level blok dan level head, yakni score-level fusion, sebagai alternatif yang valid untuk model bahasa hibrida. Pada akhirnya, kontribusi makalah ini bukan sekadar mencampurkan dua keluarga model, melainkan menarik sinyal kepentingan yang disediakan SSM ke pusat pembentukan skor attention sehingga retrieval global dan penentuan prioritas sekuensial terintegrasi dalam satu operasi. Pendekatan seperti ini dapat dilihat sebagai contoh penting yang menunjukkan bagaimana struktur hibrida dapat berevolusi secara lebih canggih dalam tugas language modeling yang menuntut pemulihan dependensi jarak jauh dan pelacakan informasi inti.

Abstrak(Abstract)

Menggabungkan kemampuan retrieval global dari attention dan sinyal kepentingan sekuensial dari state space model (SSM) adalah tantangan terbuka dalam hybrid language modeling. Transformer dapat melihat semuanya tetapi tidak dapat memprioritaskan, sedangkan SSM mengetahui apa yang penting tetapi tidak dapat meninjaunya kembali. Hibrida yang ada, yaitu Jamba (level blok) dan Hymba (level head), menempatkan dua mekanisme tersebut di kompartemen terpisah, sehingga dalam komputasi attention itu sendiri tidak ada yang dapat memberikan informasi kepada yang lain. Kami mengusulkan SISA (SSM-Informed Softmax Attention). Metode ini menambahkan term kepentingan yang diturunkan dari SSM langsung ke dalam skor attention, dan mengimplementasikan seluruh operasi sebagai satu panggilan SDPA pada vektor query/key yang diperluas. Tidak diperlukan state rekursif maupun kernel kustom. Pada 152M / 5 miliar token, SISA mencapai LAMBADA-greedy 17.3% (dibandingkan Transformer 13.9 dan Mamba-3 15.5), mencatat NIAH 100% sejak step 1K, dan 7x lebih cepat daripada konvergensi retrieval milik Transformer. Pada 369M, Mamba-3 unggul di LAMBADA, tetapi SISA mempertahankan NIAH sempurna dan eksekusi stock SDPA. Dengan demikian, SISA menghadirkan sumbu desain ketiga untuk hibrida SSM-attention, yaitu score-level fusion, melampaui paradigma level blok dan level head yang selama ini mendominasi bidang ini.

Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.

Iklan

Tautan makalah

https://arxiv.org/abs/2606.02332


Apakah Transformer membutuhkan tiga proyeksi? Studi sistematis varian QKV / Do Transformers Need Three Projections? Systematic Study of QKV Variants

Pengantar makalah

Komponen inti yang menopang kinerja Transformer adalah attention QKV (query-key-value) yang terdiri dari query, key, dan value, tetapi belum ada telaah yang cukup sistematis tentang seberapa independen masing-masing proyeksi benar-benar diperlukan. Studi ini menargetkan celah tersebut dengan menganalisis secara rinci bagaimana weight tying di dalam attention memengaruhi daya representasi dan efisiensi inferensi, dengan berfokus pada tiga batasan berbagi proyeksi: Q-K=V, Q=K-V, dan Q=K=V. Secara khusus, penelitian ini memperhatikan bahwa dua varian terakhir cenderung membuat attention map menjadi simetris, lalu turut menelaah desain yang memperkenalkan two-dimensional positional encoding untuk melengkapi arahannya, sehingga pembahasan diperluas dari sekadar pengurangan parameter menjadi persoalan yang mengubah struktur ruang representasi itu sendiri. Pendekatan ini bermakna karena tidak berhenti pada pertanyaan apakah berbagi proyeksi menurunkan kinerja, tetapi juga memisahkan dan menjelaskan dalam kondisi apa kualitas tetap terjaga dan dalam kondisi apa directionalitas serta selektivitas attention rusak.

Eksperimen disusun agar mencakup domain yang berbeda, yaitu tugas sintetis, visi, dan language modeling, sehingga dapat memverifikasi bahwa efek berbagi proyeksi bukan fenomena yang terbatas pada domain data tertentu. Pada tugas sintetis, digunakan masalah manipulasi seperti pembalikan urutan, pengurutan, substitusi, pertukaran, dan penyalinan untuk melihat seberapa baik model mempelajari hubungan struktural. Pada eksperimen visi, performa generalisasi dievaluasi pada lingkungan yang sangat bergantung pada informasi posisi spasial melalui MNIST, CIFAR, TinyImageNet, dan anomaly detection. Dalam language modeling, model berukuran 300 juta (300M) dan 1,2 miliar (1.2B) parameter dilatih dengan 10 miliar (10B) token untuk memeriksa apakah tren yang sama tetap bertahan pada pengaturan skala besar. Hasilnya, pendekatan Q-K=V secara umum menunjukkan kinerja yang setara dengan Transformer QKV dasar, atau kadang lebih baik, dan pada language modeling berhasil mengurangi cache key-value (KV) sebesar 50% dengan kenaikan perplexity hanya 3.1%.

Yang lebih penting, efek penghematan ini ternyata dapat dikombinasikan secara saling melengkapi dengan grouped query attention (GQA) maupun multi-query attention (MQA). Saat Q-K=V digunakan bersama GQA-4, cache KV dapat dikurangi hingga 87.5%, dan bila digabungkan dengan MQA, pengurangannya mencapai 96.9%, memberikan keuntungan nyata untuk on-device inference. Para penulis melalui hasil ini mengusulkan bahwa key dan value pada praktiknya dapat berbagi ruang representasi yang mirip, dan karena attention bekerja dalam struktur low-rank, pemisahan QKV penuh tidak selalu diperlukan. Sebaliknya, Q=K-V mengikat query dan key terlalu kuat sehingga melemahkan directionalitas attention, sehingga terbukti lebih tidak menguntungkan dari sisi kinerja dan stabilitas.

Secara keseluruhan, studi ini mendorong kita melihat struktur QKV pada Transformer bukan sebagai standar yang taken for granted, melainkan sebagai ruang desain yang layak ditinjau ulang, dan memberikan tolok ukur empiris tentang proyeksi mana yang sebaiknya dibagikan dan peran mana yang perlu dipisahkan. Khususnya karena kinerja hampir tetap terjaga sambil menurunkan penggunaan memori secara besar, hasil ini dapat dibaca sebagai panduan desain penting untuk deployment yang efisien di lingkungan terbatas seperti edge device.

Abstrak(Abstract)

Transformer telah menjadi solusi standar untuk berbagai tugas AI, dengan formulasi attention query, key, dan value (QKV) memainkan peran sentral. Namun, kontribusi masing-masing dari ketiga proyeksi ini dan dampak ketika sebagian dihilangkan masih belum dipahami dengan baik. Kami mengevaluasi secara sistematis tiga batasan berbagi proyeksi: a) Q-K=V (key-value bersama), b) Q=K-V (query-key bersama), dan c) Q=K=V (proyeksi tunggal). Dua varian terakhir menghasilkan peta attention yang simetris; untuk mengatasinya, kami juga mengeksplorasi attention asimetris melalui encoding posisi 2D. Melalui eksperimen yang mencakup tugas sintetis, visi (MNIST, CIFAR, TinyImageNet, deteksi anomali), dan language modeling (model berparameter 300M dan 1.2B pada 10B token), kami menemukan bahwa transformer kami menunjukkan performa setara atau kadang lebih baik daripada transformer QKV. Dalam language modeling, berbagi proyeksi Q-K=V mengurangi KV cache sebesar 50% dengan penurunan perplexity hanya 3,1%. Yang terpenting, berbagi proyeksi bersifat komplementer dengan head sharing (GQA/MQA). Menggabungkan Q-K=V dengan GQA-4 dapat mengurangi cache sebesar 87,5%, dan menggabungkan Q-K=V dengan MQA dapat menguranginya hingga 96,9%, sehingga memungkinkan inferensi on-device yang praktis. Kami menunjukkan bahwa Q-K=V mempertahankan kualitas karena key dan value dapat menempati ruang representasi yang serupa dan attention beroperasi dalam rezim low-rank, sementara Q=K-V merusak directionalitas attention. Hasil kami secara sistematis mengkarakterisasi berbagi proyeksi sebagai salah satu bentuk weight tying dalam attention yang masih kurang dieksplorasi, sekaligus menunjukkan manfaat memori inferensi yang langsung dan terukur, khususnya berguna untuk deployment edge. Kode tersedia secara publik di https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections.

Transformers telah menjadi solusi standar untuk berbagai tugas AI, dengan formulasi attention query, key, dan value (QKV) memainkan peran sentral. Namun, kontribusi masing-masing dari ketiga proyeksi ini dan dampak ketika sebagian dihilangkan masih belum dipahami dengan baik. Kami mengevaluasi secara sistematis tiga batasan berbagi proyeksi: a) Q-K=V (key-value bersama), b) Q=K-V (query-key bersama), dan c) Q=K=V (proyeksi tunggal). Dua varian terakhir menghasilkan peta attention yang simetris; untuk mengatasinya, kami juga mengeksplorasi attention asimetris melalui encoding posisi 2D. Melalui eksperimen yang mencakup tugas sintetis, visi (MNIST, CIFAR, TinyImageNet, anomali), dan language modeling (model berparameter 300M dan 1.2B pada 10B token), kami menemukan bahwa transformer kami menunjukkan performa setara atau kadang lebih baik daripada transformer QKV. Dalam language modeling, berbagi proyeksi Q-K=V menghasilkan pengurangan KV cache sebesar 50% dengan degradasi perplexity hanya 3,1%. Yang terpenting, berbagi proyeksi bersifat komplementer dengan head sharing (GQA/MQA): menggabungkan Q-K=V dengan GQA-4 menghasilkan pengurangan cache 87,5%, sementara Q-K=V + MQA mencapai 96,9%, memungkinkan inferensi on-device yang praktis. Kami menunjukkan bahwa Q-K=V menjaga kualitas karena key dan value dapat menempati ruang representasi yang serupa dan attention beroperasi dalam rezim low-rank, sedangkan Q=K-V merusak directionalitas attention. Hasil kami secara sistematis mengkarakterisasi berbagi proyeksi sebagai salah satu contoh weight tying dalam attention yang masih kurang dieksplorasi, dengan manfaat memori inferensi yang langsung dan terukur, terutama berharga untuk deployment edge. Kode tersedia secara publik di https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

Tautan paper

https://arxiv.org/abs/2606.04032

Baca lebih lanjut

https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections


Mengompilasi workflow agentik ke dalam bobot LLM: kualitas mendekati frontier dengan biaya 100x lebih rendah / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

Pengantar paper

Meningkatnya penggunaan framework orkestrasi agen belakangan ini menunjukkan bahwa cara mengendalikan tugas kompleks melalui koordinator eksternal di atas Large Language Model (LLM) skala besar telah nyaris diterima sebagai standar de facto, tetapi paper ini mempertanyakan bahwa untuk tugas prosedural, struktur semacam itu belum tentu merupakan pilihan terbaik. Pendekatan di mana orkestrator eksternal menyuntikkan instruksi dan keputusan routing di setiap giliran memang memiliki keunggulan dalam hal kontrol dan debugging yang mudah, tetapi juga memiliki keterbatasan: terus-menerus menghabiskan context window, harus memanggil frontier model pada setiap percakapan, dan berisiko mengekspos prosedur itu sendiri kepada penyedia pihak ketiga. Karena itu, para penulis mengusulkan pendekatan untuk langsung mengompilasi prosedur kerja ke dalam bobot model fine-tuning berukuran kecil alih-alih menaruh prosedur di dalam prompt, sehingga pada saat runtime dapat tercipta agen yang telah menginternalisasi prosedur tanpa orkestrasi tambahan. Pendekatan ini memiliki keunggulan struktural karena tidak perlu terus menyuntikkan prosedur dari luar, sehingga biaya dapat ditekan secara signifikan, tidak memakan konteks panjang, dan tidak membuka alur kerja sensitif ke layanan eksternal. Para penulis menyebut agen yang prosedurnya bekerja secara tersembunyi di dalam model ini sebagai subterranean agent, dan membedakannya secara jelas dari desain konvensional yang berpusat pada orkestrasi.

Metodologi utamanya bukan sekadar mengajukan konsep sederhana, melainkan memverifikasi tiga hambatan yang selama ini dianggap membuat pengembang ragu menggunakan pendekatan ini dalam lingkungan kerja nyata. Pertama, mereka membahas kekhawatiran performa tentang apakah model kecil dapat menghasilkan kualitas setingkat frontier. Kedua, mereka meninjau masalah internalisasi pengetahuan, yaitu apakah informasi yang sering berubah seperti pengetahuan khusus produk dapat dimasukkan ke dalam bobot. Ketiga, mereka memverifikasi apakah pendekatan ini dapat diskalakan ke workflow besar yang memiliki banyak percabangan dan hub kompleks. Untuk itu, tim peneliti memilih tiga domain dengan karakter berbeda—pemesanan perjalanan, dukungan Zoom, dan klaim asuransi—untuk membandingkan efektivitas pendekatan kompilasi di bawah kondisi yang menuntut kedalaman prosedural dan tingkat kebutuhan pengetahuan domain yang berbeda-beda. Pemesanan perjalanan menguji stabilitas transisi status dan pengambilan keputusan bertahap melalui alur prosedural standar yang terdiri dari 14 node, sementara dukungan Zoom menekankan bahwa bahkan workflow dengan skala serupa tetap membutuhkan pengetahuan tentang kebijakan dan fitur spesifik produk. Klaim asuransi, dengan struktur yang lebih kompleks berupa 55 node dan 6 hub pengambilan keputusan, berfungsi sebagai stress test yang realistis karena menuntut percabangan bersyarat dan perhitungan kebijakan secara bersamaan.

Implikasi dari hasil eksperimen ini jelas. Terkonfirmasi bahwa model kecil yang menginternalisasi prosedur ke dalam bobot dapat mempertahankan kualitas near-frontier, yakni kualitas yang mendekati model frontier, sambil menurunkan biaya hingga kelipatan dua digit, yang membuat kita perlu memikirkan ulang keseimbangan tradisional antara performa dan efisiensi. Khususnya seperti terlihat pada kasus klaim asuransi, model tidak berhenti hanya pada menghasilkan jawaban, tetapi juga mampu menjalankan penalaran prosedural secara konsisten, termasuk verifikasi, percabangan, perhitungan kompensasi, hingga panduan pembayaran. Hasil ini menunjukkan bahwa untuk pekerjaan yang dapat diulang dan strukturnya relatif stabil, pendekatan kompilasi yang mempelajari prosedur itu sendiri bisa lebih cocok daripada orkestrasi yang setiap saat melalui penyesuaian eksternal. Pada saat yang sama, tetap ada catatan bahwa perubahan prosedur mungkin memerlukan pelatihan ulang, dan pendekatan ini bisa kurang unggul dibanding metode berbasis prompt dalam hal perbaikan instan dan interpretabilitas, namun kontribusi riset ini terletak pada perluasan pilihan dalam desain agen. Pada akhirnya, paper ini menantang anggapan umum bahwa workflow agen harus selalu dirakit dari luar, dan menunjukkan secara empiris bahwa pendekatan memindahkan prosedur ke dalam model dapat menjadi alternatif yang cukup valid bahkan pada level praktik nyata.

Abstrak(Abstract)

Framework orkestrasi agen telah berkembang pesat, dengan total bintang GitHub gabungan melebihi 290.000 di LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, dan LlamaIndex. Semuanya mengikuti pola yang sama: orkestrator eksternal ditempatkan di atas LLM, lalu instruksi dan keputusan routing disuntikkan pada setiap giliran. Riset terbaru menunjukkan bahwa untuk tugas prosedural, arsitektur ini kalah unggul dibanding sekadar memberikan prosedur apa adanya di system prompt model frontier [Dennis et al., 2026a], dengan konsekuensi menghabiskan context window, membutuhkan model frontier untuk setiap percakapan, dan mengekspos prosedur proprietari kepada penyedia pihak ketiga. Mengompilasi prosedur ke dalam bobot model kecil yang di-fine-tune -- sehingga membentuk subterranean agent -- semestinya dapat mengatasi seluruh masalah ini, dan riset sebelumnya (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) telah menunjukkan bahwa teknik ini bekerja. Namun, adopsi pengembang masih sangat condong ke orkestrasi. Kami mengidentifikasi tiga hambatan yang dipersepsikan dan menanganinya secara empiris di tiga domain: pemesanan perjalanan (14 node), dukungan Zoom (14 node, pengetahuan spesifik produk), dan klaim asuransi (55 node, 6 hub keputusan).

Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs).

Tautan paper

https://arxiv.org/abs/2605.22502

Iklan

Bacaan lebih lanjut

https://discuss.pytorch.kr/t/llm-subterranean-agent/10501


Pembelajaran Manajemen Konteks yang Kompatibel dengan Agen untuk Tugas Long-Horizon / Learning Agent-Compatible Context Management for Long-Horizon Tasks

Pengantar paper

Ketika agen berbasis large language model (LLM) menjalankan tugas long-horizon seperti pencarian web atau riset mendalam, yang melibatkan banyak langkah dan akumulasi penilaian di tengah proses, salah satu hambatan terbesar adalah bahwa semakin panjang percakapan, semakin bercampur pula petunjuk yang relevan dengan informasi lama yang tidak perlu, sehingga penalaran menjadi goyah. Metode manajemen konteks yang ada selama ini sering kali mempelajari kebijakan internal agen secara bersamaan atau bergantung pada strategi tetap seperti peringkasan, namun pendekatan seperti ini sulit diterapkan pada agen closed-source dan tidak cukup mencerminkan kenyataan bahwa tiap agen bisa memerlukan cara pengelolaan yang berbeda. Untuk mengatasi hal ini, Adaptive Context Management (AdaCoM) yang diusulkan mengambil pendekatan dengan mempertahankan frozen agent apa adanya, sementara LLM eksternal lain dilatih untuk mengedit konteks secara dinamis. Kunci utamanya di sini bukan sekadar memampatkan percakapan panjang, melainkan mempelajari tindakan revisi yang fleksibel dengan melakukan penghapusan, penulisan ulang, dan penggabungan di tingkat pesan, sambil mempertahankan batasan serta progres yang dibutuhkan untuk tugas saat ini dan membuang noise lama. Desain seperti ini penting karena mendefinisikan ulang manajemen konteks bukan sebagai prapemrosesan statis, melainkan sebagai masalah pembelajaran kebijakan yang secara langsung meningkatkan tingkat keberhasilan agen.

AdaCoM dimulai dari supervised fine-tuning (SFT) untuk membiasakan pengelola konteks dengan format keluaran yang terstruktur, lalu menyempurnakan kebijakan melalui Group Relative Policy Optimization (GRPO) dengan menggunakan performa tugas nyata sebagai reward. Dalam proses ini, pengelola menerima konteks saat ini yang telah diubah menjadi prompt sebagai masukan, lalu dari sudut pandang Markov decision process (MDP), memilih pada setiap langkah pesan mana yang dipertahankan atau dimodifikasi. Selain itu, alih-alih hanya melihat jawaban akhir, dirancang pula process reward yang mencerminkan hal-hal seperti konteks yang melebihi panjang batas, pemanggilan alat yang berulang, kesalahan format, dan sinyal tugas pada tahap antara, sehingga kualitas penyuntingan lokal yang penting dalam tugas jangka panjang juga dapat dipelajari. Dengan demikian, AdaCoM bukan sekadar peringkas sederhana, melainkan berfungsi sebagai kebijakan penyuntingan adaptif yang membantu agen mempertahankan alur berpikirnya secara stabil.

Secara eksperimental, peningkatan performa terkonfirmasi ketika diterapkan pada berbagai agen di benchmark pencarian web dan riset mendalam. Secara khusus, semakin tinggi performa dasar agen yang semula menggunakan pendekatan ReAct (Reasoning and Acting), semakin menguntungkan pelestarian konteks dengan fidelitas tinggi; sebaliknya, untuk agen yang relatif lebih lemah, kompresi yang lebih agresif ternyata lebih efektif agar tetap berada dalam rentang penalaran yang stabil. Penulis menafsirkan hal ini sebagai fidelity-reliability trade-off, yang menunjukkan bahwa manajemen konteks perlu disesuaikan dengan tingkat kemampuan agen. Lebih jauh lagi, dalam eksperimen transfer, diamati kecenderungan bahwa strategi AdaCoM lebih mudah ditransfer di antara agen yang memiliki karakteristik kemampuan serupa, sehingga mengisyaratkan bahwa arah berupa pengelola konteks eksternal yang dapat digunakan ulang mungkin lebih praktis daripada satu aturan peringkasan universal. Pada akhirnya, riset ini menghadirkan kemajuan metodologis penting karena tidak hanya memandang penyebab kegagalan pada tugas jangka panjang sebagai masalah kemampuan penalaran agen semata, tetapi juga memperlakukan manajemen konteks yang menopang penalaran tersebut sebagai komponen inti yang dapat dipelajari.

Abstrak(Abstract)

Agen model bahasa besar (LLM) semakin sering menghadapi tugas jangka panjang seperti pencarian web dan riset mendalam, dan dalam aplikasi nyata konteks yang terakumulasi dapat menyebabkan penurunan performa pada konteks panjang serta kegagalan penalaran. Riset sebelumnya telah meredakan hal ini melalui manajemen konteks dengan kontrol konteks di sisi agen atau strategi tetap seperti peringkasan, tetapi metode ini mengharuskan pelatihan agen itu sendiri untuk adaptasi sehingga tidak praktis untuk agen closed-source, serta mengabaikan fakta bahwa agen yang berbeda mungkin memerlukan strategi yang berbeda.

Kami mengusulkan Adaptive Context Management (AdaCoM). Metode ini melatih LLM eksternal untuk mengelola konteks agen yang dibekukan melalui aksi modifikasi yang fleksibel dan reinforcement learning end-to-end. Pada beragam agen di benchmark pencarian web dan riset mendalam, AdaCoM secara signifikan meningkatkan kinerja dengan memangkas konten usang sambil tetap mempertahankan batasan tugas dan progres. Strategi yang dipelajari menunjukkan trade-off Fidelity-Reliability. Artinya, agen dengan performa ReAct dasar yang lebih tinggi mendapatkan manfaat dari pelestarian konteks dengan fidelity lebih tinggi, sedangkan agen dengan performa lebih rendah memerlukan kompresi yang lebih agresif agar tetap berada dalam rezim penalaran yang andal. Eksperimen transfer menunjukkan bahwa AdaCoM paling efektif digeneralisasikan antaragen dengan kapabilitas yang mirip sebagaimana diukur oleh performa ReAct dasar, yang mengisyaratkan jalur praktis menuju context manager yang dapat digunakan ulang untuk sistem agen.

LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.

Tautan paper

https://arxiv.org/abs/2605.30785


Agen Laten: Prosedur post-training untuk debat multi-agen yang terinternalisasi / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

Pengenalan paper

Multi-Agent Debate untuk meningkatkan performa penalaran Large Language Models (LLMs) adalah metode yang kuat, tetapi memiliki keterbatasan berupa biaya komputasi yang sangat besar karena banyak agen harus saling bertukar riwayat debat yang panjang. Untuk mengatasi inefisiensi ini, Latent Agents mengusulkan prosedur post-training yang mendistilasi debat multi-agen yang sebelumnya dilakukan secara eksternal ke dalam satu model bahasa. Gagasan utamanya bukan sekadar memampatkan hasil debat, melainkan terlebih dahulu membuat model mempelajari struktur debat itu sendiri, lalu mendorongnya untuk menginternalisasi struktur tersebut melalui Reinforcement Learning (RL). Untuk itu, para penulis mula-mula membangun data debat yang terdiri dari 3 agen dan 2 ronde, lalu memberi tag struktur pada riwayat debat soal aritmetika yang menghasilkan konsensus akhir guna membentuk format yang konsisten. Selanjutnya, pada tahap Supervised Fine-Tuning (SFT), seluruh trace debat dipelajari apa adanya agar model dapat meniru cara debat berkembang dan pola pembentukan konsensus.

Tahap reinforcement learning berikutnya merupakan proses yang melampaui peniruan format sederhana dan benar-benar menginternalisasi debat. Di sini digunakan Group Relative Policy Optimization (GRPO) untuk membandingkan beberapa kandidat keluaran, lalu digabungkan dengan reward length clipping yang menekan agar jawaban benar muncul lebih awal. Selain itu, reward format yang membantu mempertahankan tag struktur seperti <|Agent 1|>, <|Round 1|>, dan <|endofdebate|> secara bertahap dilemahkan, sehingga model dirancang untuk mencapai kesimpulan hanya dengan representasi internal tanpa lagi bergantung pada debat eksternal yang panjang. Dynamic reward scheduling dan pengurangan panjang ini memainkan peran penting dalam mengurangi bentuk komputasional debat sambil tetap mempertahankan keuntungan penalaran yang dihasilkan oleh interaksi antaragen. Hasil eksperimen menunjukkan bahwa model yang diusulkan memperlihatkan performa yang setara atau lebih baik dibanding explicit multi-agent debate pada GSM8K, MMLU-Pro, dan Big-Bench Hard (BBH), sementara token yang digunakan berkurang hingga 93%, sehingga efisiensi inferensi meningkat drastis. Khususnya, pada beberapa pengaturan, SFT saja sudah menghasilkan hasil yang lebih unggul daripada metode debat sebelumnya, dan ketika ditambah RL, akurasi serta efek penghematan token sama-sama meningkat, sehingga efektivitas prosedur internalisasi tampak jelas.

Kontribusi penting lain dari riset ini adalah analisis mekanistis tentang bagaimana debat yang terinternalisasi mengubah ruang representasi model. Melalui eksperimen activation steering, para penulis menunjukkan bahwa di dalam model yang terinternalisasi terbentuk subruang spesifik agen (agent-specific subspaces), dan terdapat arah yang dapat diinterpretasikan yang sesuai dengan sudut pandang agen yang berbeda. Ini mengisyaratkan bahwa keunggulan multi-agent debate tidak semata berasal dari perataan teks keluaran, melainkan berkaitan dengan proses pemisahan dan penggabungan terstruktur dari sudut pandang penalaran yang berbeda di dalam ruang laten. Lebih jauh lagi, eksperimen yang menginternalisasi agen berbahaya lalu menekannya dengan negative steering menunjukkan bahwa perilaku berbahaya dalam model hasil distilasi dapat menjadi lebih terlokalisasi dan lebih mudah dikendalikan. Pada akhirnya, Latent Agents tidak hanya menyajikan cara untuk memampatkan penalaran multi-agen secara efisien dari sisi biaya, tetapi juga mengungkap struktur dan keterkendalian penalaran yang terinternalisasi.

Abstrak(Abstract)

Debat multi-agen telah terbukti meningkatkan kemampuan penalaran pada large language model (LLM). Namun, pendekatan ini sangat intensif secara komputasi karena perlu menghasilkan transkrip panjang sebelum menjawab pertanyaan. Untuk mengatasi inefisiensi ini, kami mengembangkan kerangka kerja yang menyuling debat multi-agen ke dalam satu LLM melalui pipeline fine-tuning dua tahap yang menggabungkan pembelajaran struktur debat dengan internalisasi melalui penjadwalan reward dinamis dan length clipping. Di berbagai model dan benchmark, model yang telah kami internalisasi menyamai atau melampaui performa debat multi-agen eksplisit dengan penggunaan token hingga 93% lebih sedikit. Kami kemudian menyelidiki dasar mekanistik dari kemampuan ini melalui activation steering, dan menemukan bahwa internalisasi menciptakan subruang spesifik agen: arah yang dapat diinterpretasikan dalam ruang aktivasi yang sesuai dengan perspektif agen yang berbeda. Kami juga menunjukkan aplikasi praktisnya. Dengan menanamkan agen berbahaya ke dalam LLM melalui debat yang diinternalisasi, lalu menerapkan negative steering untuk menekannya, kami menunjukkan bahwa distilasi membuat perilaku berbahaya lebih mudah dilokalisasi dan dikendalikan, dengan penurunan performa umum yang lebih kecil dibandingkan saat menerapkan steering pada model dasar. Temuan kami menawarkan perspektif baru untuk memahami kemampuan multi-agen dalam model hasil distilasi dan memberikan panduan praktis untuk mengendalikan perilaku penalaran yang telah diinternalisasi. Kode tersedia di URL berikut: https://github.com/johnsk95/latent_agents

Multi-agent debate telah terbukti meningkatkan penalaran pada large language models (LLMs). Namun, pendekatan ini intensif secara komputasi, karena memerlukan pembuatan transkrip panjang sebelum menjawab pertanyaan. Untuk mengatasi inefisiensi ini, kami mengembangkan sebuah framework yang menyuling multi-agent debate ke dalam satu LLM melalui pipeline fine-tuning dua tahap yang menggabungkan pembelajaran struktur debat dengan internalisasi melalui dynamic reward scheduling dan length clipping. Di berbagai model dan benchmark, model yang telah kami internalisasi menyamai atau melampaui performa multi-agent debate eksplisit dengan penggunaan token hingga 93% lebih sedikit. Kami kemudian menyelidiki dasar mekanistik dari kemampuan ini melalui activation steering, dan menemukan bahwa internalisasi menciptakan subruang spesifik agen: arah yang dapat diinterpretasikan dalam ruang aktivasi yang sesuai dengan perspektif agen yang berbeda. Kami selanjutnya mendemonstrasikan aplikasi praktis: dengan menanamkan agen berbahaya ke dalam LLM melalui debat yang diinternalisasi, lalu menerapkan negative steering untuk menekannya, kami menunjukkan bahwa distilasi membuat perilaku berbahaya lebih mudah dilokalisasi dan dikendalikan dengan pengurangan performa umum yang lebih kecil dibandingkan steering pada model dasar. Temuan kami menawarkan perspektif baru untuk memahami kemampuan multi-agen dalam model hasil distilasi dan memberikan panduan praktis untuk mengendalikan perilaku penalaran yang telah diinternalisasi. Kode tersedia di https://github.com/johnsk95/latent_agents

Tautan paper

https://arxiv.org/abs/2604.24881

Iklan

Baca lebih lanjut

https://github.com/johnsk95/latent_agents


MOSS: Evolusi Mandiri melalui Penulisan Ulang Tingkat Sumber pada Sistem Agen Otonom / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

Pengenalan paper

Sistem agen otonom yang dapat terus belajar sendiri setelah deployment dan mengurangi kegagalan berulang telah lama menjadi tujuan penting, tetapi dalam praktiknya sebagian besar sistem masih berhenti pada level konfigurasi dan prompt yang bisa diubah lewat teks, sehingga tidak mampu menangani cacat struktural secara mendasar. Untuk melampaui keterbatasan ini, MOSS yang diusulkan menjadikan source-level adaptation sebagai medium evolusi mandiri, dan dirancang agar dapat menulis ulang struktur eksekusi inti agen itu sendiri. Para penulis menunjukkan bahwa elemen-elemen yang menentukan perilaku aktual—seperti routing, urutan hook, state invariant, dan dispatch—berada di dalam kode, sehingga kegagalan yang tidak bisa dijangkau hanya dengan mengubah file skill atau susunan prompt akan selalu tersisa. Sebaliknya, source code memiliki sifat Turing-complete, merupakan superset dari artefak berbasis teks, dan bekerja secara deterministik tanpa bergantung pada apakah model mematuhi instruksi, sehingga diajukan sebagai sarana adaptasi yang jauh lebih umum dan stabil.

Metodologi MOSS bertumpu pada penggunaan production-failure evidence yang dikumpulkan secara otomatis sebagai titik awal, lalu menjalankan pipeline evolusi multistage yang tetap berdasarkan bukti tersebut. Modifikasi kode itu sendiri didelegasikan ke coding agent CLI (command-line interface) eksternal, tetapi MOSS mengendalikan sendiri urutan tahap dan penilaian akhir, sehingga tanggung jawab generasi dan verifikasi dipisahkan. Versi kandidat yang dihasilkan kemudian diverifikasi di ephemeral trial workers dengan memutar ulang batch kegagalan, dan ini bermakna karena yang dilakukan bukan sekadar analisis statis sederhana, melainkan evaluasi berbasis reproduksi terhadap situasi kegagalan nyata. Hanya kandidat yang lolos verifikasi yang dipromosikan melalui in-place container swap dengan persetujuan pengguna sebagai prasyarat, dan setelah itu sistem dirancang untuk otomatis rollback jika tidak memenuhi kondisi health probe, sehingga keamanan operasional juga terjamin.

Pendekatan ini berbeda dari agen evolusi mandiri sebelumnya yang umumnya hanya mencoba melakukan perbaikan pada area yang dapat direpresentasikan dalam teks, seperti prompt, skema memori, atau grafik workflow, karena MOSS menjadikan seluruh sistem—termasuk execution harness yang sebenarnya—sebagai objek evolusi. Karena itu, MOSS dapat dipahami bukan sekadar sebagai model yang menghasilkan respons lebih baik, melainkan sebagai platform adaptasi yang secara langsung memperbaiki cacat struktural pada sistem agen yang sedang beroperasi. Secara khusus, dengan menggabungkan pipeline deterministik serta prosedur verifikasi-promosi-rollback, MOSS menawarkan jalur self-improvement yang lebih tangguh dibandingkan pendekatan berpusat pada teks yang rentan terhadap long-context drift. Desain ini dengan jelas menunjukkan bahwa agar agen otonom dapat berevolusi dengan aman di lingkungan layanan nyata, yang dibutuhkan bukan hanya kemampuan belajar, tetapi juga mekanisme rekayasa sistem yang mencakup deployment, verifikasi, dan rollback.

Secara eksperimental, MOSS meningkatkan rata-rata grader score untuk empat tugas di OpenClaw dari 0,25 menjadi 0,61 hanya dengan satu siklus evolusi, dan mencapai peningkatan ini tanpa campur tangan manusia. Hasil ini menunjukkan bahwa pendekatan source-level rewriting bukan hanya secara teoretis lebih umum, tetapi juga dapat menghasilkan peningkatan performa yang bermakna pada sistem agen produksi nyata. Pada akhirnya, paper ini memperluas cakupan agen evolusi mandiri dari penyesuaian teks ke rekonstruksi tingkat kode, sehingga membuka kemungkinan baru bagi sistem otonom untuk mengoreksi kegagalan berulangnya sendiri.

Abstrak (Abstract)

Setelah diterapkan, sistem agentic otonom pada umumnya bersifat statis: sistem ini tidak belajar dari interaksi pengguna, dan kegagalan yang berulang tetap bertahan sampai pembaruan berikutnya yang digerakkan manusia merilis perbaikan. Sebagai tanggapan, agen yang berevolusi sendiri telah muncul, tetapi semuanya tetap membatasi evolusi pada artefak yang dapat diubah melalui teks -- file skill, konfigurasi prompt, skema memori, graf alur kerja -- dan membiarkan harness agen tetap tak tersentuh. Karena routing, urutan hook, invarian status, dan dispatch berada di dalam kode, bukan dalam artefak teks apa pun, seluruh kelas kegagalan struktural secara fisik tidak dapat dijangkau dari lapisan teks. Kami berpendapat bahwa adaptasi pada level source adalah medium yang secara mendasar lebih umum: medium ini Turing-complete, merupakan superset ketat dari setiap cakupan yang dapat diubah lewat teks, berlaku secara deterministik alih-alih bergantung pada kepatuhan model dasar, dan tidak terdegradasi oleh drift konteks panjang. Kami memperkenalkan MOSS, sebuah sistem yang melakukan self-rewriting pada level source di atas substrat agentic produksi. Setiap evolusi ditambatkan pada batch bukti kegagalan produksi yang dikurasi secara otomatis dan berjalan melalui pipeline multi-tahap yang deterministik. Modifikasi kode didelegasikan ke coding-agent CLI eksternal yang dapat dipasang, sementara MOSS mempertahankan urutan tahap dan keputusan akhir. Kandidat diverifikasi dengan memutar ulang batch terhadap image kandidat pada trial worker sementara, lalu dipromosikan melalui container swap in-place yang memerlukan persetujuan pengguna dan rollback yang dipicu health probe. Di OpenClaw, MOSS menaikkan skor penilai rata-rata empat tugas dari 0.25 menjadi 0.61 hanya dalam satu siklus tanpa intervensi manusia.

Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention.

Tautan paper

https://arxiv.org/abs/2605.22794

Baca lebih lanjut

https://github.com/dav-joy-thon/MOSS


Penyelarasan keamanan language model melalui game non-kooperatif / Safety Alignment of LMs via Non-cooperative Games

Pengantar paper

Penyelarasan keamanan language model (language models, LM) telah menjadi tugas inti dalam riset alignment AI belakangan ini, karena harus sekaligus memastikan ketahanan terhadap input berbahaya sambil tetap mempertahankan kegunaan. Jika pendekatan sebelumnya terutama bertumpu pada cara menghasilkan prompt serangan lalu melakukan fine-tuning secara berurutan agar model dapat bertahan terhadapnya, paper ini mendefinisikan ulang penyelarasan keamanan sebagai permainan non-zero-sum antara Attacker LM dan Defender LM yang saling menyesuaikan strategi satu sama lain secara real-time. Kedua model belajar bersama melalui online reinforcement learning (online reinforcement learning, RL), dengan penyerang mengeksplorasi strategi red-teaming yang lebih canggih dan pembela berevolusi agar dapat merespons serangan itu dengan lebih tangguh. Struktur saling adaptif ini jelas berbeda dari pendekatan sebelumnya karena bukan pembelajaran satu kali pada dataset statis, melainkan kompetisi antarmodel yang berulang sehingga batas performa itu sendiri terus diperluas. Secara khusus, para penulis merancang sinyal reward bukan sebagai skor point-wise, melainkan sebagai sinyal berbasis preferensi yang diperoleh dari pairwise comparison, sehingga dapat memberikan supervisi yang lebih stabil dan mengurangi kerentanan terhadap reward hacking.

Di pusat metodologi ini terdapat prosedur pelatihan bernama AdvGame, yang bertujuan mendorong Pareto frontier antara keamanan dan kegunaan lebih jauh ke luar. Secara konkret, karena penyerang dan pembela diperbarui secara bergantian sambil mencerminkan kebijakan terbaru satu sama lain, pembela ditempa menghadapi serangan yang benar-benar lebih kuat, sementara penyerang belajar kemampuan mendeteksi kerentanan yang bersifat umum dan tidak terbatas pada kelemahan model tertentu saja. Penjabaran rumus dalam lampiran menunjukkan proses kunci untuk menerjemahkan masalah optimisasi berbasis permainan ini ke bentuk yang benar-benar dapat dilatih, dengan mengekspresikan distribusi optimal kebijakan penyerang sebagai bentuk pembobotan ulang eksponensial terhadap reference policy, lalu merumuskannya kembali dengan cara membandingkan dua kandidat untuk menghilangkan konstanta normalisasi. Dalam proses ini, pelatihan penyerang berubah dari regresi skor absolut menjadi masalah mencocokkan urutan preferensi relatif, yang secara alami bermuara pada objective function keluarga Direct Preference Optimization (DPO). Dengan kata lain, keseluruhan trajectory yang dibentuk bersama oleh prompt yang dihasilkan penyerang dan respons pembela dijadikan objek perbandingan, sehingga diperoleh sinyal pembelajaran yang lebih kaya berbasis interaksi nyata.

Selain itu, paper ini menghubungkan probabilitas preferensi dengan model Bradley-Terry dan memperkenalkan konsep marginalized preference yang merangkum interaksi antara penyerang dan pembela di ruang logit. Dengan ini, model dapat mempelajari struktur preferensi yang merefleksikan bukan hanya prompt itu sendiri, tetapi juga efek gabungan prompt dan respons, sambil merata-ratakan noise pada respons individual. Hasilnya, pembaruan penyerang dijalankan di atas distribusi dinamis yang terus diperbarui oleh kebijakan pembela saat ini, sehingga yang dicapai bukan serangan yang terspesialisasi pada target tetap, melainkan kemampuan red-teaming yang dapat digeneralisasi ke beragam model. Seperti ditekankan dalam abstraknya, optimisasi bersama semacam ini bermakna karena tidak hanya menghasilkan Defender LM yang lebih berguna sekaligus lebih tahan terhadap serangan, tetapi juga Attacker LM umum yang kuat dan dapat digunakan dalam lingkungan deployment nyata. Pada akhirnya, riset ini memperluas penyelarasan keamanan dari sekadar teknik pertahanan menjadi masalah pembelajaran yang secara sistematis memanfaatkan kompetisi dan adaptasi antarmodel, sehingga menawarkan arah metodologis baru untuk sekaligus meningkatkan keamanan dan utilitas language model.

Abstrak(Abstract)

Memastikan keselamatan model bahasa (LM) sambil mempertahankan kegunaannya tetap menjadi tantangan penting dalam alignment AI. Pendekatan saat ini bergantung pada pelatihan adversarial berurutan: menghasilkan prompt adversarial lalu melakukan fine-tuning pada LM agar dapat bertahan terhadapnya. Kami mengusulkan paradigma yang berbeda, yaitu memformalkan alignment keselamatan sebagai permainan non-zero-sum antara Attacker LM dan Defender LM, lalu melatih keduanya secara bersama-sama melalui reinforcement learning online. Setiap LM terus beradaptasi terhadap strategi lawannya yang terus berkembang, sehingga mendorong perbaikan yang berulang. Metode kami menggunakan sinyal reward berbasis preferensi yang diturunkan dari perbandingan berpasangan, alih-alih skor point-wise, untuk memberikan supervisi yang lebih tangguh dan berpotensi mengurangi reward hacking. Resep RL kami, AdvGame, menggeser Pareto frontier antara keselamatan dan kegunaan, menghasilkan Defender LM yang sekaligus lebih membantu dan lebih tangguh terhadap serangan adversarial. Selain itu, Attacker LM yang dihasilkan pada akhirnya berkonvergensi menjadi agen red-teaming serbaguna yang kuat, yang dapat langsung diterapkan untuk menyelidiki dan memverifikasi model target apa pun. Kode tersedia di github.com/facebookresearch/advgame.

Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame.

Tautan paper

https://arxiv.org/abs/2512.20806

Iklan

Bacaan lebih lanjut

https://github.com/facebookresearch/advgame


Rencanakan, Amati, Pulihkan: Benchmark dan Arsitektur untuk Bantuan Prosedural Proaktif / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance

Pengantar paper

Dalam tugas prosedural di dunia nyata, pengguna tidak selalu mengikuti urutan yang telah ditetapkan secara persis, sehingga sistem bantuan harus mampu melampaui sekadar memprediksi langkah berikutnya dan juga menilai kapan harus melakukan intervensi serta bagaimana memberikan panduan. Berangkat dari persoalan ini, pendekatan yang diusulkan berfokus pada bantuan prosedural proaktif yang menafsirkan situasi saat ini berdasarkan informasi visual first-person pengguna, riwayat percakapan, dan konteks pertanyaan, sekaligus mendeteksi secara real time apakah pengguna telah masuk ke kondisi out-of-plan (OOP). Secara khusus, inti dari penelitian ini adalah memisahkan keputusan apakah perlu melakukan intervensi dan isi intervensi itu sendiri, karena penentuan timing dan pembuatan coaching memiliki tujuan optimasi yang berbeda. Ketika pengguna menyimpang dari prosedur normal, sistem tidak boleh hanya diam menunggu, tetapi harus memberikan instruksi pemulihan yang singkat dan akurat pada saat yang tepat; untuk itu, sistem perlu melacak status prosedural dan petunjuk visual secara bersamaan.

Untuk mendukung tujuan tersebut, para penulis terlebih dahulu membangun EgoProactive, data first-person wearable berskala besar yang juga menyediakan anotasi eksplisit untuk penyimpangan dari rencana dan recovery steps. Dataset ini penting karena memungkinkan pembelajaran terhadap deviasi dan kesalahan yang terjadi di lingkungan nyata, sekaligus melengkapi keterbatasan sumber daya sebelumnya yang hanya mengasumsikan progres langkah yang linear. Selain itu, melalui Pro²Bench, yang menyusun ulang lima benchmark yang sudah ada—Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, dan HowTo100M—ke dalam satu kerangka panduan proaktif, mereka menyiapkan lingkungan evaluasi yang memungkinkan kemampuan timing intervensi dan coaching pemulihan dibandingkan secara konsisten di berbagai domain. Hal ini penting karena memperluas pemahaman prosedural dari sekadar masalah prediksi langkah berikutnya menjadi masalah pengukuran kualitas interaksi nyata.

Dari sisi model, penelitian ini mengusulkan decoupled planner-interaction architecture yang memisahkan komponen perencanaan dan komponen interaksi, sehingga pelacakan status prosedural dan pembuatan respons tidak digabungkan secara longgar, melainkan dioptimalkan sesuai peran masing-masing. Di atas itu, diterapkan pemilihan klip yang plan-anchored, sehingga alih-alih memproses seluruh video secara membabi buta, sistem dirancang untuk memprioritaskan segmen visual yang secara langsung relevan dengan langkah saat ini dan penilaian pemulihan. Pendekatan ini membantu mengurangi noise yang tidak perlu pada video first-person yang panjang, sekaligus menangkap tanda-tanda penyimpangan rencana dan petunjuk yang dibutuhkan untuk pemulihan dengan lebih jelas. Dengan kata lain, arsitektur ini dapat dipahami sebagai struktur yang menyelaraskan baik “apa yang harus dikatakan” maupun “apa yang harus dilihat” dengan berpusat pada rencana.

Perlu dicatat juga bahwa melalui resep post-training, penelitian ini menunjukkan bahwa metode tersebut bukan penanganan khusus yang hanya cocok untuk model tertentu, melainkan prosedur umum yang dapat ditransfer ke berbagai backbone. Dalam praktiknya, reproduksi lintas-backbone dilakukan pada Llama 4 dan Qwen-3.6-VL untuk memverifikasi portabilitas metode ini, yang mengindikasikan bahwa pendekatan tersebut nantinya dapat dengan mudah diperluas ke model multimodal yang lebih kuat. Hasil eksperimen menunjukkan bahwa sistem Llama-4 yang dilatih mencatat objective intervention quality yang lebih tinggi di enam dataset dibanding baseline kuat seperti Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2, dan Qwen3 VL 235B. Terutama pada kondisi oracle plan, kinerja panduan pemulihan meningkat secara signifikan ketika kualitas rencana dikendalikan, yang dengan jelas mendukung validitas struktur terpisah antara pelacakan rencana dan pembuatan intervensi. Secara keseluruhan, penelitian ini penting karena mendefinisikan ulang asisten multimodal bagi pengguna yang menjalankan tugas prosedural, bukan sebagai sistem prediksi langkah, melainkan sebagai pelatih intervensi real time, serta menghadirkan data, arsitektur, dan strategi pelatihan yang lebih dekat dengan situasi nyata.

Abstrak(Abstract)

Saya akan menyesuaikan struktur dan terminologi abstrak sumber, menerjemahkan kalimat pertama langsung ke dalam bahasa Indonesia, lalu menyempurnakan seluruh abstrak agar alami dan bernuansa akademis.
Kami membayangkan sebuah sistem asisten multimodal proaktif yang memberikan panduan langkah demi langkah secara real-time kepada pengguna dalam tugas prosedural, serta secara otonom memutuskan kapan harus menyela dan bagaimana memberikan arahan. Namun, kemajuan masih terhambat oleh ketiadaan benchmark lintas domain berskala besar yang mencerminkan kondisi realistis, terutama kasus umum ketika pengguna menyimpang dari urutan langkah yang diharapkan. Kami menutup kesenjangan ini melalui empat kontribusi: (1) merilis EgoProactive, dataset wearable-egocentric berskala besar untuk bantuan prosedural proaktif dengan anotasi Out-of-Plan (OOP) dan langkah pemulihan yang eksplisit; (2) memperluas lima benchmark mapan (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) menjadi Pro\textsuperscript{2}Bench di bawah skema panduan proaktif yang terpadu; (3) mengusulkan arsitektur planner--interaction yang dipisahkan yang dikhususkan untuk status prosedural, petunjuk visual, dan penyisipan pemulihan; (4) memperkenalkan resep post-training yang dapat ditransfer lintas keluarga model, yang divalidasi melalui replikasi lintas backbone pada Llama 4 dan Qwen-3.6-VL. Dalam eksperimen berskala luas, sistem Llama-4 terlatih kami secara substansial meningkatkan kualitas intervensi objektif dibanding baseline proprietary yang kuat (Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) maupun baseline open-weight (Qwen3 VL 235B) di seluruh enam dataset. Eksperimen oracle-plan selanjutnya menunjukkan bahwa ketika kualitas rencana dikendalikan, model duplex terlatih menghasilkan panduan berkualitas tinggi dan peningkatan besar dalam pemulihan Out-of-Plan (OOP).

We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously deciding \textit{when} to interrupt, and \textit{how} to coach. However, progress is limited by the absence of large-scale, cross-domain benchmarks that reflect realistic conditions, particularly the common case in which users deviate from the expected step sequence. We address this gap with four contributions: \textbf{(1)}~we release \textbf{EgoProactive}, a large-scale wearable-egocentric dataset for proactive procedural assistance with explicit Out-of-Plan (OOP) annotations and recovery steps; \textbf{(2)}~we augment five established benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) into \textbf{Pro\textsuperscript{2}Bench} under a unified proactive-guidance schema; \textbf{(3)}~we propose a \textbf{decoupled planner--interaction architecture} specialized for procedural state, visual cues, and recovery injection; \textbf{(4)}~we introduce a post-training recipe that transfers across model families, validated by cross-backbone replication on Llama~4 and Qwen-3.6-VL. In extensive experiments, our trained Llama-4 system substantially improves objective intervention quality over strong proprietary baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) and open-weight baselines (Qwen3~VL~235B) baselines across all six datasets. Oracle-plan experiments further show that, when plan quality is controlled, the trained duplex model produces high-quality guidance and large gains on Out-of-Plan recovery.

Tautan paper

https://arxiv.org/abs/2606.04970

Baca lebih lanjut

https://huggingface.co/datasets/facebook/wearable-ai


FuzzingBrain V2: Sistem LLM multi-agen untuk penemuan dan reproduksi kerentanan otomatis / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

Pengantar paper

Di tengah ancaman keamanan akibat kerentanan perangkat lunak yang kian serius dari hari ke hari, sekitar 50.000 CVE (Common Vulnerabilities and Exposures) dilaporkan hanya pada tahun 2025. Meski large language model (LLM) membuka kemungkinan baru untuk deteksi kerentanan otomatis, pendekatan berbasis LLM yang ada saat ini masih memiliki persoalan mendasar yang belum terpecahkan. Secara spesifik, laporan kerentanan yang dihasilkan LLM menunjukkan tingkat false positive yang tinggi sekaligus kekurangan mekanisme verifikasi yang dapat direproduksi; menggunakan tingkat granularitas yang tidak optimal seperti level fungsi atau level baris untuk melokalisasi kerentanan; dan sulit menangani kerentanan yang melibatkan dependensi lintas fungsi yang kompleks serta kondisi pemicu berlapis. Dalam studi ini, FuzzingBrain V2 yang diusulkan merupakan sistem LLM multi-agen yang dirancang untuk secara sistematis mengatasi tantangan tersebut, dengan memanfaatkan framework OSS-Fuzz milik Google sebagai backend verifikasi untuk menjamin 100% reproduksibilitas bagi semua kerentanan yang dilaporkan. Sistem ini juga memperkenalkan abstraksi baru bernama Suspicious Point yang mencakup informasi alur kontrol, sehingga memungkinkan pelokalisasian kerentanan yang akurat pada titik optimal di antara level fungsi dan level baris, serta meningkatkan cakupan fungsi di bawah kendala sumber daya melalui strategi fuzzing dua lapis bersama analisis fungsi hierarkis berbasis logika. Selain itu, sistem ini memperkuat penalaran kerentanan yang kompleks dengan memanfaatkan alat analisis statis dan dinamis berbasis Model Context Protocol serta context engineering yang canggih. Pada dataset C/C++ dari final kompetisi AIxCC 2025, FuzzingBrain V2 mencapai tingkat deteksi 90% (36 dari 40 kerentanan), sementara di lingkungan operasional nyata sistem ini menemukan total 41 kerentanan yang sebelumnya tidak diketahui di 12 proyek open source, dengan 26 di antaranya telah dikonfirmasi, 23 telah diperbaiki, dan 2 pengenal CVE telah dialokasikan. Hasil ini dengan jelas membuktikan bahwa pendekatan multi-agen yang menggabungkan kemampuan analisis semantik dan deteksi berbasis eksekusi dapat secara langsung meningkatkan keamanan perangkat lunak produksi nyata, melampaui sekadar capaian akademis.

Abstrak

Kerentanan perangkat lunak menimbulkan ancaman keamanan yang serius, dengan hampir 50.000 CVE dilaporkan pada 2025. Model bahasa besar (LLM) menunjukkan potensi untuk deteksi kerentanan otomatis, tetapi masih ada tiga tantangan utama. Pertama, laporan kerentanan yang dihasilkan LLM memiliki tingkat false positive yang tinggi dan kurang memiliki verifikasi yang dapat direproduksi. Kedua, pendekatan berbasis LLM yang ada menggunakan granularitas yang kurang optimal untuk pelokalan kerentanan. Analisis tingkat fungsi melewatkan bug ketika konteks terlalu luas, sementara analisis tingkat baris tidak memberikan konteks yang cukup. Ketiga, pendekatan yang ada kesulitan melakukan penalaran terhadap kerentanan dengan dependensi lintas-fungsi yang kompleks dan kondisi pemicu. Kami memperkenalkan FuzzingBrain V2, sebuah sistem multi-agen yang mengatasi kesenjangan ini melalui empat kontribusi utama: (1) analisis kerentanan yang sepenuhnya otomatis berbasis OSS-Fuzz milik Google, yang memastikan semua kerentanan yang dilaporkan dapat direproduksi oleh fuzzer; (2) Suspicious Point, abstraksi baru berbasis control flow untuk pelokalan kerentanan yang presisi; (3) analisis fungsi hierarkis berbasis logika dengan dual-layer fuzzing yang meningkatkan cakupan fungsi di bawah keterbatasan sumber daya; (4) alat analisis statis dan dinamis berbasis MCP dengan context engineering yang memperkuat penalaran atas kerentanan kompleks. Pada dataset C/C++ AIxCC 2025 Final Competition, FuzzingBrain V2 mencapai tingkat deteksi 90% (36 dari 40 kerentanan). Dalam penerapan dunia nyata, FuzzingBrain V2 menemukan 29 kerentanan zero-day di 12 proyek open-source, yang semuanya telah dikonfirmasi dan diperbaiki oleh maintainer, dengan 2 di antaranya mendapat CVE ID.

Kerentanan perangkat lunak menimbulkan ancaman keamanan yang kritis, dengan hampir 50.000 CVE dilaporkan pada 2025. Meski Large Language Models (LLM) menunjukkan potensi untuk deteksi kerentanan otomatis, masih ada tiga tantangan utama. Pertama, laporan kerentanan yang dihasilkan LLM memiliki tingkat false positive yang tinggi dan tidak memiliki verifikasi yang dapat direproduksi. Kedua, pendekatan berbasis LLM yang ada menggunakan granularitas yang kurang optimal untuk pelokalan kerentanan: analisis tingkat fungsi mengabaikan bug ketika konteks menjadi luas, sementara analisis tingkat baris tidak memiliki konteks yang memadai. Ketiga, pendekatan yang ada kesulitan melakukan penalaran terhadap kerentanan dengan dependensi lintas-fungsi yang kompleks dan kondisi pemicu. Kami memperkenalkan FuzzingBrain V2, sistem multi-agen yang mengatasi kesenjangan ini melalui empat kontribusi utama: (1) analisis kerentanan yang sepenuhnya otomatis dibangun di atas OSS-Fuzz milik Google, memastikan semua kerentanan yang dilaporkan dapat direproduksi oleh fuzzer; (2) Suspicious Point, abstraksi baru berbasis control flow untuk pelokalan kerentanan yang presisi pada granularitas optimal; (3) analisis fungsi hierarkis berbasis logika dengan dual-layer fuzzing yang meningkatkan cakupan fungsi di bawah keterbatasan sumber daya; (4) alat analisis statis dan dinamis berbasis MCP dengan context engineering yang meningkatkan penalaran atas kerentanan kompleks. Pada dataset C/C++ AIxCC 2025 Final Competition, FuzzingBrain V2 mencapai tingkat deteksi 90% (36 dari 40 kerentanan). Dalam penerapan di dunia nyata, FuzzingBrain V2 menemukan 29 kerentanan zero-day di 12 proyek open-source, semuanya dikonfirmasi dan diperbaiki oleh maintainer, dengan 2 di antaranya diberikan CVE ID.

Tautan paper

https://arxiv.org/abs/2605.21779


⚠️Iklan⚠️: 🔥Komunitas Pengguna PyTorch Korea🇰🇷 yang merangkum tulisan ini, apakah menurut Anda tulisan ini bermanfaat? Jika Anda bergabung sebagai anggota, kami akan mengirimkan tulisan-tulisan utama lewat email💌! Anda juga bisa menerima notifikasi tulisan baru melalui Telegram atau Slack/Discord/Teams/Dooray/GoogleChat dll.. :D

Belum ada komentar.

Belum ada komentar.