ML yang layak disimak minggu ini

(discuss.pytorch.kr)

7 poin oleh ninebow 2025-10-01 | Belum ada komentar. | Bagikan ke WhatsApp

[2025/09/22 ~ 28] Kumpulan paper AI/ML yang layak disimak minggu ini

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Perkembangan agen AI: Riset-riset terbaru sedang mengeksplorasi cara mengubah paper menjadi agen AI. Misalnya, Paper2Agent mengubah hasil riset menjadi sistem aktif agar pengguna dapat memanfaatkannya dengan lebih mudah. Pendekatan ini mendorong penyebaran dan penggunaan ulang hasil riset, serta menghadirkan paradigma baru di mana AI dapat berperan sebagai asisten riset.

2️⃣ Integrasi pemikiran paralel dan reinforcement learning: Riset seperti Parallel-R1 dan ParaThinker mengusulkan cara memanfaatkan pemikiran paralel untuk meningkatkan kemampuan bernalar large language model (LLM). Melalui reinforcement learning (RL), mereka secara bersamaan mengeksplorasi beragam jalur penalaran yang diperlukan untuk menyelesaikan masalah kompleks sehingga kinerjanya meningkat. Pendekatan ini berkontribusi dalam mencapai akurasi yang lebih tinggi dibanding model penalaran sekuensial yang ada sebelumnya.

3️⃣ Integrasi pencarian dan penataan informasi: Riset seperti Retrieval And Structuring (RAS) Augmented Generation mengeksplorasi cara mengintegrasikan pencarian informasi dinamis dan representasi pengetahuan terstruktur untuk mengatasi keterbatasan LLM. Pendekatan ini berkontribusi pada peningkatan performa LLM dengan mengubah teks tak terstruktur menjadi bentuk yang terorganisasi dan mengeksplorasi berbagai mekanisme untuk mengakses pengetahuan eksternal.

Paper2Agent: Membayangkan Ulang Paper Riset sebagai Agen AI yang Interaktif dan Andal / Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

Pengenalan paper

Paper2Agent adalah framework otomatis yang mengubah paper riset menjadi agen kecerdasan buatan (AI) yang interaktif, dan menghadirkan pendekatan inovatif untuk mempercepat pemanfaatan serta penyebaran hasil riset. Paper riset konvensional mengharuskan pembaca mencurahkan upaya besar untuk memahami dan menerapkan isinya, yang menjadi hambatan bagi penggunaan ulang dan penyebaran hasil riset. Untuk mengatasi masalah ini, Paper2Agent secara sistematis menganalisis paper beserta codebase terkait, lalu memanfaatkan beberapa agen untuk membangun server Model Context Protocol (MCP). Dalam proses ini, MCP terus diperbaiki dan diperkuat melalui pengujian berulang, hingga pada akhirnya tercipta agen AI yang mampu menjalankan kueri ilmiah kompleks melalui bahasa alami.

Framework ini telah mengembangkan agen yang melakukan interpretasi varian genom dan analisis sel tunggal dengan memanfaatkan beragam metodologi seperti AlphaGenome, ScanPy, dan TISSUE. Agen-agen ini tidak hanya mampu mereproduksi hasil dari paper asli, tetapi juga memberikan respons yang akurat terhadap kueri pengguna yang baru. Dengan mengubah paper riset statis menjadi agen AI yang dinamis dan interaktif, Paper2Agent menghadirkan paradigma baru untuk penyebaran pengetahuan dan meletakkan fondasi bagi ekosistem AI co-scientist.

Riset ini secara inovatif mengubah cara komunikasi ilmiah dilakukan, serta berkontribusi dalam mentransformasikan hasil riset dari sekadar dokumen menjadi sistem berbasis pengetahuan yang aktif. Paper2Agent memungkinkan peneliti menerapkan metode riset dengan mudah melalui interaksi bahasa alami dengan agen, tanpa harus menguasai ekosistem software yang kompleks. Pendekatan ini memainkan peran penting dalam meningkatkan aksesibilitas hasil riset, mendorong demokratisasi metodologi tingkat lanjut, dan mempercepat laju penerapan nyata riset.

Pada akhirnya, Paper2Agent akan memantapkan posisinya sebagai platform inovatif yang memaksimalkan kegunaan paper riset serta memungkinkan penyebaran pengetahuan ilmiah yang interaktif dan kolaboratif.

Abstrak paper

Kami memperkenalkan Paper2Agent, sebuah framework otomatis yang mengubah paper riset menjadi agen AI. Paper2Agent mentransformasikan keluaran riset dari artefak pasif menjadi sistem aktif yang dapat mempercepat penggunaan, adopsi, dan penemuan lanjutan. Paper riset konvensional mengharuskan pembaca menginvestasikan upaya besar untuk memahami kode, data, dan metode dalam paper, lalu menyesuaikannya dengan pekerjaan mereka sendiri, sehingga menciptakan hambatan bagi penyebaran dan penggunaan ulang. Paper2Agent mengatasi tantangan ini dengan secara otomatis mengubah paper menjadi agen AI yang bertindak sebagai asisten riset yang kaya pengetahuan. Sistem ini menggunakan beberapa agen untuk menganalisis paper dan codebase terkait secara sistematis, membangun server Model Context Protocol (MCP), lalu secara iteratif menghasilkan dan menjalankan pengujian untuk menyempurnakan serta memperkuat MCP yang dihasilkan. MCP paper ini kemudian dapat dihubungkan secara fleksibel dengan agen chat (misalnya Claude Code) untuk menjalankan kueri ilmiah yang kompleks melalui bahasa alami sambil memanggil alat dan workflow dari paper asli. Kami menunjukkan efektivitas Paper2Agent dalam menciptakan agen paper yang andal dan kapabel melalui studi kasus mendalam. Paper2Agent menciptakan agen yang memanfaatkan AlphaGenome untuk menafsirkan varian genom, serta agen berbasis ScanPy dan TISSUE untuk melakukan analisis single-cell dan spatial transcriptomics. Kami memvalidasi bahwa agen-agen paper ini dapat mereproduksi hasil paper asli dan dapat secara tepat menjalankan kueri pengguna yang baru. Dengan mengubah paper statis menjadi agen AI yang dinamis dan interaktif, Paper2Agent memperkenalkan paradigma baru untuk penyebaran pengetahuan serta fondasi bagi ekosistem kolaboratif AI co-scientist.
> Kami memperkenalkan Paper2Agent, sebuah framework otomatis yang mengubah paper riset menjadi agen AI. Paper2Agent mentransformasikan keluaran riset dari artefak pasif menjadi sistem aktif yang dapat mempercepat penggunaan, adopsi, dan penemuan lanjutan. Paper riset konvensional mengharuskan pembaca menginvestasikan upaya besar untuk memahami kode, data, dan metode dalam paper, lalu menyesuaikannya dengan pekerjaan mereka sendiri, sehingga menciptakan hambatan bagi penyebaran dan penggunaan ulang. Paper2Agent mengatasi tantangan ini dengan secara otomatis mengubah paper menjadi agen AI yang bertindak sebagai asisten riset yang kaya pengetahuan. Sistem ini menggunakan beberapa agen untuk menganalisis paper dan codebase terkait secara sistematis, membangun server Model Context Protocol (MCP), lalu secara iteratif menghasilkan dan menjalankan pengujian untuk menyempurnakan serta memperkuat MCP yang dihasilkan. MCP paper ini kemudian dapat dihubungkan secara fleksibel dengan agen chat (misalnya Claude Code) untuk menjalankan kueri ilmiah yang kompleks melalui bahasa alami sambil memanggil alat dan workflow dari paper asli. Kami menunjukkan efektivitas Paper2Agent dalam menciptakan agen paper yang andal dan kapabel melalui studi kasus mendalam. Paper2Agent menciptakan agen yang memanfaatkan AlphaGenome untuk menafsirkan varian genom, serta agen berbasis ScanPy dan TISSUE untuk melakukan analisis single-cell dan spatial transcriptomics. Kami memvalidasi bahwa agen-agen paper ini dapat mereproduksi hasil paper asli dan dapat secara tepat menjalankan kueri pengguna yang baru. Dengan mengubah paper statis menjadi agen AI yang dinamis dan interaktif, Paper2Agent memperkenalkan paradigma baru untuk penyebaran pengetahuan serta fondasi bagi ekosistem kolaboratif AI co-scientist.

Tautan paper

https://arxiv.org/abs/2509.06917

Baca lebih lanjut

https://github.com/jmiao24/Paper2Agent

https://huggingface.co/spaces/Paper2Agent/alphagenome_agent

Pemikiran paralel: metode peningkatan kemampuan berpikir paralel melalui reinforcement learning / Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

Pengantar paper

Pemikiran paralel adalah pendekatan inovatif untuk meningkatkan kemampuan penalaran large language model (LLM), yaitu metodologi yang mengeksplorasi beberapa jalur penalaran secara bersamaan. Namun, pendekatan supervised learning yang ada saat ini, yaitu Supervised Fine-Tuning (SFT), memiliki keterbatasan karena bergantung pada data sintetis sehingga model cenderung berhenti pada pembelajaran imitasi sederhana, yang menghambat eksplorasi dan generalisasi. Untuk mengatasi masalah ini, Parallel-R1 yang diusulkan merupakan framework reinforcement learning (RL) pertama yang memungkinkan perilaku pemikiran paralel untuk pemecahan masalah dunia nyata yang kompleks.

Parallel-R1 mengadopsi proses pelatihan dua tahap melalui kurikulum progresif: pada tahap awal mempelajari masalah yang lebih mudah, lalu melalui RL mengeksplorasi dan menggeneralisasi kemampuan berpikir paralel pada masalah yang lebih sulit. Dalam proses ini, model pada tahap awal cenderung menggunakan pemikiran paralel sebagai strategi eksplorasi, dan pada tahap berikutnya berkembang menjadi strategi untuk verifikasi dari berbagai sudut pandang. Hasil eksperimen menunjukkan bahwa Parallel-R1 mencapai peningkatan akurasi sebesar 8.4% pada berbagai benchmark matematika dibandingkan model pemikiran sekuensial yang sudah ada, dan khususnya mencatat peningkatan performa 42.9% pada benchmark AIME25.

Kontribusi utama penelitian ini adalah mengusulkan framework RL untuk pemikiran paralel, sehingga model terdorong untuk mempelajari pemikiran paralel secara mandiri. Selain itu, melalui mekanisme eksplorasi pemikiran paralel, model dapat diarahkan ke area yang lebih efektif dalam ruang kebijakan, sehingga memainkan peran struktural yang berkontribusi pada pembelajaran kebijakan akhir. Parallel-R1 dapat dimanfaatkan sebagai landasan penting untuk meningkatkan kemampuan penalaran LLM, dan diharapkan berkontribusi pada pengembangan lebih lanjut konsep pemikiran paralel dalam penelitian mendatang.

Abstrak paper

Pemikiran paralel adalah pendekatan baru untuk meningkatkan kemampuan penalaran large language model (LLM) dengan mengeksplorasi beberapa jalur penalaran secara bersamaan. Namun, mengaktifkan kemampuan semacam itu melalui pelatihan masih menjadi tantangan, karena metode yang ada terutama bergantung pada supervised fine-tuning (SFT) terhadap data sintetis, yang mendorong imitasi dengan teacher forcing alih-alih eksplorasi dan generalisasi. Berbeda dari pendekatan tersebut, kami mengusulkan \textbf{Parallel-R1}, framework reinforcement learning (RL) pertama yang memungkinkan perilaku pemikiran paralel untuk tugas penalaran dunia nyata yang kompleks. Framework kami menggunakan kurikulum progresif yang secara eksplisit mengatasi masalah cold start dalam pelatihan pemikiran paralel dengan RL. Kami pertama-tama menggunakan SFT pada trajectory hasil generasi prompt dari tugas yang lebih mudah untuk menanamkan kemampuan berpikir paralel, lalu beralih ke RL untuk mengeksplorasi dan menggeneralisasi keterampilan ini pada masalah yang lebih sulit. Hasil eksperimen pada berbagai benchmark matematika, termasuk MATH, AMC23, dan AIME, menunjukkan bahwa Parallel-R1 berhasil menanamkan pemikiran paralel, yang menghasilkan peningkatan akurasi 8.4% dibandingkan model pemikiran sekuensial yang dilatih langsung pada tugas menantang dengan RL. Analisis tambahan mengungkap perubahan yang jelas dalam perilaku berpikir model: pada tahap awal, model menggunakan pemikiran paralel sebagai strategi eksplorasi, sedangkan pada tahap akhir, kemampuan yang sama digunakan untuk verifikasi multi-perspektif. Yang paling penting, kami memvalidasi bahwa pemikiran paralel berfungsi sebagai \textbf{scaffold eksplorasi di tengah pelatihan}, di mana fase eksplorasi sementara ini membuka batas performa yang lebih tinggi setelah RL, menghasilkan peningkatan 42.9% dibanding baseline pada AIME25. Model, data, dan kode kami akan tersedia secara open source di https://github.com/zhengkid/Parallel-R1.
> Parallel thinking has emerged as a novel approach for enhancing the reasoning capabilities of large language models (LLMs) by exploring multiple reasoning paths concurrently. However, activating such capabilities through training remains challenging, as existing methods predominantly rely on supervised fine-tuning (SFT) over synthetic data, which encourages teacher-forced imitation rather than exploration and generalization. Different from them, we propose \textbf{Parallel-R1}, the first reinforcement learning (RL) framework that enables parallel thinking behaviors for complex real-world reasoning tasks. Our framework employs a progressive curriculum that explicitly addresses the cold-start problem in training parallel thinking with RL. We first use SFT on prompt-generated trajectories from easier tasks to instill the parallel thinking ability, then transition to RL to explore and generalize this skill on harder problems. Experiments on various math benchmarks, including MATH, AMC23, and AIME, show that Parallel-R1 successfully instills parallel thinking, leading to 8.4% accuracy improvements over the sequential thinking model trained directly on challenging tasks with RL. Further analysis reveals a clear shift in the model's thinking behavior: at an early stage, it uses parallel thinking as an exploration strategy, while in a later stage, it uses the same capability for multi-perspective verification. Most significantly, we validate parallel thinking as a \textbf{mid-training exploration scaffold}, where this temporary exploratory phase unlocks a higher performance ceiling after RL, yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and code will be open-source at https://github.com/zhengkid/Parallel-R1.

Tautan paper

https://arxiv.org/abs/2509.07980

Baca lebih lanjut

https://zhengkid.github.io/Parallel_R1.github.io/

https://github.com/zhengkid/Parallel-R1

Survei tentang retrieval and structuring augmented generation dengan large language models / A Survey on Retrieval And Structuring Augmented Generation with Large Language Models

Pengantar paper

Large language models (LLM) telah menghadirkan kemajuan revolusioner di bidang pemrosesan bahasa alami, tetapi dalam aplikasi nyata masih menghadapi masalah seperti menghasilkan halusinasi (hallucination), pengetahuan yang usang, dan keterbatasan keahlian domain. Untuk mengatasi keterbatasan ini, pendekatan Retrieval And Structuring Augmented Generation (RAS) yang diusulkan berkontribusi pada peningkatan performa LLM dengan mengintegrasikan pencarian informasi dinamis dan representasi pengetahuan yang terstruktur. Penelitian ini meninjau berbagai mekanisme retrieval untuk mengakses pengetahuan eksternal, termasuk pendekatan sparse, dense, dan hybrid. Mekanisme retrieval ini mendukung LLM agar dapat menghasilkan informasi yang lebih akurat dan andal.

Selain itu, teknologi penataan teks yang mengubah teks tidak terstruktur menjadi representasi yang terorganisasi juga memainkan peran penting. Melalui metode seperti pembangunan taksonomi, klasifikasi hierarkis, dan ekstraksi informasi, LLM dapat meningkatkan keahlian pada domain tertentu serta memungkinkan penalaran multi-tahap untuk kueri yang kompleks. RAS mengintegrasikan representasi terstruktur ini dengan LLM untuk meningkatkan kemampuan generasi respons LLM melalui metode berbasis prompt, kerangka penalaran, dan teknik embedding pengetahuan.

Studi ini mengidentifikasi tantangan teknis dalam RAS dan menekankan pentingnya efisiensi retrieval, kualitas struktur, dan integrasi pengetahuan. Selain itu, studi ini mengajukan peluang riset masa depan seperti retrieval multimodal, struktur lintas bahasa, dan sistem interaktif untuk memperluas kemungkinan penerapan LLM. Pendekatan RAS diharapkan menjadi metodologi inovatif yang dapat memaksimalkan kinerja LLM dan berkontribusi pada kemajuan bidang pemrosesan bahasa alami.

Abstrak paper

Large Language Model (LLM) telah merevolusi pemrosesan bahasa alami dengan kemampuan luar biasa mereka dalam generasi teks dan penalaran. Namun, model-model ini menghadapi tantangan krusial saat diterapkan di aplikasi dunia nyata, termasuk halusinasi, pengetahuan yang usang, dan keahlian domain yang terbatas. Retrieval And Structuring (RAS) Augmented Generation mengatasi keterbatasan ini dengan mengintegrasikan retrieval informasi dinamis dengan representasi pengetahuan terstruktur. Survei ini (1) meninjau mekanisme retrieval, termasuk pendekatan sparse, dense, dan hybrid untuk mengakses pengetahuan eksternal; (2) mengeksplorasi teknik penataan teks seperti pembangunan taksonomi, klasifikasi hierarkis, dan ekstraksi informasi yang mengubah teks tidak terstruktur menjadi representasi yang terorganisasi; dan (3) menyelidiki bagaimana representasi terstruktur ini diintegrasikan dengan LLM melalui metode berbasis prompt, kerangka penalaran, dan teknik embedding pengetahuan. Selain itu, survei ini mengidentifikasi tantangan teknis dalam efisiensi retrieval, kualitas struktur, dan integrasi pengetahuan, sambil menyoroti peluang riset pada retrieval multimodal, struktur lintas bahasa, dan sistem interaktif. Tinjauan komprehensif ini memberikan wawasan kepada peneliti dan praktisi tentang metode RAS, aplikasi, dan arah masa depan.
> Large Language Models (LLMs) have revolutionized natural language processing with their remarkable capabilities in text generation and reasoning. However, these models face critical challenges when deployed in real-world applications, including hallucination generation, outdated knowledge, and limited domain expertise. Retrieval And Structuring (RAS) Augmented Generation addresses these limitations by integrating dynamic information retrieval with structured knowledge representations. This survey (1) examines retrieval mechanisms including sparse, dense, and hybrid approaches for accessing external knowledge; (2) explore text structuring techniques such as taxonomy construction, hierarchical classification, and information extraction that transform unstructured text into organized representations; and (3) investigate how these structured representations integrate with LLMs through prompt-based methods, reasoning frameworks, and knowledge embedding techniques. It also identifies technical challenges in retrieval efficiency, structure quality, and knowledge integration, while highlighting research opportunities in multimodal retrieval, cross-lingual structures, and interactive systems. This comprehensive overview provides researchers and practitioners with insights into RAS methods, applications, and future directions.

Tautan paper

https://arxiv.org/abs/2509.10697

ParaThinker: Pemikiran Paralel Native sebagai Paradigma Baru untuk Menskalakan Komputasi Test-time LLM / ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute

Pengantar paper

Perkembangan Large Language Model (LLM) belakangan ini sangat bergantung pada strategi penskalaan komputasi test-time, yang berkontribusi pada peningkatan kemampuan penalaran model. Namun, pendekatan ini menghadapi bottleneck di mana peningkatan performa menjadi minim seiring bertambahnya komputasi. Masalah ini disebut sebagai "Tunnel Vision", yaitu fenomena ketika penalaran yang tidak sempurna pada tahap awal membuat model terjebak pada jalur yang tidak optimal. Untuk mengatasinya, paradigma baru yang diusulkan, Native Thought Parallelism, adalah metode yang menghasilkan beberapa jalur penalaran yang beragam secara bersamaan lalu mensintesiskannya untuk memperoleh jawaban akhir.

Framework end-to-end bernama ParaThinker berfokus pada implementasi paralelisme pemikiran ini. Sistem ini dilatih agar model secara mandiri menghasilkan beragam pemikiran, sehingga dapat secara efektif menghindari masalah Tunnel Vision dan memaksimalkan kemampuan penalaran potensial model. ParaThinker mencapai tujuan ini melalui tiga inovasi utama. Pertama, memperkenalkan token kontrol yang dapat dilatih untuk menjamin keunikan tiap jalur; kedua, membedakan dengan jelas asal setiap jalur melalui embedding posisi khusus pemikiran; dan ketiga, memungkinkan model menghasilkan lebih banyak jalur paralel melalui strategi Supervised Fine-Tuning.

Pendekatan ini menghasilkan peningkatan akurasi rata-rata sebesar 12,3% pada model 1.5B dan 7,5% pada model 7B dibandingkan model penalaran autoregresif yang ada pada benchmark penalaran yang menantang, sementara latensinya hanya meningkat tipis sebesar 7,1%. Karena itu, ParaThinker menunjukkan kemungkinan bahwa model yang lebih kecil dapat melampaui model yang jauh lebih besar, sekaligus menawarkan jalur baru untuk penskalaan LLM di masa depan. Hasil penelitian ini memberikan kontribusi penting bagi bidang riset LLM dengan mengungkap bottleneck yang muncul dalam proses penalaran LLM dan membuktikan bahwa Native Thought Parallelism merupakan metode penskalaan yang lebih baik.

Abstrak paper

Kemajuan terbaru dalam large language model (LLM) telah didorong oleh penskalaan komputasi saat inferensi, yaitu strategi yang meningkatkan penalaran dengan menghasilkan proses berpikir berurutan yang lebih panjang. Meski efektif, pendekatan ini menghadapi bottleneck yang signifikan seiring meningkatnya komputasi, di mana komputasi tambahan hanya memberikan peningkatan kinerja yang marginal. Kami berpendapat bahwa batas ini bukanlah keterbatasan bawaan dari kemampuan model, melainkan cacat pada strategi penskalaan itu sendiri. Kami menyebutnya sebagai "Tunnel Vision", yaitu fenomena ketika langkah awal model yang tidak sempurna menguncinya ke jalur penalaran yang suboptimal. Untuk mengatasinya, kami memperkenalkan paradigma penskalaan baru: paralelisme pemikiran native. Kami menghadirkan ParaThinker, sebuah framework end-to-end yang melatih LLM untuk menghasilkan banyak jalur penalaran yang beragam secara paralel dan mensintesiskannya menjadi jawaban akhir yang lebih unggul. Dengan mengeksplorasi berbagai alur pemikiran secara bersamaan, ParaThinker secara efektif menghindari masalah Tunnel Vision dan membuka potensi penalaran laten model. Pendekatan kami menunjukkan bahwa menskalakan komputasi secara paralel (lebar) adalah cara yang lebih efektif dan efisien untuk mencapai penalaran yang lebih unggul dibanding sekadar menskalakannya secara berurutan (kedalaman). Pada benchmark penalaran yang menantang, ParaThinker mencapai peningkatan akurasi yang signifikan dibanding LLM sekuensial (rata-rata 12,3% untuk model 1.5B dan 7,5% untuk model 7B), dengan overhead latensi yang tetap sangat kecil (7,1%). Hal ini memungkinkan model yang lebih kecil melampaui model yang jauh lebih besar, sekaligus menegaskan pemikiran paralel sebagai dimensi efisien yang penting untuk penskalaan LLM di masa depan.
> Recent advances in Large Language Models (LLMs) have been driven by test-time compute scaling - a strategy that improves reasoning by generating longer, sequential thought processes. While effective, this approach encounters a significant bottleneck as computation increases, where further computation offers only marginal performance gains. We argue this ceiling is not an inherent limit of the model's capability but a flaw in the scaling strategy itself, a phenomenon we term "Tunnel Vision", where a model's imperfect initial steps lock it into a suboptimal reasoning path. To overcome this, we introduce a new scaling paradigm: native thought parallelism. We present ParaThinker, an end-to-end framework that trains an LLM to generate multiple, diverse reasoning paths in parallel and synthesize them into a superior final answer. By exploring different lines of thoughts simultaneously, ParaThinker effectively sidesteps the Tunnel Vision issue and unlocks the model's latent reasoning potential. Our approach demonstrates that scaling compute in parallel (width) is a more effective and efficient way to superior reasoning than simply scaling sequentially (depth). On challenging reasoning benchmarks, ParaThinker achieves substantial accuracy improvements over sequential LLMs (12.3% for 1.5B and 7.5% for 7B models on average with 8 parallel paths), while adding only negligible latency overhead (7.1%). This enables smaller models to surpass much larger counterparts and establishes parallel thinking as a critical, efficient dimension for scaling future LLMs.

Tautan paper

https://arxiv.org/abs/2509.04475

In-context fine-tuning untuk model fondasi deret waktu / In-Context Fine-Tuning for Time-Series Foundation Models

Pengenalan paper

Peramalan data deret waktu merupakan tugas penting di berbagai bidang, dan kemajuan terbaru dalam model fondasi deret waktu membuka kemungkinan baru untuk menyelesaikan masalah ini. Dalam penelitian ini, kami mengusulkan metodologi baru untuk memaksimalkan kinerja model tersebut, yaitu $\textit{in-context fine-tuning}$. Metodologi ini dirancang agar model fondasi yang telah dipra-latih dapat memanfaatkan beberapa contoh deret waktu untuk memprediksi deret waktu tertentu ke masa depan.

Model yang diusulkan dilatih agar dapat beradaptasi dengan distribusi spesifik dari domain target saat inferensi, dengan memanfaatkan bukan hanya riwayat deret waktu target tetapi juga contoh dari deret waktu terkait di dalam context window. Pendekatan ini memungkinkan model mempelajari pola dari beragam deret waktu dan, berdasarkan itu, melakukan prediksi yang lebih akurat. Hasil eksperimen menunjukkan bahwa model ini memberikan kinerja yang jauh lebih baik dibanding metode deep learning berbasis supervised learning, model statistik, dan model fondasi deret waktu lain yang sudah ada.

Secara khusus, pendekatan in-context fine-tuning menunjukkan kinerja yang mampu bersaing bahkan dengan model yang di-fine-tune secara eksplisit untuk domain target, sehingga menegaskan sifat inovatif dari metodologi ini. Arsitektur model dibangun berdasarkan TimesFM, dan disusun agar dapat memproses data deret waktu secara efektif. Contoh input diproses dengan membaginya ke dalam patch sepanjang $p$, dan akurasi prediksi dijaga melalui padding mask.

Dalam proses tokenisasi, token yang dihasilkan dengan menggabungkan patch dan mask dimasukkan ke stacked transformer layers, dan dari sana dihasilkan hasil prediksi. Rangkaian proses ini memainkan peran penting agar model dapat memproses data masukan secara efektif dan memprediksi deret waktu untuk $h$ langkah berikutnya. Penelitian ini mengusulkan pendekatan baru untuk peramalan data deret waktu, serta secara empiris menunjukkan bahwa in-context fine-tuning dapat memberikan kinerja yang lebih unggul dibanding metode-metode yang ada.

Abstrak paper

Didorong oleh keberhasilan terbaru model fondasi deret waktu untuk peramalan zero-shot, kami memperkenalkan metodologi $\textit{fine-tuning dalam konteks}$ untuk model fondasi deret waktu. Secara khusus, kami merancang model fondasi pralatih yang dapat diberi prompt saat inferensi dengan beberapa contoh deret waktu untuk meramalkan deret waktu target ke masa depan. Model fondasi kami secara khusus dilatih untuk memanfaatkan contoh dari beberapa deret waktu terkait di jendela konteksnya, selain riwayat deret waktu target, guna membantunya beradaptasi dengan distribusi spesifik domain target saat inferensi. Kami menunjukkan bahwa model fondasi yang menggunakan contoh dalam konteks saat inferensi seperti ini dapat memperoleh performa yang jauh lebih baik pada benchmark peramalan populer dibandingkan metode deep learning tersupervisi, model statistik, maupun model fondasi deret waktu lainnya. Menariknya, pendekatan fine-tuning dalam konteks kami bahkan mampu menyaingi performa model fondasi yang secara eksplisit di-fine-tune pada domain target.
> Motivated by the recent success of time-series foundation models for zero-shot forecasting, we present a methodology for $\textit{in-context fine-tuning}$ of a time-series foundation model. In particular, we design a pretrained foundation model that can be prompted (at inference time) with multiple time-series examples, in order to forecast a target time-series into the future. Our foundation model is specifically trained to utilize examples from multiple related time-series in its context window (in addition to the history of the target time-series) to help it adapt to the specific distribution of the target domain at inference time. We show that such a foundation model that uses in-context examples at inference time can obtain much better performance on popular forecasting benchmarks compared to supervised deep learning methods, statistical models, as well as other time-series foundation models. Interestingly, our in-context fine-tuning approach even rivals the performance of a foundation model that is explicitly fine-tuned on the target domain.

Tautan paper

https://arxiv.org/abs/2410.24087

Baca lebih lanjut

https://research.google/blog/…

https://icml.cc/virtual/2025/poster/43707

Hanya 1 bit sudah cukup: jaringan saraf ternormalisasi biner / 1 bit is all we need: binary normalized neural networks

Pengantar paper

Kemajuan model jaringan saraf skala besar menunjukkan performa unggul di berbagai bidang aplikasi, tetapi peningkatan ukuran model-model ini menimbulkan tantangan pada kebutuhan memori dan efisiensi komputasi. Untuk mengatasi masalah ini, penelitian ini mengusulkan binary normalized layer, jenis baru model jaringan saraf yang membatasi parameter di semua layer hanya menjadi satu bit. Layer ini dirancang dengan menetapkan semua parameter, termasuk bobot kernel dan bias, menjadi 0 atau 1, sehingga dapat secara drastis mengurangi penggunaan memori sambil tetap mempertahankan performa yang serupa dengan model yang menggunakan parameter floating point 32-bit konvensional.

Binary normalized layer dapat diterapkan pada berbagai arsitektur jaringan saraf seperti fully connected, convolution, dan attention, serta menggunakan dua bentuk nilai selama proses pelatihan, yaitu nilai presisi penuh 32-bit dan nilai yang telah dibinerisasi, untuk menjamin pembelajaran yang stabil. Dalam penelitian ini, dua model yang memanfaatkan binary normalized layer dibangun untuk menyelesaikan masalah klasifikasi gambar multikelas dan decoding bahasa. Hasil eksperimen menunjukkan bahwa model-model ini menampilkan performa yang hampir identik dengan model yang menggunakan parameter 32-bit konvensional, sementara penggunaan memorinya berkurang 32 kali lipat.

Pendekatan inovatif ini memiliki potensi untuk secara signifikan meningkatkan efisiensi model jaringan saraf skala besar, serta menawarkan keunggulan karena dapat dengan mudah diimplementasikan bahkan pada perangkat keras berbiaya rendah. Melalui binary normalized layer, penelitian ini membuka kemungkinan baru untuk mengurangi kebutuhan memori model jaringan saraf dan meningkatkan kepraktisannya di berbagai bidang aplikasi. Penelitian selanjutnya diperkirakan akan berfokus pada peningkatan performa binary normalized layer lebih lanjut serta eksplorasi metodologi untuk menerapkannya di berbagai domain.

Abstrak paper

Berikut adalah abstrak paper di bidang AI/ML. Seiring meningkatnya ukuran model jaringan saraf skala besar, khususnya model bahasa dan model gambar fondasional, muncul tantangan dalam deployment yang mendorong upaya untuk mengurangi kebutuhan memori dan meningkatkan efisiensi komputasi. Upaya ini penting untuk memastikan deployment yang praktis dan pemanfaatan yang efektif dari model-model tersebut di berbagai aplikasi. Dalam penelitian ini, dikembangkan jenis baru lapisan dan model jaringan saraf yang hanya menggunakan parameter satu bit. Pada jenis model baru ini, semua parameter di semua lapisan, termasuk bobot kernel dan bias, hanya memiliki nilai 0 atau 1. Jenis model baru ini menggunakan lapisan yang disebut binary normalized layer. Binary normalized layer ini dapat berupa jenis apa pun, seperti fully connected, convolutional, attention, dan lain-lain, serta terdiri dari sedikit variasi dari lapisan konvensional yang bersesuaian. Untuk menunjukkan efektivitas binary normalized layer, dua model berbeda dikonfigurasi untuk menyelesaikan masalah klasifikasi gambar multikelas dan sebuah language decoder untuk memprediksi token berikutnya dalam suatu sekuens. Model untuk menyelesaikan klasifikasi gambar memiliki lapisan convolutional dan fully connected, sedangkan model bahasanya tersusun dari blok transformer dengan multi-head attention. Hasilnya menunjukkan bahwa model dengan binary normalized layer memberikan hasil yang hampir sama dengan model ekuivalen yang menggunakan parameter riil 32-bit. Binary normalized layer memungkinkan pengembangan model yang menggunakan memori 32 kali lebih sedikit dibanding model saat ini dengan performa yang setara. Selain itu, binary normalized layer dapat dengan mudah diimplementasikan pada komputer saat ini menggunakan array 1-bit, dan tidak memerlukan pengembangan hardware elektronik khusus. Jenis lapisan baru ini membuka era baru bagi model jaringan saraf skala besar dengan kebutuhan memori yang lebih rendah yang dapat di-deploy menggunakan hardware sederhana dan murah, seperti perangkat mobile atau hanya CPU.
> Meningkatnya ukuran model jaringan saraf besar, khususnya model bahasa dan model gambar fondasional, menimbulkan tantangan deployment, sehingga mendorong upaya untuk mengurangi kebutuhan memori dan meningkatkan efisiensi komputasi. Upaya ini sangat penting untuk memastikan deployment yang praktis dan pemanfaatan yang efektif dari model-model ini di berbagai aplikasi. Dalam karya ini, dikembangkan jenis baru lapisan dan model jaringan saraf yang hanya menggunakan parameter satu bit. Dalam jenis model baru ini, semua parameter dari semua lapisan, termasuk bobot kernel dan bias, hanya memiliki nilai nol atau satu. Jenis model baru ini menggunakan lapisan yang dinamai binary normalized layer. Binary normalized layer ini dapat berupa jenis apa pun, seperti fully connected, convolutional, attention, dan sebagainya, serta terdiri dari sedikit variasi dari lapisan konvensional yang bersesuaian. Untuk menunjukkan efektivitas binary normalized layer, dua model berbeda dikonfigurasikan untuk menyelesaikan masalah klasifikasi gambar multikelas dan sebuah language decoder untuk memprediksi token berikutnya dari suatu sekuens. Model untuk menyelesaikan klasifikasi gambar memiliki lapisan convolutional dan fully connected, dan model bahasa tersusun dari blok transformer dengan multi-head attention. Hasilnya menunjukkan bahwa model dengan binary normalized layer memberikan hasil yang hampir sama dengan hasil yang diperoleh model ekuivalen dengan parameter riil 32-bit. Binary normalized layer memungkinkan pengembangan model yang menggunakan memori 32 kali lebih sedikit daripada model saat ini dan memiliki performa yang setara. Selain itu, binary normalized layer dapat dengan mudah diimplementasikan pada komputer saat ini menggunakan array 1-bit, dan tidak memerlukan pengembangan hardware elektronik khusus. Jenis lapisan baru ini membuka era baru bagi model jaringan saraf besar dengan kebutuhan memori yang lebih rendah yang dapat di-deploy menggunakan hardware sederhana dan murah, seperti perangkat mobile atau hanya CPU.

Link paper

https://arxiv.org/abs/2509.07025

Menginternalisasi Self-Consistency dalam Model Bahasa: Multi-Agent Consensus Alignment / Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment

Pengantar paper

Model bahasa (LM) cenderung menghasilkan respons yang saling bertentangan untuk prompt yang sama, sehingga menunjukkan penalaran yang kurang konsisten. Metode inference-time yang ada dapat meredakan ketidaksesuaian ini, tetapi tidak menyelesaikan masalah mendasarnya, yaitu kesulitan memilih jalur penalaran yang menghasilkan keluaran yang konsisten. Untuk mengatasi hal ini, penelitian ini memformalkan self-consistency sebagai sifat intrinsik dari model penalaran yang ter-align dengan baik, dan memperkenalkan framework reinforcement learning bernama Multi-Agent Consensus Alignment (MACA). MACA memanfaatkan hasil mayoritas/minoritas untuk melakukan post-training agar model lebih memilih jalur penalaran yang selaras dengan konsensus internal. Jalur-jalur ini muncul dari diskusi mendalam antaragennya, dan menghasilkan sinyal konsensus yang lebih kaya melalui penalaran yang didasarkan pada argumen rekan, bukan sekadar kumpulan percobaan independen. MACA memungkinkan agen belajar sendiri menjadi lebih tegas dan ringkas tanpa supervisi eksternal, serta mendorong peningkatan signifikan dalam berbagai skenario self-consistency, penalaran agen tunggal, penalaran berbasis sampling, dan pengambilan keputusan kolektif multi-agen. Hasil ini menunjukkan self-alignment yang kuat untuk mengekstraksi kemampuan penalaran laten model bahasa secara lebih andal, disertai kemampuan generalisasi yang kuat pada benchmark yang belum pernah dilihat.

Abstrak paper

Model bahasa (LLM) adalah penalar yang tidak konsisten, sering menghasilkan respons yang saling bertentangan untuk prompt yang sama. Meskipun metode pada waktu inferensi dapat meredakan ketidakkonsistenan ini, metode tersebut tidak menyelesaikan masalah utamanya: LLM kesulitan secara andal memilih jalur penalaran yang mengarah pada hasil konsisten di bawah exploratory sampling. Untuk mengatasinya, kami memformalkan self-consistency sebagai sifat intrinsik dari model penalaran yang selaras dengan baik, dan memperkenalkan Multi-Agent Consensus Alignment (MACA). MACA adalah kerangka reinforcement learning yang melakukan post-training agar model lebih menyukai trajektori penalaran yang selaras dengan konsensus internalnya dengan menggunakan hasil mayoritas/minoritas dari debat multi-agen. Trajektori ini muncul dari pertukaran deliberatif ketika agen mendasarkan penalaran pada argumen rekan, bukan sekadar agregasi dari upaya-upaya independen, sehingga menghasilkan sinyal konsensus yang lebih kaya dibanding voting mayoritas satu putaran. MACA memungkinkan agen, tanpa supervisi eksternal, untuk lebih baik memanfaatkan wawasan rekan dalam lingkungan multi-agen dan mengajari dirinya sendiri agar lebih tegas dan ringkas. Hal ini mendorong peningkatan signifikan pada self-consistency (+27.6% on GSM8K), penalaran agen tunggal (+23.7% on MATH), inferensi berbasis sampling (+22.4% Pass@20 on MATH), dan pengambilan keputusan ensemble multi-agen (+42.7% on MathQA). Temuan ini, dipadukan dengan generalisasi yang kuat ke benchmark yang belum pernah dilihat (+16.3% on GPQA, +11.6% on CommonsenseQA), menunjukkan self-alignment yang kuat yang lebih andal membuka potensi penalaran laten dari model bahasa.
> Language Models (LMs) are inconsistent reasoners, often generating contradictory responses to identical prompts. While inference-time methods can mitigate these inconsistencies, they fail to address the core problem: LMs struggle to reliably select reasoning pathways leading to consistent outcomes under exploratory sampling. To address this, we formalize self-consistency as an intrinsic property of well-aligned reasoning models and introduce Multi-Agent Consensus Alignment (MACA), a reinforcement learning framework that post-trains models to favor reasoning trajectories aligned with their internal consensus using majority/minority outcomes from multi-agent debate. These trajectories emerge from deliberative exchanges where agents ground reasoning in peer arguments, not just aggregation of independent attempts, creating richer consensus signals than single-round majority voting. MACA enables agents to teach themselves to be more decisive and concise, and better leverage peer insights in multi-agent settings without external supervision, driving substantial improvements across self-consistency (+27.6% on GSM8K), single-agent reasoning (+23.7% on MATH), sampling-based inference (+22.4% Pass@20 on MATH), and multi-agent ensemble decision-making (+42.7% on MathQA). These findings, coupled with strong generalization to unseen benchmarks (+16.3% on GPQA, +11.6% on CommonsenseQA), demonstrate robust self-alignment that more reliably unlocks latent reasoning potential of language models.

Tautan paper

https://arxiv.org/abs/2509.15172

Riset mendalam universal: bawa model dan strategi Anda sendiri / Universal Deep Research: Bring Your Own Model and Strategy

Pengantar paper

Universal Deep Research (UDR) adalah sistem agen umum yang dikembangkan untuk mengatasi keterbatasan alat deep research yang ada, yang dikodekan secara keras untuk menjalankan strategi riset tertentu dengan cara yang tetap. UDR menawarkan kemampuan bagi pengguna untuk membuat, mengedit, dan menyempurnakan strategi deep research kustom mereka sendiri, dan inovatif karena proses ini tidak memerlukan pelatihan tambahan atau fine-tuning. Sistem ini menunjukkan sifat umumnya melalui beragam contoh, mulai dari strategi riset minimal hingga strategi yang luas dan terfokus.

Inti dari UDR adalah mempermudah eksperimen melalui antarmuka pengguna, sehingga peneliti dapat secara bebas menjajaki strategi riset mereka sendiri. Pendekatan ini memberi peneliti peluang untuk mengembangkan metodologi orisinal mereka sendiri tanpa bergantung pada alat yang sudah ada. Secara khusus, UDR membungkus berbagai model bahasa, sehingga memberi fleksibilitas bagi pengguna untuk memilih dan menggunakan model yang mereka sukai.

Riset ini berkontribusi pada perkembangan alat deep research dan berfokus pada memungkinkan peneliti menyusun strategi riset yang lebih kreatif dan dipersonalisasi. Pengenalan UDR diharapkan memainkan peran penting dalam meningkatkan efisiensi dan efektivitas riset. Dalam hal ini, UDR akan memantapkan dirinya sebagai sistem inovatif yang membuka kemungkinan baru di bidang deep research.

Abstrak paper

Alat deep research merupakan salah satu sistem agen yang paling berdampak dan paling umum dijumpai saat ini. Namun, kami mengamati bahwa setiap agen deep research yang diperkenalkan sejauh ini dikodekan secara keras untuk menjalankan strategi riset tertentu dengan menggunakan pilihan alat yang tetap. Kami memperkenalkan Universal Deep Research (UDR), sebuah sistem agen generalis yang membungkus model bahasa apa pun dan memungkinkan pengguna membuat, mengedit, serta menyempurnakan strategi deep research mereka sendiri yang sepenuhnya kustom tanpa memerlukan pelatihan tambahan atau fine-tuning. Untuk menunjukkan sifat umum sistem kami, kami melengkapi UDR dengan contoh strategi riset minimal, ekspansif, dan intensif, serta menyediakan antarmuka pengguna untuk memudahkan eksperimen dengan sistem ini.
> Deep research tools are among the most impactful and most commonly encountered agentic systems today. We observe, however, that each deep research agent introduced so far is hard-coded to carry out a particular research strategy using a fixed choice of tools. We introduce Universal Deep Research (UDR), a generalist agentic system that wraps around any language model and enables the user to create, edit, and refine their own entirely custom deep research strategies without any need for additional training or finetuning. To showcase the generality of our system, we equip UDR with example minimal, expansive, and intensive research strategies, and provide a user interface to facilitate experimentation with the system.

Tautan paper

https://arxiv.org/abs/2509.00244

AlphaAgents: Multi-Agent berbasis Large Language Model untuk Konstruksi Portofolio Saham / AlphaAgents: Large Language Model based Multi-Agents for Equity Portfolio Constructions

Pengenalan paper

Perkembangan large language model (LLM) berkontribusi dalam memaksimalkan efisiensi dan adaptabilitas agen kecerdasan buatan (AI), yang membuka kemungkinan kolaborasi multi-agent untuk menyelesaikan masalah kompleks. Studi ini mengeksplorasi pendekatan berbasis peran dalam pemilihan saham dan pengelolaan portofolio dengan memanfaatkan sistem multi-agent tersebut. Tujuan utama penelitian ini adalah mengevaluasi kinerja pemilihan saham melalui kerja sama beberapa agen AI, lalu membandingkannya dengan benchmark yang ada.

Sistem multi-agent terdiri dari agen-agen dengan bidang keahlian berbeda seperti analisis fundamental, analisis sentimen, dan valuasi, yang saling mendiskusikan pendapat untuk menyusun portofolio yang optimal. Penelitian ini secara acak memilih 15 saham teknologi dan mengevaluasi kinerjanya melalui backtesting, serta menganalisis efektivitas portofolio berdasarkan imbal hasil yang disesuaikan dengan risiko dan rasio Sharpe. Metodologi ini menunjukkan potensi untuk menghasilkan strategi investasi yang lebih baik melalui proses pengambilan keputusan kolaboratif dari multi-agent.

Studi ini menganalisis kelebihan dan keterbatasan sistem multi-agent, serta mengusulkan cara meningkatkan pengambilan keputusan dengan mengintegrasikan beragam perspektif yang diberikan agen AI. Namun, implementasi sistem seperti ini masih menghadapi tantangan, seperti verifikasi konsistensi logis melalui tinjauan manusia. Hasil penelitian menunjukkan bahwa sistem multi-agent dapat menawarkan pendekatan inovatif dalam konstruksi portofolio saham, dan penelitian lanjutan berencana mengeksplorasi fungsi penyesuaian bobot saham berdasarkan tingkat keandalan LLM.

Penelitian seperti ini berkontribusi pada pengembangan strategi investasi berbasis AI dan menunjukkan potensi pemanfaatan sistem multi-agent.

Abstrak paper

Bidang agen kecerdasan buatan (AI) berkembang pesat berkat kemampuan large language model (LLM), yang dapat secara otonom menjalankan dan menyempurnakan tugas dengan efisiensi serta adaptabilitas yang menyerupai manusia. Dalam konteks ini, kolaborasi multi-agent muncul sebagai pendekatan yang menjanjikan, yang memungkinkan banyak agen AI bekerja bersama untuk memecahkan tantangan kompleks. Studi ini menyelidiki penerapan sistem multi-agent berbasis peran untuk mendukung pemilihan saham dalam riset ekuitas dan pengelolaan portofolio. Kami menyajikan analisis komprehensif yang dilakukan oleh tim agen spesialis dan mengevaluasi kinerja pemilihan saham mereka terhadap benchmark mapan pada berbagai tingkat toleransi risiko. Selain itu, kami menelaah kelebihan dan keterbatasan penggunaan framework multi-agent dalam analisis ekuitas, serta menawarkan wawasan penting mengenai efektivitas praktis dan tantangan implementasinya.

The field of artificial intelligence (AI) agents is evolving rapidly, driven by the capabilities of Large Language Models (LLMs) to autonomously perform and refine tasks with human-like efficiency and adaptability. In this context, multi-agent collaboration has emerged as a promising approach, enabling multiple AI agents to work together to solve complex challenges. This study investigates the application of role-based multi-agent systems to support stock selection in equity research and portfolio management. We present a comprehensive analysis performed by a team of specialized agents and evaluate their stock-picking performance against established benchmarks under varying levels of risk tolerance. Furthermore, we examine the advantages and limitations of employing multi-agent frameworks in equity analysis, offering critical insights into their practical efficacy and implementation challenges.

Tautan paper

https://arxiv.org/abs/2508.11152

Survei Reinforcement Learning untuk Large Reasoning Models / A Survey of Reinforcement Learning for Large Reasoning Models

Pengenalan paper

Reinforcement learning (RL) memainkan peran penting dalam meningkatkan kemampuan penalaran large language model (LLM), dan paper ini meninjau perkembangan menuju large reasoning model (LRM) melalui RL. RL menunjukkan hasil menonjol pada tugas logika kompleks seperti pemecahan masalah matematika dan coding, sehingga menjadi metodologi dasar untuk mentransformasikan LLM menjadi LRM. Namun, perluasan RL untuk LRM menghadapi berbagai tantangan dari sisi sumber daya komputasi, desain algoritme, data pelatihan, dan infrastruktur.

Studi ini meninjau berbagai penelitian yang menerapkan RL untuk meningkatkan kemampuan penalaran LLM dan LRM, dengan fokus khusus pada komponen dasar RL seperti desain reward, optimasi kebijakan, dan strategi sampling, termasuk perkembangan terbaru seperti model DeepSeek-R1. Desain reward merupakan sinyal penting yang menentukan arah pembelajaran model, dan pentingnya mekanisme reward yang dapat diverifikasi sangat ditekankan. Optimasi kebijakan adalah proses pelatihan agar model memilih tindakan yang optimal, yang mencakup algoritme berbasis critic dan algoritme tanpa critic. Selain itu, strategi sampling dibahas sebagai cara meningkatkan efisiensi RL, termasuk dynamic sampling dan penyesuaian hyperparameter.

Paper ini menekankan pentingnya proses pelatihan terintegrasi untuk LLM melalui RL, serta kualitas dan struktur sumber daya pelatihan, sambil menunjukkan kepraktisan RL melalui contoh penerapannya dalam software engineering dan tugas robotika. Secara khusus, integrasi RL dengan paradigma agent mendorong kemajuan dalam generasi kode dan juga menghasilkan hasil yang sukses pada tugas multimodal. Penelitian semacam ini diharapkan dapat memberikan arah baru untuk meningkatkan kemampuan penalaran LLM dan pada akhirnya berkontribusi dalam meletakkan fondasi untuk mencapai artificial superintelligence (ASI).

Abstrak paper

Makalah ini meninjau perkembangan terbaru dalam Reinforcement Learning (RL) untuk penalaran bersama Large Language Models (LLM). RL telah meraih keberhasilan luar biasa dalam mendorong batas kemampuan LLM, khususnya untuk menangani tugas logis yang kompleks seperti matematika dan coding. Hasilnya, RL muncul sebagai metodologi fundamental untuk mentransformasi LLM menjadi LRM. Dengan pesatnya kemajuan di bidang ini, penskalaan RL lebih lanjut untuk LRM kini menghadapi tantangan mendasar, bukan hanya pada sumber daya komputasi, tetapi juga pada desain algoritme, data pelatihan, dan infrastruktur. Karena itu, saat ini adalah waktu yang tepat untuk meninjau kembali perkembangan domain ini, mengevaluasi ulang arah perjalanannya, dan mengeksplorasi strategi untuk meningkatkan skalabilitas RL menuju Artificial SuperIntelligence (ASI). Secara khusus, kami menelaah riset yang menerapkan RL pada LLM dan LRM untuk kemampuan penalaran, terutama sejak peluncuran DeepSeek-R1, termasuk komponen fundamental, masalah inti, sumber daya pelatihan, dan aplikasi downstream, guna mengidentifikasi peluang serta arah masa depan untuk area yang berkembang cepat ini. Kami berharap tinjauan ini akan mendorong riset lanjutan tentang RL untuk model penalaran yang lebih luas. GitHub: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
> In this paper, we survey recent advances in Reinforcement Learning (RL) for reasoning with Large Language Models (LLMs). RL has achieved remarkable success in advancing the frontier of LLM capabilities, particularly in addressing complex logical tasks such as mathematics and coding. As a result, RL has emerged as a foundational methodology for transforming LLMs into LRMs. With the rapid progress of the field, further scaling of RL for LRMs now faces foundational challenges not only in computational resources but also in algorithm design, training data, and infrastructure. To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area. We hope this review will promote future research on RL for broader reasoning models. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

Tautan makalah

https://arxiv.org/abs/2509.08827

Baca lebih lanjut

https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

⚠️Iklan⚠️: Apakah tulisan yang dirangkum oleh 🔥Komunitas Pengguna PyTorch Korea🇰🇷 ini bermanfaat? Jika Anda bergabung sebagai anggota, kami akan mengirimkan tulisan-tulisan utama melalui email💌! (Default-nya Weekly, tetapi bisa diubah ke Daily.)

[2025/09/22 ~ 28] Kumpulan paper AI/ML yang layak disimak minggu ini