5 poin oleh ninebow 2025-09-17 | Belum ada komentar. | Bagikan ke WhatsApp

[2025/09/08 ~ 14] Kumpulan paper AI/ML yang layak disimak minggu ini

PyTorchKRšŸ”„šŸ‡°šŸ‡· šŸ¤”šŸ’­

1ļøāƒ£ Halusinasi pada model bahasa: Riset terbaru menyoroti bahwa model bahasa skala besar menunjukkan fenomena "halusinasi", yaitu menghasilkan pernyataan yang terdengar masuk akal tetapi tidak akurat dengan cara menebak saat tidak yakin. Hal ini terjadi karena dalam proses pelatihan dan evaluasi ada kecenderungan untuk memberi imbalan pada tebakan alih-alih pengakuan atas ketidakpastian, dan riset ini berargumen bahwa sistem penilaian pada benchmark yang ada perlu diubah untuk mengatasi halusinasi tersebut.

2ļøāƒ£ Pemahaman struktur semantik: Semakin banyak riset yang menganalisis bagaimana keterkaitan semantik terstruktur dalam matriks embedding model bahasa skala besar. Riset semacam ini menemukan struktur berdimensi rendah yang mirip dengan penilaian semantik manusia, serta menekankan bahwa proyeksi berdasarkan arah makna kata menunjukkan korelasi tinggi dengan penilaian manusia. Ini mengindikasikan bahwa model bahasa memproses informasi semantik dengan cara yang mirip dengan bahasa manusia.

3ļøāƒ£ Peningkatan kemampuan penalaran tingkat lanjut melalui reinforcement learning: Riset untuk meningkatkan kemampuan penalaran kompleks model bahasa skala besar dengan memanfaatkan reinforcement learning (RL) sedang berlangsung aktif. Secara khusus, telah diusulkan metode untuk mengatur kedalaman dan lebar demi meningkatkan efisiensi algoritma RL, dan terungkap bahwa hal ini berperan penting dalam membantu model mengeksplorasi serta menguasai perencanaan strategis tingkat lanjut. Pendekatan ini diwujudkan melalui paradigma baru seperti RLVR (reinforcement learning dengan reward yang dapat diverifikasi).


Mengapa model bahasa berhalusinasi / Why Language Models Hallucinate (feat. OpenAI)

Pengantar paper

Model bahasa skala besar cenderung menebak jawaban dalam situasi yang tidak pasti, sehingga memunculkan fenomena "halusinasi", yakni menghasilkan informasi yang terdengar masuk akal tetapi salah. Halusinasi semacam ini masih menjadi masalah bahkan pada model terbaru, dan menjadi salah satu penyebab utama menurunnya keandalan. Studi ini menelusuri alasan model bahasa berhalusinasi pada cara pelatihan dan evaluasi yang memberi imbalan pada tebakan alih-alih pengakuan atas ketidakpastian. Secara khusus, halusinasi berasal dari kesalahan dalam klasifikasi biner, dan ketika pernyataan yang salah tidak bisa dibedakan dari fakta, hal ini muncul sebagai tekanan statistik yang alami.

Pada tahap pra-pelatihan, model bahasa mempelajari distribusi bahasa dari data teks berskala besar, dan dalam proses ini kesalahan dapat terjadi. Kesalahan seperti ini terus diperkuat oleh metode evaluasi yang menghukum respons yang tidak pasti. Tim peneliti menunjukkan bahwa model bahasa cenderung menghindari ketidakpastian dan memilih menebak demi mendapat nilai bagus dalam pengujian, dan berargumen bahwa kecenderungan inilah yang membuat halusinasi terus bertahan.

Paper yang dipublikasikan OpenAI ini mengungkap penyebab statistik halusinasi, serta menganalisis asal-usulnya pada tahap pra-pelatihan dan keberlanjutannya pada tahap pascapelatihan. Selain itu, paper ini mengusulkan bahwa memodifikasi metode evaluasi yang ada dapat menjadi cara efektif untuk meredakan fenomena halusinasi. Pendekatan ini dapat meningkatkan keandalan model bahasa dan, lebih jauh lagi, menunjukkan jalan menuju sistem AI yang lebih dapat dipercaya. Hasil riset ini dapat dimanfaatkan sebagai landasan penting untuk memahami dan memperbaiki fenomena halusinasi pada model bahasa.

Abstrak paper

Seperti siswa yang menghadapi soal ujian sulit, model bahasa skala besar kerap menebak saat tidak yakin, sehingga menghasilkan pernyataan yang terdengar masuk akal tetapi salah alih-alih mengakui ketidakpastian. "Halusinasi" semacam ini tetap bertahan bahkan pada sistem tercanggih dan merusak kepercayaan. Kami berargumen bahwa model bahasa berhalusinasi karena prosedur pelatihan dan evaluasi memberi imbalan pada tebakan alih-alih pengakuan atas ketidakpastian, dan kami menganalisis penyebab statistik halusinasi dalam pipeline pelatihan modern. Halusinasi tidak perlu dianggap misterius. Fenomena ini pada dasarnya berasal dari kesalahan yang terjadi dalam klasifikasi biner. Jika pernyataan yang salah tidak dapat dibedakan dari fakta, maka halusinasi pada model bahasa yang telah dipra-latih akan muncul akibat tekanan statistik alami. Kami juga berargumen bahwa halusinasi bertahan karena cara sebagian besar evaluasi dinilai. Model bahasa dioptimalkan agar menjadi peserta ujian yang baik, dan menebak saat tidak yakin meningkatkan performa ujian. "Epidemi" penghukuman terhadap respons yang tidak pasti ini hanya dapat diatasi melalui mitigasi sosio-teknis: memodifikasi penilaian benchmark yang sudah ada, yang tidak selaras tetapi mendominasi leaderboard, alih-alih menambahkan evaluasi halusinasi baru. Perubahan ini dapat mengarahkan bidang ini menuju sistem AI yang lebih dapat dipercaya.

Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.

Tautan paper

https://arxiv.org/abs/2509.04664


Struktur semantik dalam embedding model bahasa skala besar / Semantic Structure in Large Language Model Embeddings

Pengantar paper

Struktur embedding model bahasa skala besar (LLM) patut diperhatikan karena merepresentasikan informasi semantik dengan cara yang mirip dengan kognisi bahasa manusia. Studi ini menganalisis keterkaitan semantik antar-kata dalam matriks embedding LLM berdasarkan temuan psikologis, dan melalui itu menyelidiki korelasi antara penilaian kata oleh manusia dan representasi internal LLM. Hasil riset menunjukkan bahwa proyeksi kata dalam embedding LLM dapat direduksi ke tiga dimensi utama: evaluasi (baik vs. buruk), kekuatan (kuat vs. lemah), dan aktivitas (aktif vs. pasif).

Studi ini membandingkan data yang dikumpulkan dari survei terhadap 360 kata dengan embedding LLM, lalu menganalisis secara kuantitatif korelasi antara penilaian semantik manusia dan embedding LLM. Secara khusus, studi ini menekankan bahwa karakteristik LLM saling terjerat dengan mengekstrak arah sifat semantik kata dan, berdasarkan itu, mengukur efek off-target melalui intervensi. Temuan ini menunjukkan bahwa embedding LLM mencerminkan kompleksitas bahasa manusia dan bahwa informasi semantik bersifat relatif berdimensi rendah.

Selain itu, riset ini menekankan pentingnya mengukur hubungan antar-karakteristik individual dalam memahami cara kerja internal LLM, dan hal ini dapat berdampak positif pada keamanan AI serta penyetelan fungsional. Pendekatan seperti ini juga dapat membantu menghindari konsekuensi yang tidak diinginkan yang mungkin muncul dalam proses feature steering pada LLM. Studi ini memberikan kontribusi penting dalam memahami struktur semantik LLM dan, melalui itu, memahami perilaku model dengan lebih jelas.

Abstrak paper

Riset psikologi secara konsisten menemukan bahwa penilaian manusia terhadap kata di berbagai skala semantik dapat direduksi ke bentuk berdimensi rendah dengan kehilangan informasi yang relatif kecil. Kami menemukan bahwa asosiasi semantik yang dienkode dalam matriks embedding large language model (LLM) menunjukkan struktur serupa. Kami menunjukkan bahwa proyeksi kata pada arah semantik yang didefinisikan oleh pasangan antonim (misalnya, baik hati - kejam) berkorelasi tinggi dengan penilaian manusia, dan lebih lanjut menemukan bahwa proyeksi ini secara efektif tereduksi menjadi subruang 3 dimensi di dalam embedding LLM, sangat menyerupai pola yang diturunkan dari respons survei manusia. Selain itu, kami menemukan bahwa menggeser token sepanjang satu arah semantik menyebabkan efek di luar target pada fitur yang selaras secara geometris, sebanding dengan kemiripan cosinusnya. Temuan ini menunjukkan bahwa fitur semantik di dalam LLM saling terjerat dengan cara yang mirip dengan keterkaitannya dalam bahasa manusia, dan bahwa banyak informasi semantik, meskipun tampak kompleks, ternyata berdimensi sangat rendah. Lebih jauh lagi, mempertimbangkan struktur semantik ini mungkin penting untuk menghindari konsekuensi yang tidak diinginkan saat mengarahkan fitur.
> Psychological research consistently finds that human ratings of words across diverse semantic scales can be reduced to a low-dimensional form with relatively little information loss. We find that the semantic associations encoded in the embedding matrices of large language models (LLMs) exhibit a similar structure. We show that the projections of words on semantic directions defined by antonym pairs (e.g. kind - cruel) correlate highly with human ratings, and further find that these projections effectively reduce to a 3-dimensional subspace within LLM embeddings, closely resembling the patterns derived from human survey responses. Moreover, we find that shifting tokens along one semantic direction causes off-target effects on geometrically aligned features proportional to their cosine similarity. These findings suggest that semantic features are entangled within LLMs similarly to how they are interconnected in human language, and a great deal of semantic information, despite its apparent complexity, is surprisingly low-dimensional. Furthermore, accounting for this semantic structure may prove essential for avoiding unintended consequences when steering features.

Tautan paper

https://arxiv.org/abs/2508.10003


rStar2-Agent: Laporan Teknis Penalaran Agentik / rStar2-Agent: Agentic Reasoning Technical Report (feat. Microsoft)

Pengantar paper

rStar2-Agent adalah model Math-reasoning 14 miliar parameter yang dirancang untuk mencapai performa state-of-the-art melalui agentic reinforcement learning. Model ini melampaui pendekatan Long Chain-of-Thought (Long-CoT) yang ada, dengan menunjukkan perilaku kognitif tingkat lanjut dalam proses pemecahan masalah yang kompleks. Secara khusus, saat menggunakan alat coding Python, model ini mampu berpikir dengan cermat, secara otonom mengeksplorasi dan memverifikasi langkah-langkah perantara dengan merefleksikan umpan balik dari eksekusi kode. Inovasi ini dimungkinkan melalui tiga elemen utama.

Pertama, rStar2-Agent membangun lingkungan kode Python yang andal melalui infrastruktur RL yang efisien untuk mendukung eksekusi throughput tinggi. Infrastruktur ini dirancang agar dapat dilatih secara efektif bahkan dengan sumber daya GPU yang terbatas, sehingga mengurangi biaya rollout yang tinggi. Kedua, algoritma agentic RL bernama GRPO-RoC memanfaatkan strategi rollout Resample-on-Correct untuk mengatasi noise lingkungan dari alat coding, sehingga model dapat bernalar lebih efektif dalam lingkungan kode. Ketiga, resep pelatihan agen yang efisien—dimulai dari SFT (Supervised Fine-Tuning) non-penalaran lalu dilanjutkan melalui RL multistage—memberikan kemampuan kognitif tingkat lanjut dengan biaya komputasi minimal.

Melalui metodologi ini, rStar2-Agent mendorong model 14B yang telah dipra-latih menjadi state-of-the-art hanya dalam 510 langkah RL, dengan mencapai skor pass@1 rata-rata 80,6% pada AIME24 dan 69,8% pada AIME25. Ini menunjukkan performa yang lebih baik daripada DeepSeek-R1 (671B), sekaligus secara signifikan mengurangi waktu respons. Selain pemecahan masalah matematika, rStar2-Agent juga menunjukkan kemampuan generalisasi yang kuat pada tugas alignment, penalaran ilmiah, dan penggunaan alat agentik. Hasil ini menunjukkan bahwa pendekatan agentic RL memberikan kontribusi penting dalam memperkuat perilaku kognitif pada pemecahan masalah yang kompleks.

Abstrak paper

Kami memperkenalkan rStar2-Agent, model penalaran matematika 14B yang dilatih dengan agentic reinforcement learning untuk mencapai performa tingkat frontier. Melampaui rantai pemikiran panjang (CoT) saat ini, model ini menunjukkan perilaku kognitif tingkat lanjut, seperti berpikir dengan cermat sebelum menggunakan alat coding Python dan merefleksikan umpan balik eksekusi kode untuk secara otonom mengeksplorasi, memverifikasi, dan menyempurnakan langkah-langkah antara dalam pemecahan masalah yang kompleks. Kemampuan ini dimungkinkan oleh tiga inovasi utama yang membuat agentic RL efektif pada skala besar: (i) infrastruktur RL yang efisien dengan lingkungan kode Python yang andal, yang mendukung eksekusi throughput tinggi dan mengurangi biaya rollout yang tinggi, sehingga memungkinkan pelatihan dengan sumber daya GPU terbatas (64 GPU MI300X); (ii) GRPO-RoC, algoritme agentic RL dengan strategi rollout Resample-on-Correct yang mengatasi noise lingkungan bawaan dari alat coding, sehingga model dapat bernalar lebih efektif dalam lingkungan kode; (iii) recipe pelatihan agen yang efisien, dimulai dari SFT non-penalaran lalu berkembang melalui multi-tahap RL, menghasilkan kemampuan kognitif tingkat lanjut dengan biaya komputasi minimal. Untuk tujuan ini, rStar2-Agent mendorong model 14B yang telah dipra-latih menjadi state-of-the-art hanya dalam 510 langkah RL dalam waktu satu minggu, mencapai skor pass@1 rata-rata 80,6% pada AIME24 dan 69,8% pada AIME25, melampaui DeepSeek-R1 (671B) dengan respons yang jauh lebih singkat. Di luar matematika, rStar2-Agent-14B juga menunjukkan kemampuan generalisasi yang kuat untuk alignment, penalaran ilmiah, dan tugas penggunaan alat agentic. Kode dan recipe pelatihan tersedia di https://github.com/microsoft/rStar.
> Kami memperkenalkan rStar2-Agent, model penalaran matematika 14B yang dilatih dengan agentic reinforcement learning untuk mencapai performa tingkat frontier. Melampaui CoT panjang saat ini, model ini menunjukkan perilaku kognitif tingkat lanjut, seperti berpikir dengan cermat sebelum menggunakan alat coding Python dan merefleksikan umpan balik eksekusi kode untuk secara otonom mengeksplorasi, memverifikasi, dan menyempurnakan langkah-langkah antara dalam pemecahan masalah yang kompleks. Kemampuan ini dimungkinkan oleh tiga inovasi utama yang membuat agentic RL efektif pada skala besar: (i) infrastruktur RL yang efisien dengan lingkungan kode Python yang andal, yang mendukung eksekusi throughput tinggi dan mengurangi biaya rollout yang tinggi, sehingga memungkinkan pelatihan dengan sumber daya GPU terbatas (64 GPU MI300X); (ii) GRPO-RoC, algoritme agentic RL dengan strategi rollout Resample-on-Correct yang mengatasi noise lingkungan bawaan dari alat coding, sehingga model dapat bernalar lebih efektif dalam lingkungan kode; (iii) recipe pelatihan agen yang efisien, dimulai dari SFT non-penalaran lalu berkembang melalui multi-tahap RL, menghasilkan kemampuan kognitif tingkat lanjut dengan biaya komputasi minimal. Untuk tujuan ini, rStar2-Agent meningkatkan model 14B yang telah dipra-latih menjadi state-of-the-art hanya dalam 510 langkah RL dalam waktu satu minggu, mencapai skor pass@1 rata-rata 80,6% pada AIME24 dan 69,8% pada AIME25, melampaui DeepSeek-R1 (671B) dengan respons yang jauh lebih singkat secara signifikan. Di luar matematika, rStar2-Agent-14B juga menunjukkan generalisasi yang kuat pada tugas alignment, penalaran ilmiah, dan penggunaan alat agentic. Kode dan recipe pelatihan tersedia di https://github.com/microsoft/rStar.

Tautan paper

https://arxiv.org/abs/2508.20722

Baca lebih lanjut

https://github.com/microsoft/rStar


uGMM-NN: Jaringan Saraf Model Campuran Gaussian Univariat / uGMM-NN: Univariate Gaussian Mixture Model Neural Network

Perkenalan paper

Jaringan saraf model campuran Gaussian univariat (Univariate Gaussian Mixture Model Neural Network, uGMM-NN) adalah arsitektur inovatif yang secara langsung mengintegrasikan inferensi probabilistik ke dalam unit komputasi jaringan saraf dalam, dengan pendekatan di mana setiap neuron memparameterisasi aktivasinya sendiri sebagai campuran Gaussian univariat. Pendekatan ini mengatasi keterbatasan neuron tradisional berupa jumlah berbobot dan nonlinieritas tetap, serta memungkinkan setiap neuron secara efektif menangkap multimodalitas dan ketidakpastian melalui mean, varians, dan koefisien campuran yang dapat dipelajari. Desain ini memberikan fleksibilitas yang dibutuhkan model untuk mempelajari distribusi data yang kompleks, sambil tetap mempertahankan skalabilitas jaringan feedforward standar.

Dibandingkan multilayer perceptron (MLP) yang ada, uGMM-NN dapat mencapai performa diskriminatif yang kompetitif sekaligus memungkinkan interpretasi probabilistik terhadap aktivasi. Karena itu, model ini memperoleh kemampuan untuk memahami dan merepresentasikan struktur data yang kompleks, melampaui batas keputusan yang sederhana. Framework yang diusulkan meletakkan dasar untuk mengintegrasikan komponen yang sadar ketidakpastian ke dalam arsitektur saraf modern, dan hal ini membuka arah riset baru baik untuk pemodelan diskriminatif maupun generatif.

Struktur uGMM-NN disusun dalam bentuk setiap neuron merepresentasikan aktivasi yang mencakup koefisien campuran, mean, dan varians, dan elemen-elemen ini dioptimalkan selama proses pelatihan. Sebagai metode pelatihan, parameter diperbarui menggunakan algoritme backpropagation, dan fungsi loss dirancang untuk meminimalkan perbedaan antara aktivasi setiap neuron dan label sebenarnya. Dalam proses ini, teknik optimisasi berbasis gradien diterapkan untuk memaksimalkan performa model.

Hasil eksperimen menunjukkan bahwa uGMM-NN mencatat akurasi yang lebih tinggi dibandingkan MLP yang ada pada berbagai dataset benchmark, sekaligus membuktikan kemampuannya dalam menangani ketidakpastian secara efektif. Hasil ini membuktikan keunggulan uGMM-NN dan menjadi landasan penting yang menunjukkan arah pemodelan sadar ketidakpastian di masa depan. Riset ini mengeksplorasi kemungkinan penerapannya di berbagai bidang aplikasi, dan berlanjut pada pembahasan mengenai skalabilitas uGMM-NN serta kemungkinan integrasinya dengan model lain.

Abstrak paper

Makalah ini memperkenalkan Univariate Gaussian Mixture Model Neural Network (uGMM-NN), sebuah arsitektur saraf baru yang menanamkan penalaran probabilistik langsung ke dalam unit komputasi jaringan mendalam. Berbeda dari neuron tradisional yang menerapkan nonlinieritas tetap pada jumlah berbobot, setiap node uGMM-NN memparametrisasi aktivasi sebagai campuran Gaussian univariat, dengan mean, varians, dan koefisien pencampuran yang dapat dipelajari. Desain ini memungkinkan representasi yang lebih kaya dengan menangkap multimodalitas dan ketidakpastian pada tingkat neuron individual, sambil tetap mempertahankan skalabilitas jaringan feedforward standar. Kami menunjukkan bahwa uGMM-NN dapat mencapai kinerja diskriminatif yang kompetitif dibandingkan multilayer perceptron konvensional, sekaligus menawarkan interpretasi probabilistik atas aktivasi. Kerangka kerja yang diusulkan memberikan landasan untuk mengintegrasikan komponen yang sadar ketidakpastian ke dalam arsitektur saraf modern, membuka arah baru untuk pemodelan diskriminatif maupun generatif.
> Makalah ini memperkenalkan Univariate Gaussian Mixture Model Neural Network (uGMM-NN), sebuah arsitektur saraf baru yang menanamkan penalaran probabilistik langsung ke dalam unit komputasi jaringan mendalam. Berbeda dari neuron tradisional, yang menerapkan jumlah berbobot diikuti nonlinieritas tetap, setiap node uGMM-NN memparametrisasi aktivasinya sebagai campuran Gaussian univariat, dengan mean, varians, dan koefisien pencampuran yang dapat dipelajari. Desain ini memungkinkan representasi yang lebih kaya dengan menangkap multimodalitas dan ketidakpastian pada tingkat neuron individual, sambil mempertahankan skalabilitas jaringan feedforward standar. Kami menunjukkan bahwa uGMM-NN dapat mencapai kinerja diskriminatif yang kompetitif dibandingkan multilayer perceptron konvensional, sembari juga menawarkan interpretasi probabilistik atas aktivasi. Kerangka kerja yang diusulkan menyediakan landasan untuk mengintegrasikan komponen yang sadar ketidakpastian ke dalam arsitektur saraf modern, membuka arah baru bagi pemodelan diskriminatif maupun generatif.

Tautan makalah

https://arxiv.org/abs/2509.07569


Penalaran hierarkis emergen dalam large language model melalui reinforcement learning / Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning

Pengantar makalah

Riset untuk meningkatkan kemampuan penalaran kompleks large language model (LLM) baru-baru ini muncul sebagai topik penting di bidang kecerdasan buatan. Studi ini mengeksplorasi bagaimana reinforcement learning (RL) meningkatkan kemampuan tersebut pada LLM, serta mengungkap bahwa berbagai fenomena yang muncul dalam proses itu saling terhubung. Secara khusus, pengalaman seperti ā€œmomen ahaā€ berkaitan erat dengan pemikiran strategis tingkat tinggi, yang dapat ditafsirkan sebagai ciri dari emergent reasoning hierarchy yang serupa dengan pemisahan antara perencanaan tingkat tinggi dan eksekusi tingkat rendah dalam proses kognitif manusia.

Studi ini memaparkan dinamika dua tahap. Pada tahap awal, model dibatasi oleh akurasi prosedural dan perlu memperbaiki keterampilan tingkat rendah. Setelah itu, bottleneck pembelajaran bergeser, dan peningkatan kinerja didorong oleh eksplorasi serta penguasaan perencanaan strategis tingkat tinggi. Wawasan ini mengungkap inefisiensi algoritma RL yang ada, khususnya GRPO (Generalized Reinforcement Policy Optimization), dengan menekankan bahwa algoritma ini menerapkan tekanan optimisasi secara membabi buta sehingga sinyal pembelajaran menjadi terdilusi.

Untuk mengatasi masalah ini, para penulis mengusulkan algoritma baru bernama HIerarchy-Aware Credit Assignment (HICRA). HICRA berfokus pada penyelesaian bottleneck strategis dengan memusatkan upaya optimisasi pada token perencanaan berdampak tinggi. Algoritma ini menunjukkan kinerja yang melampaui baseline kuat dan membuktikan bahwa ia dapat menjadi kunci untuk membuka penalaran tingkat lanjut. Selain itu, para penulis mengusulkan semantic entropy sebagai indikator yang unggul untuk mengukur eksplorasi strategis, yang berkinerja lebih baik dibanding metrik yang menyesatkan seperti entropi tingkat token yang selama ini digunakan.

Studi ini menyajikan pendekatan baru untuk meningkatkan efisiensi proses pembelajaran dan penalaran pada LLM, serta menekankan perlunya optimisasi yang terfokus pada perencanaan strategis melalui algoritma HICRA. Kontribusi ini diharapkan dapat lebih memajukan kemampuan penalaran kompleks LLM dan menjadi fondasi penting bagi riset selanjutnya.

Abstrak makalah (Abstract)

Reinforcement learning (RL) telah terbukti sangat efektif dalam meningkatkan kemampuan penalaran kompleks Large Language Models (LLM), tetapi mekanisme mendasar yang mendorong keberhasilan ini masih belum sepenuhnya jelas. Analisis kami mengungkap bahwa fenomena membingungkan seperti "aha moment", "length-scaling", dan dinamika entropi bukanlah kejadian terpisah, melainkan ciri dari emergent reasoning hierarchy yang menyerupai pemisahan antara perencanaan strategis tingkat tinggi dan eksekusi prosedural tingkat rendah dalam kognisi manusia. Kami menemukan dinamika dua tahap yang menarik: pada awalnya, model dibatasi oleh ketepatan prosedural dan harus meningkatkan keterampilan tingkat rendahnya. Setelah itu, bottleneck pembelajaran bergeser secara menentukan, dengan peningkatan kinerja didorong oleh eksplorasi dan penguasaan perencanaan strategis tingkat tinggi. Wawasan ini menyingkap inefisiensi inti dalam algoritme RL yang umum digunakan seperti GRPO, yang menerapkan tekanan optimisasi secara tidak membedakan dan mengencerkan sinyal pembelajaran ke seluruh token. Untuk mengatasinya, kami mengusulkan algoritme HIerarchy-Aware Credit Assignment (HICRA), yang memusatkan upaya optimisasi pada token perencanaan berdampak tinggi. HICRA menunjukkan kinerja yang jauh melampaui baseline kuat, membuktikan bahwa fokus pada bottleneck strategis ini adalah kunci untuk membuka penalaran tingkat lanjut. Selain itu, kami memvalidasi semantic entropy sebagai kompas yang lebih unggul untuk mengukur eksplorasi strategis dibanding metrik yang menyesatkan seperti entropi tingkat token.
> Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like aha moments", length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.

Tautan paper

https://arxiv.org/abs/2509.03646


OpenVision 2: Keluarga visual encoder generative pretrained untuk pembelajaran multimodal / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning (feat. Apple)

Pengantar paper

OpenVision 2 mengusulkan keluarga baru visual encoder dengan pretraining generatif untuk pembelajaran multimodal, serta sangat meningkatkan efisiensi pelatihan dengan menyederhanakan arsitektur dan desain loss dari OpenVision sebelumnya. Penelitian ini dibangun di atas karya pretraining vision-language terdahulu seperti CapPa dan AIMv2 serta desain multimodal modern seperti LLaVA, dengan pendekatan menghapus text encoder dan hanya mempertahankan captioning loss. Struktur yang disederhanakan ini terdiri dari dua modul, yaitu image encoder dan text decoder, sehingga dapat mempelajari representasi visual secara efektif melalui sinyal pembelajaran generatif.

Hasil eksperimen awal OpenVision 2 berhasil mempertahankan performa model asli sambil secara signifikan mengurangi waktu pelatihan dan konsumsi memori. Sebagai contoh, saat menggunakan backbone ViT-L/14, waktu pelatihan dipersingkat 1,5 kali dan penggunaan memori berkurang 1,8 kali, sehingga ukuran batch maksimum dapat ditingkatkan dari 2.000 menjadi 8.000. Peningkatan ini membuka kemungkinan bagi OpenVision 2 untuk diskalakan hingga lebih dari 1 miliar parameter, dan menunjukkan bahwa paradigma ringan yang khusus generatif menarik untuk pengembangan foundation model multimodal.

Penelitian ini mendorong peninjauan ulang terhadap keyakinan lama bahwa contrastive learning bergaya CLIP merupakan hal esensial untuk membangun vision encoder. OpenVision 2 menunjukkan bahwa objective generatif murni dapat bersaing dengan metode kontrasif dalam performa multimodal, sekaligus sangat menurunkan biaya komputasi dan memungkinkan penskalaan ke model yang lebih besar. Para peneliti kini memiliki peluang untuk mengeksplorasi lebih jauh potensi pretraining generatif pada vision encoder dengan memanfaatkan set pelatihan penuh dan checkpoint pralatih OpenVision 2. Inovasi ini menghadirkan arah baru di bidang pembelajaran multimodal dan diharapkan memberi kontribusi penting bagi penelitian selanjutnya.

Abstrak paper

Paper ini menyajikan cara untuk menyederhanakan arsitektur dan desain loss OpenVision guna meningkatkan efisiensi pelatihannya. Mengikuti karya prapelatihan vision-language sebelumnya seperti CapPa dan AIMv2, serta desain multimodal modern seperti LLaVA, perubahan yang kami lakukan sederhana: kami menghapus text encoder (dan dengan demikian contrastive loss), lalu hanya mempertahankan captioning loss sebagai sinyal pelatihan yang murni generatif. Kami menamai versi baru ini OpenVision 2. Hasil awalnya menjanjikan: meskipun disederhanakan, OpenVision 2 secara kompetitif menyamai performa model asli pada berbagai benchmark multimodal sambil secara signifikan memangkas waktu pelatihan dan konsumsi memori. Sebagai contoh, dengan ViT-L/14, waktu pelatihan berkurang sekitar 1,5x (dari 83 jam menjadi 57 jam), dan penggunaan memori turun sekitar 1,8x (dari 24.5GB menjadi 13.8GB, yang setara dengan memungkinkan ukuran batch maksimum naik dari 2k ke 8k). Efisiensi pelatihan yang unggul ini juga memungkinkan kami melakukan scaling jauh melampaui vision encoder terbesar yang digunakan di OpenVision, hingga mencapai lebih dari 1 miliar parameter. Kami sangat meyakini bahwa paradigma ringan yang hanya generatif ini menarik untuk pengembangan vision encoder di masa depan dalam multimodal foundation model.
> Makalah ini menyajikan penyederhanaan pada arsitektur dan desain loss OpenVision untuk meningkatkan efisiensi pelatihannya. Mengikuti karya prapelatihan vision-language sebelumnya seperti CapPa dan AIMv2, serta desain multimodal modern seperti LLaVA, perubahan yang kami lakukan sederhana: kami menghapus text encoder (dan karenanya contrastive loss), dengan hanya mempertahankan captioning loss sebagai sinyal pelatihan yang murni generatif. Kami menamai versi baru ini OpenVision 2. Hasil awalnya menjanjikan: meskipun dengan penyederhanaan ini, OpenVision 2 secara kompetitif menyamai performa model asli pada kumpulan benchmark multimodal yang luas sambil secara substansial mengurangi waktu pelatihan dan konsumsi memori. Sebagai contoh, dengan ViT-L/14, waktu pelatihan berkurang sekitar 1,5x (dari 83h menjadi 57h), dan penggunaan memori turun sekitar 1,8x (dari 24.5GB menjadi 13.8GB, yang secara ekuivalen memungkinkan ukuran batch maksimum bertambah dari 2k menjadi 8k). Efisiensi pelatihan yang lebih unggul ini juga memungkinkan kami melakukan scaling jauh melampaui vision encoder terbesar yang digunakan dalam OpenVision, hingga mencapai lebih dari 1 miliar parameter. Kami sangat meyakini bahwa paradigma ringan yang hanya generatif ini sangat menarik untuk pengembangan vision encoder masa depan dalam multimodal foundation models.

Tautan paper

https://arxiv.org/abs/2509.01644

Baca lebih lanjut

https://ucsc-vlaa.github.io/OpenVision2

https://github.com/UCSC-VLAA/OpenVision

https://huggingface.co/collections/UCSC-VLAA/…

https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B


Backprompting: Memanfaatkan Data Produksi Sintetis untuk Guardrail Nasihat Kesehatan / Backprompting: Leveraging Synthetic Production Data for Health Advice Guardrails (feat. IBM Research)

Pengenalan paper

Seiring penggunaan large language model (LLM) semakin meluas di lingkungan perusahaan, berbagai faktor risiko terkait juga mulai muncul. Secara khusus, kemungkinan output LLM mengandung informasi yang keliru dapat menimbulkan konsekuensi serius di bidang sensitif seperti nasihat kesehatan. Untuk mengurangi risiko ini, dibutuhkan teknologi guardrail, yang bekerja dengan memfilter teks input dan output LLM melalui berbagai detektor. Namun, salah satu hambatan terbesar dalam mengembangkan dan memelihara detektor yang kuat adalah sulitnya memperoleh data berlabel berkualitas produksi terhadap output LLM yang nyata.

Dalam penelitian ini, penulis mengusulkan metodologi inovatif bernama backprompting untuk mengatasi masalah tersebut. Backprompting adalah pendekatan yang menghasilkan data berlabel mirip produksi dengan cara mengajukan pertanyaan kembali terhadap teks yang dihasilkan LLM berdasarkan pertanyaan yang dimasukkan pengguna. Dalam proses ini, teknik sparse human-in-the-loop clustering digunakan untuk memberi label pada data yang dihasilkan. Melalui cara ini, dapat dibangun korpus paralel yang secara kasar merepresentasikan dataset asli sekaligus menyerupai output LLM di dunia nyata.

Tujuan utama penelitian ini adalah menghasilkan data pelatihan yang kuat untuk detektor dengan menyuntikkan contoh sintetis ke dalam dataset yang ada. Dengan demikian, penelitian ini bertujuan meningkatkan performa dalam membangun guardrail untuk mengidentifikasi nasihat kesehatan. Hasil eksperimen menunjukkan bahwa detektor yang diusulkan mencatat peningkatan performa hingga 3.73% dibandingkan metode yang ada, dan bahkan menunjukkan hasil yang lebih unggul ketika dibandingkan dengan GPT-4o. Pencapaian ini menunjukkan bahwa data yang dihasilkan melalui backprompting memberikan dampak positif pada pelatihan detektor.

Sebagai kesimpulan, penelitian ini menyajikan metodologi baru untuk pembuatan data guna meningkatkan keamanan output LLM, serta menunjukkan potensi penerapannya di berbagai bidang pada masa mendatang. Backprompting efektif untuk pengembangan guardrail nasihat kesehatan dan diharapkan memberikan kontribusi penting bagi penggunaan LLM yang aman.

Abstrak paper

Merebaknya model bahasa besar (LLM) di lingkungan perusahaan juga membawa sejumlah besar risiko yang terkait dengan penggunaannya. Teknologi guardrail bertujuan mengurangi risiko ini dengan memfilter teks input/output LLM melalui berbagai detektor. Namun, mengembangkan dan memelihara detektor yang tangguh menghadapi banyak tantangan, salah satunya adalah sulitnya memperoleh data berlabel berkualitas produksi pada output LLM nyata sebelum deployment. Dalam penelitian ini, kami mengusulkan backprompting, solusi yang sederhana namun intuitif untuk menghasilkan data berlabel mirip produksi bagi pengembangan guardrail nasihat kesehatan. Selain itu, kami menggabungkan metode backprompting kami dengan teknik clustering sparse human-in-the-loop untuk memberi label pada data yang dihasilkan. Tujuan kami adalah membangun korpus paralel yang secara kasar merepresentasikan dataset asli namun menyerupai output LLM nyata. Selanjutnya, kami menyuntikkan contoh sintetis kami ke dataset yang sudah ada untuk menghasilkan data pelatihan yang tangguh bagi detektor kami. Kami menguji teknik ini pada salah satu guardrail yang paling sulit dan paling bernuansa, yaitu identifikasi nasihat kesehatan dalam output LLM, dan menunjukkan peningkatan dibandingkan solusi lain. Detektor kami mampu mengungguli GPT-4o hingga 3,73%, meskipun memiliki parameter 400 kali lebih sedikit.
> Kehadiran luas large language models (LLMs) di lingkungan enterprise juga memunculkan sejumlah besar risiko yang terkait dengan penggunaannya. Teknologi guardrail bertujuan memitigasi risiko ini dengan memfilter teks input/output LLM melalui berbagai detektor. Namun, mengembangkan dan memelihara detektor yang kuat menghadapi banyak tantangan, salah satunya adalah sulitnya memperoleh data berlabel berkualitas produksi pada output LLM nyata sebelum deployment. Dalam karya ini, kami mengusulkan backprompting, solusi yang sederhana namun intuitif untuk menghasilkan data berlabel mirip produksi untuk pengembangan guardrail nasihat kesehatan. Selain itu, kami memasangkan metode backprompting kami dengan teknik clustering sparse human-in-the-loop untuk memberi label pada data yang dihasilkan. Tujuan kami adalah membangun korpus paralel yang kurang lebih merepresentasikan dataset asli namun menyerupai output LLM nyata. Kami kemudian menyuntikkan contoh sintetis kami ke dalam dataset yang ada untuk menghasilkan data pelatihan yang kuat bagi detektor kami. Kami menguji teknik kami pada salah satu guardrail yang paling sulit dan paling bernuansa: identifikasi nasihat kesehatan dalam output LLM, dan menunjukkan peningkatan dibandingkan solusi lain. Detektor kami mampu mengungguli GPT-4o hingga 3,73%, meskipun memiliki parameter 400x lebih sedikit.

Tautan paper

https://arxiv.org/abs/2508.18384


Sinergi Kedalaman-Lebar dalam RLVR: Membuka Peningkatan Penalaran LLM dengan Eksplorasi Adaptif / Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

Pengantar paper

Reinforcement Learning with Verifiable Reward (RLVR) memainkan peran penting dalam memaksimalkan kemampuan penalaran model bahasa besar (LLM), tetapi potensinya dibatasi oleh dua dimensi yang belum banyak dieksplorasi: Depth (masalah tersulit yang dapat di-sampling model) dan Breadth (jumlah instance yang dikonsumsi dalam satu iterasi). Dalam penelitian ini, penulis menganalisis algoritma GRPO (Generalized Relative Preference Optimization) yang ada dan mengungkap bias sistematis bahwa cumulative advantage memberi bobot yang tidak proporsional pada sampel dengan akurasi menengah, serta meremehkan instance berakurasi rendah. Untuk mengatasinya, mereka mengusulkan metodologi Difficulty Adaptive Rollout Sampling (DARS), yang menyesuaikan ulang bobot masalah sulit melalui rollout bertahap yang berorientasi tujuan untuk meningkatkan jumlah rollout positif.

DARS tidak sekadar memperbesar ukuran rollout, tetapi juga berkontribusi pada peningkatan performa Pass@K. Selain itu, penelitian ini mengeksplorasi bahwa memperluas breadth data pelatihan secara agresif dapat berkontribusi pada peningkatan penalaran, dengan memperbesar ukuran batch secara signifikan dan mengganti iterasi mini-batch pada Proximal Policy Optimization (PPO) dengan update full-batch lintas beberapa epoch. Pendekatan ini secara signifikan meningkatkan performa Pass@1, dan pelatihan breadth skala besar mempertahankan entropi tingkat token yang tinggi, yang menunjukkan eksplorasi berkelanjutan dan penurunan gradient noise.

DARS-B adalah metodologi yang menambahkan breadth skala besar ke DARS untuk mencapai peningkatan performa secara simultan pada Pass@K dan Pass@1, yang menunjukkan bahwa eksplorasi adaptif terhadap breadth dan depth memainkan peran penting dalam memunculkan kemampuan penalaran RLVR. Penelitian ini, melalui metodologi tersebut, mengusulkan arah baru untuk memaksimalkan kemampuan penalaran RLVR, dan secara eksperimental membuktikan bahwa eksplorasi adaptif atas depth dan breadth berkontribusi pada peningkatan performa RLVR.

Abstrak paper

Reinforcement Learning with Verifiable Reward (RLVR) telah muncul sebagai paradigma yang kuat untuk membuka kemampuan penalaran model bahasa besar, tetapi potensi penuhnya dibatasi oleh dua dimensi yang belum banyak dieksplorasi: kedalaman (Depth) — masalah tersulit yang dapat disampling model; dan keluasan (Breadth) — jumlah instance yang diproses dalam satu iterasi. Kami menganalisis algoritma GRPO yang populer dan mengungkap bias sistematis: cumulative-advantage memberi bobot yang tidak proporsional pada sampel dengan akurasi menengah, sekaligus menurunkan bobot instance berakurasi rendah yang krusial untuk mendorong batas penalaran. Untuk memperbaiki pengabaian terhadap kedalaman, kami memperkenalkan Difficulty Adaptive Rollout Sampling (DARS), yang menyesuaikan ulang bobot masalah sulit melalui rollout multi-tahap yang terarah, sehingga meningkatkan jumlah rollout positif untuk masalah sulit. Secara empiris, sekadar memperbesar ukuran rollout hanya mempercepat konvergensi dan bahkan berdampak buruk pada Pass@K. Sebaliknya, DARS kami memberikan peningkatan Pass@K yang konsisten tanpa biaya inferensi tambahan saat konvergensi. Seperti kami secara adaptif memperluas kedalaman eksplorasi, kami kemudian bertanya apakah memperbesar keluasan data pelatihan secara agresif dapat semakin memperkuat peningkatan penalaran. Untuk itu, kami meningkatkan ukuran batch secara besar-besaran dan mengganti iterasi mini-batch PPO dengan pembaruan full-batch selama beberapa epoch. Peningkatan keluasan secara signifikan meningkatkan performa Pass@1. Pelatihan dengan keluasan besar mempertahankan entropi tingkat token yang tinggi, menandakan eksplorasi yang berkelanjutan dan berkurangnya noise gradien. Kami juga memperkenalkan DARS-B, yang memperkuat DARS dengan keluasan besar, dan menunjukkan peningkatan simultan pada Pass@K dan Pass@1. Hasilnya menegaskan bahwa keluasan dan eksplorasi adaptif pada dimensi kedalaman beroperasi sebagai dimensi ortogonal dalam RLVR, dan keduanya merupakan kunci untuk melepaskan kekuatan penalaran RLVR.
> Reinforcement Learning with Verifiable Reward (RLVR) telah muncul sebagai paradigma yang kuat untuk membuka kemampuan penalaran model bahasa besar, tetapi potensi penuhnya dibatasi oleh dua dimensi yang belum banyak dieksplorasi: Depth — masalah tersulit yang dapat disampling model; Breadth — jumlah instance yang diproses dalam satu iterasi. Kami membedah algoritma GRPO yang populer dan mengungkap bias sistematis: cumulative-advantage memberi bobot yang tidak proporsional pada sampel dengan akurasi menengah, sekaligus menurunkan bobot instance berakurasi rendah yang krusial untuk mendorong batas penalaran. Untuk memperbaiki pengabaian terhadap depth, kami memperkenalkan Difficulty Adaptive Rollout Sampling (DARS), yang menyesuaikan ulang bobot masalah sulit melalui rollout multi-tahap yang terarah, sehingga meningkatkan jumlah rollout positif untuk masalah sulit. Secara empiris, sekadar memperbesar ukuran rollout hanya mempercepat konvergensi dan bahkan merugikan Pass@K. Sebaliknya, DARS kami memberikan peningkatan Pass@K yang konsisten tanpa biaya inferensi tambahan saat konvergensi. Seperti kami secara adaptif memperluas kedalaman eksplorasi, kami kemudian bertanya apakah memperbesar breadth data pelatihan secara agresif dapat semakin memperkuat peningkatan penalaran. Untuk itu, kami meningkatkan ukuran batch secara besar-besaran dan mengganti iterasi mini-batch PPO dengan pembaruan full-batch selama beberapa epoch. Peningkatan breadth secara signifikan meningkatkan performa Pass@1. Pelatihan dengan breadth besar mempertahankan entropi tingkat token yang tinggi, menandakan eksplorasi yang berkelanjutan dan berkurangnya noise gradien. Kami juga memperkenalkan DARS-B, yang memperkuat DARS dengan breadth besar, dan menunjukkan peningkatan simultan pada Pass@K dan Pass@1. Hasilnya menegaskan bahwa breadth dan eksplorasi adaptif pada depth beroperasi sebagai dimensi ortogonal dalam RLVR, dan keduanya merupakan kunci untuk melepaskan kekuatan penalaran RLVR.

Tautan paper

https://arxiv.org/abs/2508.13755


FlowVLA: memikirkan gerakan dengan rantai pemikiran visual / FlowVLA: Thinking in Motion with a Visual Chain of Thought

Pengantar paper

Model Vision-Language-Action (VLA) bergantung pada world model internal yang dilatih melalui prediksi frame berikutnya, tetapi pendekatan ini mengalami kesulitan dalam penalaran fisik karena tampilan statis dan gerakan dinamis saling terjalin. Untuk mengatasi hal ini, diperkenalkan framework pra-pelatihan bernama Visual Chain of Thought (Visual CoT), yang mendorong model untuk menalar evolusi adegan sebelum melakukan prediksi. FlowVLA bekerja dengan menghasilkan representasi optical flow perantara lalu memprediksi frame masa depan; proses ini diimplementasikan dalam satu Transformer autoregresif untuk mempelajari elemen dinamis secara terpisah. Hasil eksperimen menunjukkan bahwa FlowVLA menghasilkan prediksi visual yang konsisten dan secara signifikan meningkatkan efisiensi pembelajaran kebijakan, sehingga menawarkan landasan yang lebih berprinsip untuk world modeling.

Abstrak paper

Banyak model Vision-Language-Action (VLA) mengandalkan world model internal yang dilatih melalui prediksi frame berikutnya. Namun, pendekatan ini kesulitan dalam penalaran fisik karena mencampuradukkan tampilan statis dengan gerakan dinamis, yang sering menghasilkan prediksi visual yang tidak masuk akal dan pembelajaran kebijakan yang tidak efisien. Untuk mengatasi keterbatasan ini, kami memperkenalkan Visual Chain of Thought (Visual CoT): sebuah kerangka pra-pelatihan yang mendorong model untuk menalar bagaimana sebuah adegan berkembang sebelum memprediksi seperti apa tampilannya. Kami menerapkan prinsip ini dalam FlowVLA, yang memprediksi frame masa depan ($v_{t+1}$) hanya setelah menghasilkan representasi optical flow perantara ($f_t$) yang mengodekan dinamika gerakan. Proses penalaran "$v_t \rightarrow f_t \rightarrow v_{t+1}$" ini diimplementasikan dalam satu Transformer autoregresif, yang membimbing model untuk mempelajari dinamika yang terurai. Hasilnya, FlowVLA menghasilkan prediksi visual yang koheren dan memfasilitasi pembelajaran kebijakan yang lebih efisien. Eksperimen pada benchmark manipulasi robot yang menantang menunjukkan performa state-of-the-art dengan efisiensi sampel yang meningkat secara signifikan, mengarah pada fondasi yang lebih berprinsip untuk world modeling. Halaman proyek: https://irpn-lab.github.io/FlowVLA/
> Many Vision-Language-Action (VLA) models rely on an internal world model trained via next-frame prediction. This approach, however, struggles with physical reasoning as it entangles static appearance with dynamic motion, often resulting in implausible visual forecasts and inefficient policy learning. To address these limitations, we introduce the Visual Chain of Thought (Visual CoT): a pre-training framework that encourages a model to reason about how a scene evolves before predicting what it will look like. We instantiate this principle in FlowVLA, which predicts a future frame ($v_{t+1}$) only after generating an intermediate optical flow representation ($f_t$) that encodes motion dynamics. This ``$v_t \rightarrow f_t \rightarrow v_{t+1}$'' reasoning process is implemented within a single autoregressive Transformer, guiding the model to learn disentangled dynamics. As a result, FlowVLA produces coherent visual predictions and facilitates more efficient policy learning. Experiments on challenging robotics manipulation benchmarks demonstrate state-of-the-art performance with substantially improved sample efficiency, pointing toward a more principled foundation for world modeling. Project page: https://irpn-lab.github.io/FlowVLA/

Tautan paper

https://arxiv.org/abs/2508.18269

Baca lebih lanjut

https://irpn-lab.github.io/FlowVLA/


Representasi Memori Episodik untuk Pemahaman Video Berdurasi Panjang / Episodic Memory Representation for Long-form Video Understanding

Pengantar paper

Salah satu tantangan dalam bidang pemahaman video adalah memproses konteks video panjang secara efektif. Video Large Language Models (Video-LLMs) yang ada saat ini unggul dalam pemahaman video umum, tetapi mengalami kesulitan pada video panjang karena keterbatasan context window. Untuk mengatasi masalah ini, kerangka Video-EM (Episodic Memory Representation) yang diusulkan menawarkan pendekatan inovatif tanpa perlu pelatihan.

Video-EM memodelkan peristiwa-peristiwa utama dalam video sebagai episode yang tersusun secara temporal, sehingga dapat menangkap hubungan spatiotemporal yang dinamis serta narasi. Kerangka ini terdiri dari tiga komponen inti: Key Event Selection, Episodic Memory Representation, dan Chain of Thought (CoT) Video Reasoning. Modul Key Event Selection mengidentifikasi informasi yang relevan dengan kueri dan mengekstrak peristiwa-peristiwa utama yang berdekatan secara temporal, sehingga mengatasi redundansi dalam video.

Modul Episodic Memory Representation secara eksplisit memodelkan urutan temporal setiap peristiwa untuk memperkaya representasi konteks spatiotemporal yang dinamis. Dengan demikian, narasi video dapat direkonstruksi secara efektif. Terakhir, CoT Video Reasoning secara iteratif memilih himpunan minimum memori episodik yang relevan untuk menghasilkan jawaban yang akurat dan berbasis konteks.

Penelitian ini mengevaluasi performa Video-EM pada berbagai benchmark, dan menunjukkan peningkatan performa sebesar 4–9% dibanding model yang ada. Hasil ini menunjukkan bahwa metode tersebut berhasil mempertahankan akurasi tinggi meskipun menggunakan jumlah frame yang lebih sedikit. Video-EM secara signifikan meningkatkan akurasi tanya-jawab video dan memberikan kontribusi penting yang membuka kemungkinan baru dalam bidang pemahaman video. Pendekatan ini berpotensi menjadi landasan penting bagi penelitian selanjutnya.

Abstrak paper

Video Large Language Model (Video-LLM) menunjukkan kinerja yang unggul dalam pemahaman video secara umum, tetapi kesulitan pada video berdurasi panjang karena keterbatasan context window. Karena itu, pendekatan terbaru berfokus pada pengambilan keyframe, dengan memadatkan video panjang menjadi sejumlah kecil frame informatif. Meski praktis, metode ini menyederhanakan masalah menjadi pencocokan statis antara teks dan gambar, sehingga mengabaikan hubungan spatio-temporal yang penting untuk menangkap perpindahan adegan dan kesinambungan konteks, serta dapat menghasilkan keyframe redundan dengan informasi terbatas, yang pada akhirnya mengaburkan petunjuk penting yang dibutuhkan untuk video question answering yang akurat. Untuk mengatasi keterbatasan ini, kami memperkenalkan Video-EM, sebuah framework tanpa pelatihan yang terinspirasi oleh prinsip memori episodik manusia dan dirancang untuk mendorong penalaran yang kuat serta berlandaskan konteks. Alih-alih memperlakukan keyframe sebagai entitas visual yang terpisah, Video-EM secara eksplisit memodelkannya sebagai peristiwa episodik yang tersusun secara temporal, sehingga mampu menangkap hubungan spasial dan dinamika temporal yang diperlukan untuk merekonstruksi narasi dasarnya secara akurat. Selain itu, framework ini memanfaatkan chain-of-thought (CoT) bersama LLM untuk secara iteratif mengidentifikasi subset minimal namun sangat informatif dari memori episodik, sehingga memungkinkan question answering yang efisien dan akurat oleh Video-LLM. Evaluasi ekstensif pada benchmark Video-MME, EgoSchema, HourVideo, dan LVBench mengonfirmasi keunggulan Video-EM, yang mencapai hasil sangat kompetitif dengan peningkatan kinerja 4–9% dibanding baseline masing-masing, sekaligus menggunakan lebih sedikit frame.
> Video Large Language Models (Video-LLMs) unggul dalam pemahaman video secara umum tetapi kesulitan dengan video berdurasi panjang karena keterbatasan context window. Akibatnya, pendekatan terbaru berfokus pada pengambilan keyframe, memadatkan video panjang menjadi sejumlah kecil frame informatif. Meski praktis, metode ini menyederhanakan masalah menjadi pencocokan statis antara teks dan gambar, mengabaikan hubungan spatio-temporal yang penting untuk menangkap perpindahan adegan dan kesinambungan kontekstual, serta dapat menghasilkan keyframe redundan dengan informasi terbatas, yang mengaburkan petunjuk penting yang dibutuhkan untuk video question answering yang akurat. Untuk mengatasi keterbatasan ini, kami memperkenalkan Video-EM, sebuah framework tanpa pelatihan yang terinspirasi oleh prinsip memori episodik manusia, dirancang untuk memfasilitasi penalaran yang kuat dan berlandaskan konteks. Alih-alih memperlakukan keyframe sebagai entitas visual yang terisolasi, Video-EM secara eksplisit memodelkannya sebagai peristiwa episodik yang tersusun secara temporal, menangkap baik hubungan spasial maupun dinamika temporal yang diperlukan untuk merekonstruksi narasi yang mendasarinya secara akurat. Selain itu, framework ini memanfaatkan pemikiran chain of thought (CoT) dengan LLM untuk secara iteratif mengidentifikasi subset minimal namun sangat informatif dari memori episodik, sehingga memungkinkan question answering yang efisien dan akurat oleh Video-LLM. Evaluasi ekstensif pada benchmark Video-MME, EgoSchema, HourVideo, dan LVBench menegaskan keunggulan Video-EM, yang mencapai hasil sangat kompetitif dengan peningkatan kinerja sebesar 4–9 persen dibanding baseline masing-masing sambil menggunakan lebih sedikit frame.

Tautan paper

https://arxiv.org/abs/2508.09486


Tulisan ini disusun berdasarkan ringkasan yang dibuat dengan model GPT, sehingga mungkin ada bagian yang dirangkum berbeda dari isi atau maksud naskah aslinya. Jika Anda tertarik dengan topik ini, silakan merujuk juga ke naskah aslinya! Jika saat membaca Anda menemukan bagian yang terasa janggal atau keliru, mohon beri tahu melalui komentar. šŸ¤—

āš ļøIklanāš ļø: Apakah tulisan yang dirangkum oleh šŸ”„Komunitas Pengguna PyTorch KoreašŸ‡°šŸ‡· ini bermanfaat bagi Anda? Jika Anda mendaftar sebagai anggota, kami akan mengirimkan tulisan-tulisan utama melalui emailšŸ’Œ! Default-nya mingguan, tetapi bisa diubah menjadi harian.

Belum ada komentar.

Belum ada komentar.