10 poin oleh ninebow 2025-09-28 | Belum ada komentar. | Bagikan ke WhatsApp

PyTorchKR馃敟馃嚢馃嚪 馃馃挱

1锔忊儯 Integrasi dan optimalisasi model multimodal: Paper-paper terbaru mengusulkan berbagai pendekatan untuk meningkatkan kinerja Unified Multimodal Models (UMM). Misalnya, "Reconstruction Alignment" memperkenalkan metode untuk menyelaraskan ulang kemampuan pemahaman dan generasi model melalui penggabungan gambar dan teks, sementara "AToken" mengembangkan tokenizer terpadu untuk gambar, video, dan aset 3D agar dapat memproses beragam input visual. Riset-riset ini sedang meletakkan fondasi bagi kemajuan sistem AI multimodal.

2锔忊儯 Perancangan sistem data yang berpusat pada agen: Paper "Supporting Our AI Overlords" dan "Scaling Agents via Continual Pre-training" berargumen bahwa agen large language model (LLM) akan memainkan peran penting dalam sistem data. Keduanya menekankan bahwa agen perlu belajar melalui interaksi di berbagai lingkungan untuk mengembangkan kemampuan yang dibutuhkan dalam manipulasi dan analisis data. Ini membuka peluang riset baru untuk merancang arsitektur sistem data yang agent-first.

3锔忊儯 Pembelajaran otonom dan model yang berevolusi: Paper "R-Zero" menekankan perlunya model yang dapat secara mandiri menghasilkan data dan belajar. Sementara metode yang ada bergantung pada tugas dan label yang disempurnakan manusia, R-Zero membentuk kurikulum pembelajaran yang berevolusi sendiri melalui dua model yang mengusulkan dan menyelesaikan tugas secara mandiri. Pendekatan ini diharapkan memainkan peran penting dalam pengembangan sistem AI dengan kemampuan yang melampaui kecerdasan manusia.


Reconstruction Alignment meningkatkan Unified Multimodal Models / Reconstruction Alignment Improves Unified Multimodal Models

Pengenalan paper

Unified Multimodal Models (UMM) adalah pendekatan inovatif yang mengintegrasikan kemampuan pemahaman visual dan generasi sehingga dapat menangani berbagai tugas. Namun, metode pelatihan yang ada bergantung pada pasangan gambar-teks, sehingga caption cenderung melewatkan detail visual yang halus dan menyebabkan penurunan performa. Untuk mengatasi keterbatasan ini, diusulkanlah Reconstruction Alignment (RecA). RecA adalah teknik post-training yang efisien dari sisi sumber daya, yang memanfaatkan embedding encoder pemahaman visual sebagai "text prompt" yang padat untuk memberikan sinyal supervisi yang kaya tanpa caption.

Inti dari RecA terletak pada proses mengoptimalkan UMM agar merekonstruksi gambar masukan dengan dikondisikan pada embedding pemahaman visual miliknya sendiri. Dalam proses ini, loss rekonstruksi self-supervised digunakan untuk menyelaraskan kemampuan pemahaman dan generasi model, sehingga informasi visual dapat dimanfaatkan dengan lebih efektif. RecA dapat diterapkan pada berbagai arsitektur, termasuk UMM berbasis autoregressive, masked autoregressive, dan diffusion, serta secara konsisten meningkatkan fidelitas generasi dan penyuntingan.

Hasil eksperimen menunjukkan bahwa setelah menerapkan RecA, performa generasi gambar di GenEval meningkat dari 0.73 menjadi 0.90, dan di DPGBench dari 80.93 menjadi 88.15. Selain itu, pada benchmark penyuntingan gambar, performa juga naik dari 3.38 menjadi 3.75 di ImgEdit dan dari 6.94 menjadi 7.25 di GEdit. Hasil-hasil ini menunjukkan bahwa RecA melampaui performa model open source besar yang sudah ada dan berpotensi diterapkan secara luas pada beragam arsitektur UMM.

RecA menunjukkan potensi sebagai metode yang efektif untuk menyelaraskan kemampuan pemahaman dan generasi UMM, serta dapat menjadi strategi post-training yang efisien dari sisi sumber daya. Riset ke depan perlu memperluas cakupan penerapan RecA dan mengevaluasi performanya pada tugas multimodal lainnya. Penelitian semacam ini diharapkan akan berkontribusi pada kemajuan model multimodal.

Abstrak paper

Unified multimodal models (UMM) menggabungkan pemahaman visual dan generasi dalam satu arsitektur. Namun, pendekatan pelatihan konvensional umumnya bergantung pada pasangan gambar-teks (atau sekuens) yang caption-nya biasanya jarang dan melewatkan detail visual yang halus, bahkan ketika menggunakan ratusan kata untuk menjelaskan gambar yang sederhana. Kami memperkenalkan Reconstruction Alignment (RecA), metode post-training yang efisien dari sisi sumber daya, yang memanfaatkan embedding encoder pemahaman visual sebagai "text prompt" yang padat untuk menyediakan supervisi yang kaya tanpa caption. Secara spesifik, RecA mengondisikan UMM pada embedding pemahaman visualnya sendiri, lalu mengoptimalkannya untuk merekonstruksi gambar masukan melalui loss rekonstruksi self-supervised, sehingga menyelaraskan ulang pemahaman dan generasi. Meski sederhana, RecA dapat diterapkan secara luas pada UMM berbasis autoregressive, masked autoregressive, dan diffusion, serta secara konsisten meningkatkan fidelitas generasi dan penyuntingan. Hanya dengan 27 GPU-hours, post-training dengan RecA secara signifikan meningkatkan performa generasi gambar pada GenEval (0.73$\rightarrow$0.90) dan DPGBench (80.93$\rightarrow$88.15), sekaligus meningkatkan benchmark penyuntingan (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Secara khusus, RecA melampaui model open source yang jauh lebih besar dan dapat diterapkan luas pada beragam arsitektur UMM, menjadikannya strategi alignment post-training yang efisien dan umum untuk UMM.

> Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73$\rightarrow$0.90) and DPGBench (80.93$\rightarrow$88.15), while also boosting editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs

Tautan paper

https://arxiv.org/abs/2509.07295


Mendukung para penguasa AI kita: Mendesain ulang sistem data agar agent-first / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First

Pengenalan paper

Cara agen large language model (LLM) melakukan manipulasi dan analisis data diperkirakan akan membawa perubahan besar pada masa depan sistem data. Agen semacam ini menjalankan tugas melalui proses spekulasi agentik (agentic speculation), yaitu menelusuri dan mengajukan solusi dengan cepat sesuai permintaan pengguna. Namun, kemunculan spekulasi agentik dalam jumlah besar serta inefisiensinya dapat menjadi tantangan bagi sistem data saat ini. Karena itu, sistem data perlu berevolusi agar dapat secara native mendukung beban kerja agentik semacam ini.

Dalam studi ini, penulis memanfaatkan karakteristik spekulasi agentik鈥攕kala, heterogenitas, redundansi, dan kemampuan untuk diarahkan鈥攗ntuk mengusulkan peluang riset bagi arsitektur sistem data baru yang berfokus pada agen. Melalui pendekatan ini, mereka mengeksplorasi metode inovatif seperti antarmuka kueri baru, teknik pemrosesan kueri baru, dan penyimpanan memori agentik. Secara khusus, jika agen menjadi mekanisme utama dalam berinteraksi dengan data, hal ini dapat membuka peluang peningkatan produktivitas sistem data.

Melalui studi kasus, penulis menganalisis karakteristik beban kerja agentik dan mengidentifikasi peluang optimasi. Studi pertama menggunakan dataset BIRD untuk mengeksplorasi bagaimana LLM dapat meningkatkan akurasi dengan menambah jumlah permintaan, sedangkan studi kedua menjalankan tugas kompleks yang menggabungkan informasi dari dua database. Hasil-hasil ini menunjukkan bahwa spekulasi agentik memiliki potensi untuk meningkatkan efisiensi sistem data.

Terakhir, penulis mengusulkan penyimpanan memori agentik dan kerangka kerja transaksi baru untuk menangani redundansi serta heterogenitas yang muncul pada tahap eksplorasi spekulasi agentik. Pendekatan ini menegaskan perlunya sistem data didesain ulang dengan agen sebagai pusatnya, sekaligus menawarkan visi baru bagi riset di masa depan.

Abstrak paper

Agen large language model (LLM), yang bertindak atas nama pengguna untuk memanipulasi dan menganalisis data, kemungkinan besar akan menjadi beban kerja dominan bagi sistem data di masa depan. Saat bekerja dengan data, agen menggunakan proses berthroughput tinggi untuk mengeksplorasi dan merumuskan solusi bagi tugas yang diberikan, yang kami sebut sebagai spekulasi agentik (agentic speculation). Besarnya volume dan inefisiensi dari spekulasi agentik dapat menimbulkan tantangan bagi sistem data masa kini. Kami berpendapat bahwa sistem data perlu beradaptasi agar lebih native dalam mendukung beban kerja agentik. Kami memanfaatkan karakteristik spekulasi agentik yang kami identifikasi, yaitu skala, heterogenitas, redundansi, dan steerability, untuk menguraikan sejumlah peluang riset baru bagi arsitektur sistem data baru yang mengutamakan agen, mulai dari antarmuka kueri baru, teknik pemrosesan kueri baru, hingga penyimpanan memori agentik baru.

> Large Language Model (LLM) agents, acting on their users' behalf to manipulate and analyze data, are likely to become the dominant workload for data systems in the future. When working with data, agents employ a high-throughput process of exploration and solution formulation for the given task, one we call agentic speculation. The sheer volume and inefficiencies of agentic speculation can pose challenges for present-day data systems. We argue that data systems need to adapt to more natively support agentic workloads. We take advantage of the characteristics of agentic speculation that we identify, i.e., scale, heterogeneity, redundancy, and steerability - to outline a number of new research opportunities for a new agent-first data systems architecture, ranging from new query interfaces, to new query processing techniques, to new agentic memory stores.

Tautan paper

https://arxiv.org/abs/2509.00997


AToken: tokenizer terpadu untuk visi / AToken: A Unified Tokenizer for Vision

Pengantar paper

AToken adalah tokenizer visual terpadu pertama yang secara bersamaan mencapai rekonstruksi berfidelitas tinggi dan pemahaman semantik pada image, video, dan aset 3D. Sementara tokenizer sebelumnya biasanya dikhususkan untuk rekonstruksi atau pemahaman pada satu modalitas, AToken menyatukan kedua tugas dan berbagai modalitas dalam satu framework dengan mengodekan beragam input visual ke ruang laten 4D bersama. Sistem ini memperkenalkan arsitektur pure Transformer dengan 4D rotary positional embedding untuk menangani input visual dengan resolusi dan panjang waktu arbitrer. Untuk memastikan pelatihan yang stabil, AToken mengusulkan objective pelatihan tanpa adversarial yang menggabungkan perceptual loss dan Gram-matrix loss, sehingga mencapai kualitas rekonstruksi state-of-the-art. Melalui kurikulum pelatihan bertahap, AToken diperluas secara gradual dari single image ke video dan 3D, serta mendukung token laten kontinu maupun diskret. AToken mencapai 0.21 rFID dan akurasi ImageNet 82.2% untuk image, 3.01 rFVD dan performa retrieval MSRVTT 32.6% untuk video, serta 28.19 PSNR dan akurasi klasifikasi 90.9% untuk 3D. Dalam aplikasi downstream, AToken memungkinkan tugas generasi visual seperti image generation, text-to-video generation, dan image-to-3D synthesis, serta tugas pemahaman seperti multimodal large language model (LLM), dengan performa kompetitif di semua benchmark. Hasil ini menunjukkan potensi sistem AI multimodal generasi berikutnya yang dibangun di atas tokenisasi visual terpadu.

Abstrak paper

Kami memperkenalkan AToken, tokenizer visual terpadu pertama yang mencapai baik rekonstruksi berfidelitas tinggi maupun pemahaman semantik pada image, video, dan aset 3D. Berbeda dengan tokenizer sebelumnya yang dikhususkan untuk rekonstruksi atau pemahaman pada satu modalitas, AToken mengodekan beragam input visual ini ke ruang laten 4D bersama untuk menyatukan kedua tugas dan berbagai modalitas dalam satu framework. Secara khusus, kami memperkenalkan arsitektur pure Transformer dengan 4D rotary positional embedding untuk memproses input visual dengan resolusi dan durasi waktu arbitrer. Untuk memastikan pelatihan yang stabil, kami memperkenalkan objective pelatihan tanpa adversarial yang menggabungkan perceptual loss dan Gramian matrix loss, sehingga mencapai kualitas rekonstruksi state-of-the-art. Dengan memanfaatkan kurikulum pelatihan bertahap, AToken secara gradual diperluas dari single image ke video dan 3D serta mendukung token laten kontinu maupun diskret. AToken mencapai 0.21 rFID dan akurasi ImageNet 82.2% untuk image, 3.01 rFVD dan tingkat retrieval MSRVTT 32.6% untuk video, serta 28.19 PSNR dan akurasi klasifikasi 90.9% untuk 3D. Pada aplikasi hilir, AToken memungkinkan baik tugas generasi visual (misalnya image generation dengan token kontinu dan diskret, text-to-video generation, image-to-3D synthesis) maupun tugas pemahaman (misalnya multimodal large language model), sehingga mencapai performa kompetitif di semua benchmark. Hasil-hasil ini memberikan wawasan tentang sistem AI multimodal generasi berikutnya yang dibangun di atas tokenisasi visual terpadu.

Kami memperkenalkan AToken, tokenizer visual terpadu pertama yang mencapai rekonstruksi dengan fidelitas tinggi sekaligus pemahaman semantik pada gambar, video, dan aset 3D. Berbeda dari tokenizer yang ada, yang biasanya mengkhususkan diri pada rekonstruksi atau pemahaman untuk satu modalitas saja, AToken mengodekan beragam input visual ini ke dalam ruang laten 4D bersama, menyatukan kedua tugas dan berbagai modalitas dalam satu kerangka kerja. Secara spesifik, kami memperkenalkan arsitektur transformer murni dengan 4D rotary position embeddings untuk memproses input visual dengan resolusi dan durasi temporal sebarang. Untuk memastikan pelatihan yang stabil, kami memperkenalkan objective pelatihan tanpa adversarial yang menggabungkan perceptual loss dan Gram matrix loss, sehingga mencapai kualitas rekonstruksi state-of-the-art. Dengan menerapkan kurikulum pelatihan progresif, AToken secara bertahap berkembang dari gambar tunggal, video, dan 3D, serta mendukung token laten kontinu maupun diskret. AToken mencapai 0.21 rFID dengan akurasi ImageNet 82.2% untuk gambar, 3.01 rFVD dengan retrieval MSRVTT 32.6% untuk video, dan 28.19 PSNR dengan akurasi klasifikasi 90.9% untuk 3D. Dalam aplikasi hilir, AToken memungkinkan baik tugas generasi visual (misalnya generasi gambar dengan token kontinu dan diskret, generasi text-to-video, sintesis image-to-3D) maupun tugas pemahaman (misalnya multimodal LLM), dengan performa kompetitif di semua benchmark. Hasil ini memberi gambaran tentang sistem AI multimodal generasi berikutnya yang dibangun di atas tokenisasi visual terpadu.

Tautan paper

https://arxiv.org/abs/2509.14476


Peningkatan Kecerdasan Agentik Umum melalui Perluasan Lingkungan / Towards General Agentic Intelligence via Environment Scaling

Pengantar paper

Kecerdasan agentik tingkat lanjut kini menjadi elemen penting untuk menerapkan large language model (LLM) secara efektif ke aplikasi dunia nyata. Beragam API nyata menuntut kecerdasan pemanggilan fungsi yang akurat dan tangguh, yang berarti agen perlu mengembangkan kemampuan tersebut melalui interaksi di berbagai lingkungan. Penelitian ini mengusulkan metode memperluas lingkungan sebagai langkah untuk meningkatkan kecerdasan agentik umum, dengan tujuan menjawab dua tantangan utama. Pertama, bagaimana memperluas lingkungan secara berprinsip; kedua, bagaimana melatih kemampuan agen secara efektif melalui interaksi dengan lingkungan tersebut.

Untuk mengatasi masalah ini, tim peneliti merancang kerangka kerja skalabel yang secara otomatis membangun lingkungan heterogen. Kerangka kerja ini berfokus pada perluasan sistematis lingkungan yang sepenuhnya disimulasikan guna memperluas ruang skenario pemanggilan fungsi. Selain itu, mereka memperkenalkan strategi fine-tuning agen dua tahap, di mana tahap pertama memberikan kemampuan agentik dasar kepada agen, dan tahap kedua mengkhususkannya agar sesuai dengan konteks spesifik domain.

Metodologi pembangunan dan perluasan lingkungan yang diusulkan dalam penelitian ini mencakup pipeline sistematis yang mengumpulkan lebih dari 30.000 API dan menurunkan partisi serta distribusi domain melalui pemodelan graf dependensi alat. Dengan pendekatan ini, agen dapat menginisialisasi status lingkungan dan menghasilkan urutan yang valid dengan melakukan sampling urutan alat yang konsisten secara logis dari graf alat spesifik domain. Proses ini menjamin konsistensi status pada tingkat basis data serta kecocokan yang tepat dari urutan alat, sehingga secara signifikan meningkatkan kemampuan pemanggilan fungsi agen.

Sebagai hasilnya, model AgentScaler yang dikembangkan dalam penelitian ini secara drastis meningkatkan kemampuan pemanggilan fungsi agen, dan diharapkan memberikan kontribusi penting bagi perkembangan kecerdasan agentik di masa depan. Pendekatan ini akan membantu agen beroperasi secara efektif di berbagai lingkungan serta memperluas kemungkinan penerapan praktis kecerdasan agentik.

Abstrak paper

Kecerdasan agen tingkat lanjut merupakan prasyarat untuk menerapkan large language model ke aplikasi dunia nyata. Beragam API nyata membutuhkan kecerdasan pemanggilan fungsi yang akurat dan tangguh, yang berarti agen harus mengembangkan kemampuan tersebut melalui interaksi di berbagai lingkungan. Luasnya kemampuan pemanggilan fungsi berkaitan erat dengan keragaman lingkungan tempat agen dilatih. Dalam penelitian ini, kami memperluas lingkungan sebagai langkah untuk meningkatkan kecerdasan agen umum. Hal ini memunculkan dua tantangan utama: (i) bagaimana memperluas lingkungan secara berprinsip, (ii) bagaimana melatih kemampuan agen secara efektif dari pengalaman yang diperoleh melalui interaksi dengan lingkungan tersebut. Untuk mengatasinya, kami merancang kerangka kerja skalabel yang secara otomatis menyusun lingkungan heterogen guna memperluas ruang skenario pemanggilan fungsi secara sistematis. Kami juga menerapkan strategi fine-tuning agen dua tahap yang mula-mula memberikan kemampuan agentik dasar kepada agen, lalu mengkhususkannya agar sesuai dengan konteks spesifik domain. Melalui eksperimen ekstensif pada benchmark agen tau-bench, tau2-Bench, dan ACEBench, kami menunjukkan bahwa model terlatih kami, AgentScaler, secara signifikan meningkatkan kemampuan pemanggilan fungsi model.

> Kecerdasan agentik tingkat lanjut merupakan prasyarat untuk menerapkan Large Language Models dalam aplikasi praktis di dunia nyata. Beragam API dunia nyata menuntut kecerdasan function-calling yang presisi dan tangguh, yang mengharuskan agen mengembangkan kemampuan ini melalui interaksi di lingkungan yang beragam. Luasnya kompetensi function-calling sangat terkait dengan keragaman lingkungan tempat agen dilatih. Dalam karya ini, kami memperluas skala lingkungan sebagai langkah menuju kemajuan kecerdasan agentik umum. Hal ini memunculkan dua tantangan utama: (i) bagaimana memperluas skala lingkungan secara terprinsip, dan (ii) bagaimana secara efektif melatih kapabilitas agentik dari pengalaman yang diperoleh melalui interaksi dengan lingkungan tersebut. Untuk mengatasi hal ini, kami merancang kerangka kerja yang dapat diskalakan dan secara otomatis membangun lingkungan heterogen yang sepenuhnya tersimulasikan, sehingga secara sistematis memperluas ruang skenario function-calling. Kami juga mengadaptasi strategi fine-tuning agen dua fase: pertama membekali agen dengan kapabilitas agentik mendasar, lalu mengkhususkannya untuk konteks spesifik domain. Eksperimen ekstensif pada benchmark agentik, tau-bench, tau2-Bench, dan ACEBench menunjukkan bahwa model terlatih kami, AgentScaler, secara signifikan meningkatkan kapabilitas function-calling model.

Tautan paper

https://arxiv.org/abs/2509.13311

Baca lebih lanjut

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/


Apakah in-context learning benar-benar belajar? / Is In-Context Learning Learning?

Perkenalan paper

In-Context Learning (ICL) menunjukkan kemampuan model autoregresif untuk menyelesaikan berbagai tugas melalui prediksi token berikutnya tanpa pelatihan tambahan. Pendekatan ini memunculkan klaim bahwa model dapat menyelesaikan tugas yang belum pernah dilihat hanya dengan beberapa contoh, tetapi masih ada perdebatan apakah ICL benar-benar melakukan proses belajar. Penelitian ini berargumen bahwa ICL secara matematis memang merupakan bentuk pembelajaran, sambil menekankan bahwa analisis empiris tetap diperlukan untuk memahami karakteristiknya secara utuh.

Melalui analisis berskala besar, penelitian ini mengevaluasi kinerja ICL dengan mempertimbangkan memori, pretraining, perubahan distribusi, serta sensitivitas terhadap gaya dan sintaks prompt. Hasil penelitian menunjukkan bahwa ICL berfungsi sebagai paradigma pembelajaran yang efektif, tetapi memiliki keterbatasan dalam kemampuan generalisasi terhadap tugas yang belum pernah dilihat. Secara khusus, ketika jumlah contoh meningkat, akurasi menjadi kurang sensitif terhadap distribusi contoh, model, atau gaya prompt, dan justru menunjukkan kecenderungan untuk menyimpulkan pola dari keteraturan dalam prompt. Hal ini terutama menimbulkan sensitivitas distribusional pada gaya prompt tertentu seperti Chain-of-Thought.

Perbedaan akurasi pada tugas-tugas yang serupa secara formal menunjukkan bahwa pengodean ad-hoc pada model autoregresif bukanlah mekanisme pembelajaran yang kuat, dan mengindikasikan generalitas universal yang terbatas. Penelitian ini menunjukkan bahwa ICL memang berfungsi sebagai mekanisme pembelajaran, tetapi juga secara jelas mengungkap batasan dan perilakunya, serta memperlihatkan bahwa kinerja LLM (large language model) dapat berubah tergantung pada distribusi data. Hasil ini memberikan kontribusi penting bagi eksplorasi potensi ICL dan diharapkan membantu penelitian selanjutnya untuk memahami karakteristik dan keterbatasannya secara lebih mendalam.

Abstrak paper

In-context learning (ICL) memungkinkan beberapa model autoregresif menyelesaikan tugas melalui prediksi token berikutnya tanpa memerlukan pelatihan tambahan. Hal ini memunculkan klaim bahwa model semacam ini dapat menyelesaikan (mempelajari) tugas yang belum pernah dilihat hanya dengan beberapa shot (contoh) di dalam prompt. Namun, penarikan kesimpulan tidak selalu berarti pembelajaran, karena ICL tidak secara eksplisit mengodekan observasi yang diberikan. Sebaliknya, model bergantung pada pengetahuan sebelumnya dan contoh yang diberikan, jika ada. Kami berargumen bahwa secara matematis ICL memang merupakan pembelajaran, tetapi karakterisasinya secara penuh memerlukan kerja empiris. Selanjutnya, kami melakukan analisis ICL berskala besar dengan menghilangkan atau memperhitungkan memorisasi, pretraining, pergeseran distribusi, serta gaya dan frasa prompting. Kami menemukan bahwa ICL adalah paradigma pembelajaran yang efektif, tetapi terbatas dalam kemampuannya untuk belajar dan melakukan generalisasi pada tugas yang belum pernah dilihat. Kami mencatat bahwa, pada batas ketika jumlah contoh menjadi semakin banyak, akurasi tidak sensitif terhadap distribusi contoh, model, gaya prompt, dan fitur linguistik dari masukan. Sebaliknya, model menyimpulkan pola dari keteraturan dalam prompt, yang menyebabkan sensitivitas distribusional, terutama pada gaya prompting seperti chain-of-thought. Mengingat akurasi yang bervariasi pada tugas-tugas yang secara formal serupa, kami menyimpulkan bahwa pengodean ad-hoc dari autoregresi bukanlah mekanisme yang tangguh, dan mengisyaratkan generalisasi serbaguna yang terbatas.

> In-context learning (ICL) memungkinkan beberapa model autoregresif menyelesaikan tugas melalui prediksi token berikutnya tanpa memerlukan pelatihan tambahan. Hal ini memunculkan klaim tentang kemampuan model-model ini untuk menyelesaikan (mempelajari) tugas yang belum pernah dilihat hanya dengan beberapa shot (contoh) dalam prompt. Namun, deduksi tidak selalu berarti pembelajaran, karena ICL tidak secara eksplisit mengodekan observasi yang diberikan. Sebaliknya, model bergantung pada pengetahuan sebelumnya dan contoh yang diberikan, jika ada. Kami berargumen bahwa, secara matematis, ICL memang merupakan pembelajaran, tetapi karakterisasi penuhnya memerlukan kerja empiris. Kami kemudian melakukan analisis ICL berskala besar dengan menghilangkan atau memperhitungkan memorisasi, pretraining, pergeseran distribusi, serta gaya dan frasa prompting. Kami menemukan bahwa ICL adalah paradigma pembelajaran yang efektif, tetapi terbatas dalam kemampuannya untuk belajar dan melakukan generalisasi pada tugas yang belum pernah dilihat. Kami mencatat bahwa, pada kondisi ketika contoh menjadi lebih banyak, akurasi tidak sensitif terhadap distribusi contoh, model, gaya prompt, dan fitur linguistik input. Sebaliknya, model menyimpulkan pola dari keteraturan dalam prompt, yang menyebabkan sensitivitas distribusional, terutama pada gaya prompting seperti chain-of-thought. Mengingat beragamnya akurasi pada tugas-tugas yang secara formal serupa, kami menyimpulkan bahwa pengodean ad-hoc dari autoregresi bukanlah mekanisme yang tangguh, dan menunjukkan generalisasi serbaguna yang terbatas.

Tautan paper

https://arxiv.org/abs/2509.10414


DeepDive: Memajukan Agen Pencarian Mendalam dengan Knowledge Graph dan RL Multi-Turn / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

Pengenalan paper

DeepDive mengusulkan pendekatan inovatif yang memanfaatkan knowledge graph (KG) dan reinforcement learning multi-turn (RL) untuk mengembangkan large language model (LLM) menjadi agen pencarian mendalam. LLM yang ada saat ini memiliki keterbatasan dalam kemampuan penalaran jangka panjang saat diintegrasikan dengan alat browsing, dan juga kekurangan data supervisi yang memadai untuk menyelesaikan pertanyaan kompleks, sehingga performanya masih rendah. Untuk mengatasi masalah ini, DeepDive memperkenalkan dua teknik utama.

Pertama, DeepDive mengembangkan metode untuk secara otomatis menyintesis pertanyaan yang kompleks dan sulit ditemukan dengan memanfaatkan KG. KG merepresentasikan entitas dan relasinya secara terstruktur, sehingga menyediakan lingkungan bagi agen untuk melakukan penalaran jangka panjang. Dalam proses ini, kompleksitas dan ambiguitas pertanyaan ditingkatkan melalui random walk, lalu LLM digunakan untuk menghasilkan pasangan pertanyaan dan jawaban yang menantang. Sintesis data otomatis ini menyediakan data berkualitas tinggi yang dibutuhkan untuk melatih agen pencarian mendalam.

Kedua, DeepDive menerapkan RL multi-turn end-to-end untuk meningkatkan kemampuan penalaran jangka panjang LLM. Metode ini mencakup struktur reward yang ketat untuk membantu agen belajar langkah demi langkah tentang cara mencari, apa yang harus dicari, dan kapan pencarian harus dihentikan. RL multi-turn mendukung agen agar dapat mencapai jawaban akhir melalui penalaran berulang dan pemanggilan tool, yang secara signifikan meningkatkan kemampuan pencarian mendalam.

Hasil eksperimen DeepDive mencapai hasil kompetitif open source baru di BrowseComp dan menunjukkan performa yang melampaui berbagai model sebelumnya. Riset ini memberikan kontribusi penting dalam meningkatkan performa agen pencarian mendalam, sekaligus meningkatkan reproduksibilitas penelitian melalui dataset dan kode yang dibuka untuk publik, serta menyediakan landasan bagi riset lanjutan. DeepDive menghadirkan pendekatan baru untuk menyelesaikan masalah pencarian informasi yang kompleks dan turut memperluas potensi pemanfaatan LLM.

Abstrak paper (Abstract)

Menambahkan alat browsing ke large language model (LLM) secara signifikan meningkatkan potensinya sebagai agen pencarian mendalam untuk menyelesaikan tugas dunia nyata yang kompleks. Namun, open LLM masih berkinerja buruk dalam lingkungan seperti ini karena keterbatasan kemampuan penalaran horizon panjang saat menggunakan alat browsing serta kurangnya data supervisi yang cukup sulit. Untuk mengatasi tantangan ini, kami memperkenalkan DeepDive untuk memajukan agen pencarian mendalam. Pertama, kami mengusulkan strategi untuk secara otomatis menyintesis pertanyaan yang kompleks, sulit, dan susah ditemukan dari knowledge graph terbuka. Kedua, kami menerapkan reinforcement learning (RL) multi-turn end-to-end untuk memperkuat penalaran horizon panjang LLM melalui pencarian mendalam. Hasil eksperimen menunjukkan bahwa DeepDive-32B mencapai hasil kompetitif open source baru di BrowseComp, mengungguli WebSailor, DeepSeek-R1-Browse, dan Search-o1. Kami menunjukkan bahwa pelatihan RL multi-turn meningkatkan kemampuan pencarian mendalam dan berkontribusi besar terhadap peningkatan performa di berbagai benchmark. Kami juga mengamati bahwa DeepDive memungkinkan penskalaan test-time untuk pemanggilan tool dan parallel sampling. Semua dataset, model, dan kode tersedia secara publik di https://github.com/THUDM/DeepDive.

> Menambahkan alat browsing ke large language models (LLM) secara substansial meningkatkan potensi mereka sebagai agen pencarian mendalam untuk menyelesaikan tugas dunia nyata yang kompleks. Namun, open LLM masih berkinerja buruk dalam pengaturan seperti ini karena terbatasnya kapasitas penalaran horizon panjang dengan alat browsing dan kurangnya data supervisi yang cukup sulit. Untuk mengatasi tantangan ini, kami memperkenalkan DeepDive untuk memajukan agen pencarian mendalam. Pertama, kami mengusulkan strategi untuk secara otomatis menyintesis pertanyaan yang kompleks, sulit, dan susah ditemukan dari knowledge graph terbuka. Kedua, kami menerapkan reinforcement learning (RL) multi-turn end-to-end untuk meningkatkan penalaran horizon panjang LLM dengan pencarian mendalam. Eksperimen menunjukkan bahwa DeepDive-32B mencapai hasil kompetitif open-source baru di BrowseComp, mengungguli WebSailor, DeepSeek-R1-Browse, dan Search-o1. Kami menunjukkan bahwa pelatihan RL multi-turn meningkatkan kemampuan pencarian mendalam dan berkontribusi signifikan terhadap peningkatan performa di berbagai benchmark. Kami mengamati bahwa DeepDive memungkinkan test-time scaling untuk pemanggilan tool dan parallel sampling. Semua dataset, model, dan kode tersedia secara publik di https://github.com/THUDM/DeepDive.

Tautan paper

https://arxiv.org/abs/2509.10446

Baca lebih lanjut

https://github.com/THUDM/DeepDive


Survei tentang Video Temporal Grounding dengan Memanfaatkan Multimodal Large Language Model / A Survey on Video Temporal Grounding with Multimodal Large Language Model

Pengenalan paper

Bidang Video Temporal Grounding (VTG) memainkan peran penting dalam mengidentifikasi dan memahami kejadian temporal tertentu di dalam video, dan performanya belakangan ini meningkat pesat berkat perkembangan multimodal large language models (MLLMs). Dengan kemampuan pemahaman dan penalaran multimodal yang unggul, MLLMs menunjukkan hasil yang melampaui metode fine-tuning tradisional dalam pendekatan VTG. Studi ini secara sistematis menganalisis tren riset terkini di bidang ini melalui tinjauan komprehensif terhadap VTG-MLLMs, dan menjelaskannya dalam tiga dimensi: peran fungsional MLLMs, paradigma pembelajaran, dan teknik pemrosesan fitur video.

MLLMs menjalankan dua peran utama dalam VTG. Pertama, sebagai fasilitator yang mendukung interaksi antara video dan bahasa, dan kedua, sebagai eksekutor yang berfungsi sebagai model untuk menjalankan tugas VTG secara langsung. Melalui peran-peran ini, berbagai model memaksimalkan performa pada tugas VTG. Paradigma pembelajaran dibagi menjadi pretraining, fine-tuning, dan tanpa pelatihan, dan masing-masing paradigma memiliki dampak penting terhadap performa dan kemampuan generalisasi model. Secara khusus, paradigma tanpa pelatihan menunjukkan potensi untuk memberikan performa yang efektif bahkan dengan data yang minim.

Teknik pemrosesan fitur video juga sangat memengaruhi performa VTG-MLLMs. Metodologi untuk memproses fitur visual dan temporal secara efektif sangat penting dalam menentukan representasi spasial dan temporal dari video. Selain itu, benchmark dataset dan protokol evaluasi memainkan peran penting dalam menilai performa VTG-MLLMs serta memverifikasi kemampuan generalisasi model.

Terakhir, studi ini mengidentifikasi keterbatasan VTG-MLLMs saat ini dan mengusulkan arah riset ke depan. Kurangnya keragaman dataset, kompleksitas model, dan kesulitan pemrosesan real-time masih menjadi tantangan utama yang perlu diselesaikan. Riset untuk mengatasi keterbatasan ini perlu difokuskan pada pengembangan dataset baru dan optimisasi model. Paper ini memberikan tinjauan komprehensif tentang VTG-MLLMs dan menyediakan informasi yang berguna bagi para peneliti di bidang ini.

Abstrak paper (Abstract)

Kemajuan terbaru dalam video temporal grounding (VTG) telah secara signifikan meningkatkan pemahaman video yang terperinci, terutama didorong oleh multimodal large language models (MLLMs). Dengan kemampuan pemahaman dan penalaran multimodal yang unggul, pendekatan VTG berbasis MLLMs (VTG-MLLMs) secara bertahap melampaui metode fine-tuning tradisional. Pendekatan ini tidak hanya mencapai performa yang kompetitif, tetapi juga unggul dalam generalisasi di lingkungan zero-shot, multi-task, dan multi-domain. Meskipun sudah ada banyak survei luas tentang pemahaman video-bahasa secara umum, ulasan komprehensif yang secara khusus membahas VTG-MLLMs masih langka. Untuk mengisi kesenjangan ini, survei ini meninjau secara sistematis riset terkini tentang VTG-MLLMs melalui taksonomi tiga dimensi: 1) peran fungsional MLLMs, yang menyoroti signifikansi arsitekturnya; 2) paradigma pelatihan, yang menganalisis strategi untuk penalaran temporal dan adaptasi tugas; dan 3) teknik pemrosesan fitur video, yang menentukan efektivitas representasi spatiotemporal. Kami juga membahas benchmark dataset, protokol evaluasi, dan merangkum temuan empiris. Terakhir, kami mengidentifikasi keterbatasan yang ada dan mengusulkan arah riset yang menjanjikan. Untuk sumber daya tambahan dan detail lebih lanjut, pembaca disarankan mengunjungi repositori kami di https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding.

> Kemajuan terbaru dalam video temporal grounding (VTG) telah secara signifikan meningkatkan pemahaman video yang terperinci, terutama didorong oleh multimodal large language models (MLLMs). Dengan kemampuan pemahaman dan penalaran multimodal yang unggul, pendekatan VTG berbasis MLLMs (VTG-MLLMs) secara bertahap melampaui metode fine-tuning tradisional. Pendekatan ini tidak hanya mencapai performa yang kompetitif, tetapi juga unggul dalam generalisasi di lingkungan zero-shot, multi-task, dan multi-domain. Meskipun sudah ada banyak survei luas tentang pemahaman video-language secara umum, ulasan komprehensif yang secara khusus membahas VTG-MLLMs masih langka. Untuk mengisi kesenjangan ini, survei ini meninjau secara sistematis riset terkini tentang VTG-MLLMs melalui taksonomi tiga dimensi: 1) peran fungsional MLLMs, yang menyoroti signifikansi arsitekturnya; 2) paradigma pelatihan, yang menganalisis strategi untuk penalaran temporal dan adaptasi tugas; dan 3) teknik pemrosesan fitur video, yang menentukan efektivitas representasi spatiotemporal. Kami juga membahas benchmark dataset, protokol evaluasi, dan merangkum temuan empiris. Terakhir, kami mengidentifikasi keterbatasan yang ada dan mengusulkan arah riset yang menjanjikan. Untuk sumber daya tambahan dan detail lebih lanjut, pembaca disarankan mengunjungi repositori kami di https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding.

Tautan paper

https://arxiv.org/abs/2508.10922

Baca selengkapnya

https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding


Scaling Agents via Continual Pre-training / Scaling Agents via Continual Pre-training

Pengantar paper

Large language model (LLM) telah berkembang menjadi sistem agen yang mampu melakukan penggunaan alat secara otonom dan penalaran multi-langkah untuk memecahkan masalah yang kompleks. Namun, pendekatan post-training yang berbasis foundation model serbaguna menunjukkan performa yang secara konsisten rendah pada tugas agen. Akar masalah ini adalah ketiadaan foundation model agen yang kuat, yang menimbulkan ketegangan optimisasi karena selama proses post-training model harus mempelajari beragam perilaku agen sekaligus menyesuaikannya dengan demonstrasi pakar. Untuk mengatasi hal ini, kami untuk pertama kalinya mengusulkan integrasi agentic continual pre-training (Agentic CPT) ke dalam pipeline pelatihan agen riset mendalam. Berdasarkan pendekatan ini, kami mengembangkan model agen riset mendalam bernama AgentFounder. AgentFounder-30B dievaluasi pada 10 benchmark dan mencapai performa state-of-the-art, sekaligus menunjukkan kemampuan penggunaan alat yang kuat dengan mempertahankan performa Pass@1 sebesar 39.9% pada BrowseComp-en, 43.3% pada BrowseComp-zh, dan 31.5% pada HLE.

Abstrak paper

Large language model (LLM) telah berkembang menjadi sistem agen yang mampu melakukan penggunaan alat secara otonom dan penalaran multi-langkah untuk memecahkan masalah yang kompleks. Namun, pendekatan post-training yang berbasis foundation model serbaguna menunjukkan performa yang secara konsisten rendah pada tugas agen, terutama pada implementasi open source. Kami telah mengidentifikasi akar penyebabnya: ketiadaan foundation model agen yang kuat menyebabkan ketegangan optimisasi mendasar selama proses post-training, karena model harus secara bersamaan mempelajari beragam perilaku agen sambil menyesuaikannya dengan demonstrasi pakar. Untuk mengatasi hal ini, kami untuk pertama kalinya mengusulkan integrasi agentic continual pre-training (Agentic CPT) ke dalam pipeline pelatihan agen riset mendalam guna membangun foundation model agen yang kuat. Berdasarkan pendekatan ini, kami mengembangkan model agen riset mendalam bernama AgentFounder. Kami mengevaluasi AgentFounder-30B pada 10 benchmark, dan model ini mencapai performa state-of-the-art sambil mempertahankan kemampuan penggunaan alat yang kuat, khususnya dengan mencatat Pass@1 sebesar 39.9% pada BrowseComp-en, 43.3% pada BrowseComp-zh, dan 31.5% pada HLE.

Large language models (LLMs) telah berevolusi menjadi sistem agentic yang mampu menggunakan tool secara otonom dan melakukan penalaran multi-langkah untuk pemecahan masalah yang kompleks. Namun, pendekatan post-training yang dibangun di atas foundation model serbaguna secara konsisten menunjukkan kinerja yang kurang baik pada tugas agentic, khususnya dalam implementasi open-source. Kami mengidentifikasi akar penyebabnya: ketiadaan foundation model agentic yang tangguh memaksa model selama post-training untuk secara simultan mempelajari beragam perilaku agentic sambil menyelaraskannya dengan demonstrasi pakar, sehingga menciptakan ketegangan optimisasi yang mendasar. Untuk itu, kami menjadi yang pertama mengusulkan penggabungan Agentic Continual Pre-training (Agentic CPT) ke dalam pipeline pelatihan deep research agent untuk membangun foundation model agentic yang kuat. Berdasarkan pendekatan ini, kami mengembangkan model deep research agent bernama AgentFounder. Kami mengevaluasi AgentFounder-30B kami pada 10 benchmark dan mencapai kinerja state-of-the-art sambil tetap mempertahankan kemampuan penggunaan tool yang kuat, terutama 39.9% pada BrowseComp-en, 43.3% pada BrowseComp-zh, dan 31.5% Pass@1 pada HLE.

Tautan paper

https://arxiv.org/abs/2509.13310

Baca lebih lanjut

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/


Hukum Skala untuk Model Bahasa dengan Differential Privacy / Scaling Laws for Differentially Private Language Models

Pengantar paper

Penelitian tentang hukum skala untuk pelatihan large language model (LLM) yang menerapkan Differential Privacy (DP) menandai kemajuan penting dalam bidang kecerdasan buatan (AI) modern. Tujuan utama penelitian ini adalah menetapkan hukum skala yang secara akurat memodelkan kompleksitas pelatihan DP LLM, sehingga trade-off antara komputasi, privasi, dan utilitas dapat dijelaskan dengan jelas serta konfigurasi pelatihan yang optimal dapat diusulkan. Dalam pelatihan LLM konvensional, hukum skala berperan penting dalam memprediksi peningkatan performa dan memberikan panduan untuk pemilihan hyperparameter, tetapi dinamika pelatihan DP agak berbeda sehingga hukum skalanya masih belum cukup dipahami.

Dalam penelitian ini, hukum skala untuk pelatihan DP LLM ditetapkan melalui proses fitting fungsi estimasi loss (L(M,T,\\bar{\\sigma})). Di sini, (M) menyatakan jumlah parameter model, (T) menyatakan jumlah iterasi pelatihan, dan (\\bar{\\sigma}) menyatakan rasio batch noise; fungsi ini di-fit melalui interpolasi linear. Fungsi ini, yang diimplementasikan menggunakan scipy.interpolate.RegularGridInterpolator dari Python, didefinisikan dengan mempertimbangkan parameter yang berubah secara alami dalam ruang log. Pendekatan ini membantu memahami dinamika kompleks pelatihan DP LLM dan menghasilkan keluaran yang terdefinisi dengan baik dalam cakupan pengaturan eksperimen.

Selain itu, penelitian ini melalui rumus fungsi yang telah di-fit dan detail implementasinya menunjukkan cara untuk secara tepat mencocokkan data yang mulus pada titik evaluasi sekaligus mengaproksimasi nilai di antaranya. Dengan demikian, penelitian ini menyediakan landasan penting untuk memahami hukum skala pelatihan DP LLM, dan penelitian lanjutan perlu melakukan eksperimen pada berbagai arsitektur DP LLM berdasarkan hukum skala yang diusulkan serta lebih mengembangkan model teoretisnya.

Pada akhirnya, penelitian ini akan memberikan panduan penting untuk pelatihan dan optimisasi LLM di masa depan dengan menetapkan hukum skala pelatihan large language model yang menerapkan differential privacy, sehingga kompleksitas pelatihan DP LLM dapat dipahami dengan lebih baik. Temuan ini diharapkan berkontribusi pada peningkatan kepraktisan DP LLM.

Abstrak paper

Hukum skala telah muncul sebagai komponen penting dalam pelatihan large language model (LLM) karena dapat memprediksi peningkatan performa melalui skala, serta memberikan panduan untuk pilihan hyperparameter penting yang jika tidak demikian akan mahal biayanya. LLM juga bergantung pada dataset pelatihan besar dan berkualitas tinggi, seperti yang bersumber dari data pengguna yang terkadang sensitif. Melatih model menggunakan data pengguna yang sensitif ini memerlukan perlindungan privasi yang cermat seperti differential privacy (DP). Namun, dinamika pelatihan DP sangat berbeda, dan akibatnya hukum skalanya masih belum sepenuhnya dipahami. Dalam karya ini, kami menetapkan hukum skala yang secara akurat memodelkan kerumitan pelatihan DP LLM, memberikan gambaran lengkap tentang trade-off komputasi-privasi-utilitas dan konfigurasi pelatihan optimal di banyak skenario.

Scaling laws have emerged as important components of large language model (LLM) training as they can predict performance gains through scale, and provide guidance on important hyper-parameter choices that would otherwise be expensive. LLMs also rely on large, high-quality training datasets, like those sourced from (sometimes sensitive) user data. Training models on this sensitive user data requires careful privacy protections like differential privacy (DP). However, the dynamics of DP training are significantly different, and consequently their scaling laws are not yet fully understood. In this work, we establish scaling laws that accurately model the intricacies of DP LLM training, providing a complete picture of the compute-privacy-utility tradeoffs and the optimal training configurations in many settings.

Tautan paper

https://arxiv.org/abs/2501.18914

Baca lebih lanjut

https://services.google.com/fh/files/blogs/vaultgemma_tech_report.pdf

https://huggingface.co/google/vaultgemma-1b

https://research.google/blog/…

https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…

https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…


R-Zero: LLM penalaran yang berevolusi sendiri dari data nol / R-Zero: Self-Evolving Reasoning LLM from Zero Data

Pengantar paper

Model bahasa besar (LLM) yang berevolusi sendiri menawarkan jalur yang skalabel menuju superinteligensi dengan secara otonom menghasilkan dan belajar dari pengalaman. Metode pelatihan yang ada bergantung pada kurasi dan label manusia dalam skala besar, sehingga membatasi kemajuan sistem AI. Untuk mengatasinya, diajukan R-Zero, sebuah framework yang sepenuhnya otonom, yang memulai dari LLM dasar dan menginisialisasi dua model independen bernama Challenger dan Solver. Kedua model ini dioptimalkan melalui interaksi, dan R-Zero menghasilkan kurikulum peningkatan diri yang berorientasi tujuan tanpa tugas dan label yang sudah ada, sehingga secara signifikan meningkatkan kemampuan penalaran berbagai LLM.

Abstrak Paper

Model bahasa besar (LLM) yang berevolusi sendiri menawarkan jalur yang skalabel menuju superinteligensi dengan secara otonom menghasilkan, memurnikan, dan belajar dari pengalaman mereka sendiri. Namun, metode yang ada untuk melatih model semacam ini masih sangat bergantung pada tugas dan label hasil kurasi manusia dalam jumlah besar, biasanya melalui fine-tuning atau reinforcement learning, yang menimbulkan hambatan mendasar bagi kemajuan sistem AI menuju kemampuan yang melampaui kecerdasan manusia. Untuk mengatasi keterbatasan ini, kami memperkenalkan R-Zero. R-Zero adalah framework yang sepenuhnya otonom dan menghasilkan data latihnya sendiri dari nol. Dimulai dari satu LLM dasar, R-Zero menginisialisasi dua model independen dengan peran berbeda, yaitu Challenger dan Solver. Model-model ini dioptimalkan secara terpisah dan berevolusi bersama melalui interaksi: Challenger mendapat reward karena mengusulkan tugas di dekat batas kemampuan Solver, dan Solver mendapat reward karena menyelesaikan tugas yang makin menantang dari Challenger. Proses ini menghasilkan kurikulum yang terarah dan terus meningkatkan diri tanpa tugas maupun label yang sudah ada sebelumnya. Secara empiris, R-Zero secara substansial meningkatkan kemampuan penalaran di berbagai backbone LLM; misalnya, meningkatkan Qwen3-4B-Base sebesar +6.49 pada benchmark penalaran matematika dan +7.54 pada benchmark penalaran domain umum.

Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.

Tautan Paper

https://arxiv.org/abs/2508.05004


Apakah tulisan yang dirangkum oleh 馃敟Komunitas Pengguna PyTorch Korea馃嚢馃嚪 ini bermanfaat? Jika Anda mendaftar sebagai anggota, kami akan mengirimkan artikel-artikel utama melalui email馃拰! (Default-nya Weekly, tetapi bisa diubah ke Daily.)

馃巵 Jika Anda menekan suka鉂わ笍 di bawah鈫橈笍, itu akan sangat membantu penerbitan berita~ 馃


Tulisan ini disusun berdasarkan ringkasan yang dibuat dengan model GPT, sehingga mungkin ada bagian yang dirangkum berbeda dari isi atau maksud naskah asli. Jika topiknya menarik bagi Anda, silakan lihat juga sumber aslinya! Jika saat membaca Anda menemukan bagian yang terasa janggal atau keliru, kami mohon Anda memberi tahu melalui komentar. 馃

鈿狅笍Iklan鈿狅笍: Apakah tulisan yang dirangkum oleh 馃敟Komunitas Pengguna PyTorch Korea馃嚢馃嚪 ini bermanfaat? Jika Anda mendaftar sebagai anggota, kami akan mengirimkan artikel-artikel utama melalui email馃拰! (Default-nya Weekly, tetapi bisa diubah ke Daily.)

Belum ada komentar.

Belum ada komentar.