Tongyi DeepResearch – Model MoE 30B open-source yang menyaingi OpenAI DeepResearch

(tongyi-agent.github.io)

10 poin oleh GN⁺ 2025-11-04 | Belum ada komentar. | Bagikan ke WhatsApp

Tongyi DeepResearch adalah agen web yang sepenuhnya open-source pertama yang menunjukkan performa setara dengan OpenAI DeepResearch, dengan hasil papan atas pada benchmark penjelajahan informasi yang kompleks
- Tongyi Lab adalah salah satu divisi riset dan pengembangan AI di Alibaba Group yang berfokus pada large language model (LLM), model multimodal, dan teknologi agen, serta merupakan pembuat model QWEN
Membangun pipeline pelatihan end-to-end yang mengintegrasikan Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT), dan Reinforcement Learning (RL)
Memperkuat kemampuan penalaran dan perencanaan jangka panjang melalui pembuatan QA skala besar yang sepenuhnya berbasis data sintetis dan paradigma IterResearch
Mendukung mode ReAct dan mode Heavy, sehingga dapat menangani dari penalaran sederhana hingga riset multilangkah yang kompleks, sambil memastikan performa stabil melalui reinforcement learning berbasis algoritme GRPO
Sudah diterapkan pada layanan internal dan eksternal Alibaba seperti Gaode Mate dan Tongyi FaRui, membuktikan kepraktisan dan skalabilitas agen riset AI open-source

Dari chatbot ke agen otonom

Tongyi DeepResearch adalah agen web yang sepenuhnya open-source pertama yang mencapai performa setingkat OpenAI DeepResearch
- Mencatat Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, dan xbench-DeepSearch 75
- Melampaui semua agen Deep Research komersial maupun open-source yang ada sebelumnya
Selain modelnya, juga membuka metodologi pelatihan penuh berbasis sintesis data
- Menyediakan pembuatan data otomatis dan infrastruktur reinforcement learning untuk seluruh proses, termasuk Agentic CPT, SFT, dan RL
Dengan framework ReAct, model menunjukkan kemampuan intrinsik yang kuat tanpa prompt engineering
- Dalam Heavy Mode, sistem mendemonstrasikan batas atas kemampuan perencanaan dan penalaran yang kompleks

Pra-pelatihan berkelanjutan dan post-training berbasis data sintetis

Memperkenalkan Agentic CPT untuk membangun model dasar bergaya agen
- Melalui sistem AgentFounder, dilakukan sintesis data skala besar dan flywheel data siklik
Pada tahap rekonstruksi data dan pembuatan pertanyaan, sistem mengintegrasikan dokumen, data crawling, knowledge graph, dan log pemanggilan alat
- Lalu menyusunnya ulang menjadi memori pengetahuan open-world yang berpusat pada entitas, serta menghasilkan pasangan (pertanyaan, jawaban) dalam berbagai bentuk
Melalui Action Synthesis, dihasilkan data aksi primer dan orde tinggi
- Struktur pengambilan keputusan multilangkah dimodelkan untuk memperkuat kemampuan pengambilan keputusan
Data post-training
- Membangun pipeline pembuatan QA sintetis yang sepenuhnya otomatis
  - Melalui rangkaian riset seperti WebWalker, WebSailor, dan WebShaper, sistem menghasilkan data QA berbasis graf dan dengan kontrol tingkat kesulitan
- Mewujudkan struktur informasi yang realistis melalui knowledge graph berbasis random walk dan fusi data tabel
  - Tingkat kesulitan disesuaikan secara sistematis melalui “operasi atomik” seperti penggabungan entitas
- Dengan formalisasi masalah berbasis teori himpunan, ketidaksesuaian antara struktur informasi dan struktur penalaran diminimalkan
  - Efisiensi verifikasi konsistensi QA meningkat
- Mesin data otomatis menghasilkan pertanyaan riset setingkat doktoral
  - Berangkat dari basis pengetahuan multidisipliner, lalu menghasilkan QA berkesulitan tinggi melalui loop peningkatan kompleksitas berulang
- Berbagai pola penalaran dipelajari dengan memanfaatkan framework ReAct dan IterResearch
  - IterResearch menyusun ulang ruang kerja di setiap putaran untuk memperkuat kemampuan perencanaan jangka panjang

Mode rollout

Model mendukung dua mode eksekusi: mode ReAct dan mode Heavy
Native ReAct Mode
- Mengikuti struktur siklus Thought–Action–Observation, dan menunjukkan performa unggul bahkan tanpa prompt engineering
  - Dengan panjang konteks 128K, model dapat menangani banyak putaran interaksi
- Kesederhanaan dan generalitasnya menyediakan tolok ukur yang jelas untuk mengevaluasi kemampuan intrinsik model
- Mengadopsi metodologi umum yang dapat diskalakan sesuai prinsip “The Bitter Lesson”
Heavy Mode
- Menangani tugas riset multilangkah yang kompleks berdasarkan paradigma IterResearch
  - Pada setiap putaran, hanya hasil inti yang dipertahankan sambil menyusun ulang ruang kerja baru
  - Laporan pusat terus diperbarui untuk menjaga kualitas penalaran yang tinggi
- Melalui framework Research–Synthesis, hasil dari beberapa agen riset dieksplorasi secara paralel lalu digabungkan
  - Memungkinkan jalur eksplorasi yang lebih luas dalam konteks yang terbatas

Pipeline pelatihan agen end-to-end

Membangun loop pelatihan terintegrasi penuh dari Agentic CPT → SFT → RL
Pada tahap on-policy reinforcement learning (RL), digunakan algoritme Group Relative Policy Optimization (GRPO)
- Stabilitas dijaga melalui token-level policy gradient loss, strategi leave-one-out, dan penyaringan sampel negatif
- Selama pelatihan, reward meningkat dan entropi kebijakan tetap tinggi sehingga eksplorasi terus berlangsung
Data sintetis memberikan distribusi yang lebih konsisten dibanding data beranotasi manusia seperti BrowseComp, sehingga efisiensi pelatihan meningkat
Konfigurasi infrastruktur
- Lingkungan pelatihan sintetis: membangun lingkungan simulasi menggunakan DB Wikipedia offline dan kumpulan alat kustom
- Sandbox alat yang stabil: mencegah error pemanggilan alat dengan caching, retry, dan backup API
- Kurasi data otomatis: meningkatkan stabilitas dan performa melalui sintesis dan filtrasi data real-time sesuai dinamika pelatihan
- Framework on-policy asinkron: mengimplementasikan loop RL asinkron berbasis langkah di atas rLLM
- Melalui proses ini, loop pelatihan agen AI yang berevolusi sendiri berhasil diwujudkan, sehingga pemecahan masalah yang stabil dimungkinkan bahkan di lingkungan dinamis yang kompleks

Contoh penerapan nyata

Gaode Mate (agen peta dan navigasi)
- Bekerja sama dengan tim Amap untuk mengembangkan AI copilot ‘Xiao Gao’
- Dengan penalaran multilangkah, sistem dapat menyusun rencana kompleks seperti itinerary perjalanan dan rute yang mencakup akomodasi ramah hewan peliharaan
Tongyi FaRui (agen riset hukum)
- Menjalankan riset multilangkah setingkat pengacara, termasuk pencarian preseden, peninjauan silang regulasi, dan integrasi analisis
- Semua kesimpulan didasarkan pada materi yudisial yang dapat diverifikasi dan mencakup sitasi yang akurat

Keterbatasan dan pekerjaan lanjutan

Batas konteks 128K masih membatasi penanganan tugas yang sangat panjang
Perlu verifikasi skalabilitas ke model MoE berukuran di atas 30B
Direncanakan riset partial rollout dan off-policy learning untuk meningkatkan efisiensi reinforcement learning

Seri riset

Telah dipublikasikan 11 makalah terkait seperti WebWalker, WebDancer, WebSailor, WebShaper, dan WebWatcher
Dalam 6 bulan terakhir, laporan teknis diterbitkan setiap bulan, dan kali ini 6 laporan baru dirilis bersamaan dengan model Tongyi DeepResearch‑30B‑A3B
Pengembangan model agen generasi berikutnya akan terus dilanjutkan

Tongyi DeepResearch – Model MoE 30B open-source yang menyaingi OpenAI DeepResearch

Dari chatbot ke agen otonom

Pra-pelatihan berkelanjutan dan post-training berbasis data sintetis

Data post-training

Mode rollout

Native ReAct Mode

Heavy Mode

Pipeline pelatihan agen end-to-end

Konfigurasi infrastruktur

Contoh penerapan nyata

Keterbatasan dan pekerjaan lanjutan

Seri riset

Bacaan terkait

Belum ada komentar.