- Tongyi DeepResearch adalah agen web yang sepenuhnya open-source pertama yang menunjukkan performa setara dengan OpenAI DeepResearch, dengan hasil papan atas pada benchmark penjelajahan informasi yang kompleks
- Tongyi Lab adalah salah satu divisi riset dan pengembangan AI di Alibaba Group yang berfokus pada large language model (LLM), model multimodal, dan teknologi agen, serta merupakan pembuat model QWEN
- Membangun pipeline pelatihan end-to-end yang mengintegrasikan Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT), dan Reinforcement Learning (RL)
- Memperkuat kemampuan penalaran dan perencanaan jangka panjang melalui pembuatan QA skala besar yang sepenuhnya berbasis data sintetis dan paradigma IterResearch
- Mendukung mode ReAct dan mode Heavy, sehingga dapat menangani dari penalaran sederhana hingga riset multilangkah yang kompleks, sambil memastikan performa stabil melalui reinforcement learning berbasis algoritme GRPO
- Sudah diterapkan pada layanan internal dan eksternal Alibaba seperti Gaode Mate dan Tongyi FaRui, membuktikan kepraktisan dan skalabilitas agen riset AI open-source
Dari chatbot ke agen otonom
- Tongyi DeepResearch adalah agen web yang sepenuhnya open-source pertama yang mencapai performa setingkat OpenAI DeepResearch
- Mencatat Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, dan xbench-DeepSearch 75
- Melampaui semua agen Deep Research komersial maupun open-source yang ada sebelumnya
- Selain modelnya, juga membuka metodologi pelatihan penuh berbasis sintesis data
- Menyediakan pembuatan data otomatis dan infrastruktur reinforcement learning untuk seluruh proses, termasuk Agentic CPT, SFT, dan RL
- Dengan framework ReAct, model menunjukkan kemampuan intrinsik yang kuat tanpa prompt engineering
- Dalam Heavy Mode, sistem mendemonstrasikan batas atas kemampuan perencanaan dan penalaran yang kompleks
Pra-pelatihan berkelanjutan dan post-training berbasis data sintetis
- Memperkenalkan Agentic CPT untuk membangun model dasar bergaya agen
- Melalui sistem AgentFounder, dilakukan sintesis data skala besar dan flywheel data siklik
- Pada tahap rekonstruksi data dan pembuatan pertanyaan, sistem mengintegrasikan dokumen, data crawling, knowledge graph, dan log pemanggilan alat
- Lalu menyusunnya ulang menjadi memori pengetahuan open-world yang berpusat pada entitas, serta menghasilkan pasangan (pertanyaan, jawaban) dalam berbagai bentuk
- Melalui Action Synthesis, dihasilkan data aksi primer dan orde tinggi
- Struktur pengambilan keputusan multilangkah dimodelkan untuk memperkuat kemampuan pengambilan keputusan
-
Data post-training
- Membangun pipeline pembuatan QA sintetis yang sepenuhnya otomatis
- Melalui rangkaian riset seperti WebWalker, WebSailor, dan WebShaper, sistem menghasilkan data QA berbasis graf dan dengan kontrol tingkat kesulitan
- Mewujudkan struktur informasi yang realistis melalui knowledge graph berbasis random walk dan fusi data tabel
- Tingkat kesulitan disesuaikan secara sistematis melalui “operasi atomik” seperti penggabungan entitas
- Dengan formalisasi masalah berbasis teori himpunan, ketidaksesuaian antara struktur informasi dan struktur penalaran diminimalkan
- Efisiensi verifikasi konsistensi QA meningkat
- Mesin data otomatis menghasilkan pertanyaan riset setingkat doktoral
- Berangkat dari basis pengetahuan multidisipliner, lalu menghasilkan QA berkesulitan tinggi melalui loop peningkatan kompleksitas berulang
- Berbagai pola penalaran dipelajari dengan memanfaatkan framework ReAct dan IterResearch
- IterResearch menyusun ulang ruang kerja di setiap putaran untuk memperkuat kemampuan perencanaan jangka panjang
Mode rollout
- Model mendukung dua mode eksekusi: mode ReAct dan mode Heavy
-
Native ReAct Mode
- Mengikuti struktur siklus Thought–Action–Observation, dan menunjukkan performa unggul bahkan tanpa prompt engineering
- Dengan panjang konteks 128K, model dapat menangani banyak putaran interaksi
- Kesederhanaan dan generalitasnya menyediakan tolok ukur yang jelas untuk mengevaluasi kemampuan intrinsik model
- Mengadopsi metodologi umum yang dapat diskalakan sesuai prinsip “The Bitter Lesson”
-
Heavy Mode
- Menangani tugas riset multilangkah yang kompleks berdasarkan paradigma IterResearch
- Pada setiap putaran, hanya hasil inti yang dipertahankan sambil menyusun ulang ruang kerja baru
- Laporan pusat terus diperbarui untuk menjaga kualitas penalaran yang tinggi
- Melalui framework Research–Synthesis, hasil dari beberapa agen riset dieksplorasi secara paralel lalu digabungkan
- Memungkinkan jalur eksplorasi yang lebih luas dalam konteks yang terbatas
Pipeline pelatihan agen end-to-end
- Membangun loop pelatihan terintegrasi penuh dari Agentic CPT → SFT → RL
- Pada tahap on-policy reinforcement learning (RL), digunakan algoritme Group Relative Policy Optimization (GRPO)
- Stabilitas dijaga melalui token-level policy gradient loss, strategi leave-one-out, dan penyaringan sampel negatif
- Selama pelatihan, reward meningkat dan entropi kebijakan tetap tinggi sehingga eksplorasi terus berlangsung
- Data sintetis memberikan distribusi yang lebih konsisten dibanding data beranotasi manusia seperti BrowseComp, sehingga efisiensi pelatihan meningkat
-
Konfigurasi infrastruktur
- Lingkungan pelatihan sintetis: membangun lingkungan simulasi menggunakan DB Wikipedia offline dan kumpulan alat kustom
- Sandbox alat yang stabil: mencegah error pemanggilan alat dengan caching, retry, dan backup API
- Kurasi data otomatis: meningkatkan stabilitas dan performa melalui sintesis dan filtrasi data real-time sesuai dinamika pelatihan
- Framework on-policy asinkron: mengimplementasikan loop RL asinkron berbasis langkah di atas rLLM
- Melalui proses ini, loop pelatihan agen AI yang berevolusi sendiri berhasil diwujudkan, sehingga pemecahan masalah yang stabil dimungkinkan bahkan di lingkungan dinamis yang kompleks
Contoh penerapan nyata
- Gaode Mate (agen peta dan navigasi)
- Bekerja sama dengan tim Amap untuk mengembangkan AI copilot ‘Xiao Gao’
- Dengan penalaran multilangkah, sistem dapat menyusun rencana kompleks seperti itinerary perjalanan dan rute yang mencakup akomodasi ramah hewan peliharaan
- Tongyi FaRui (agen riset hukum)
- Menjalankan riset multilangkah setingkat pengacara, termasuk pencarian preseden, peninjauan silang regulasi, dan integrasi analisis
- Semua kesimpulan didasarkan pada materi yudisial yang dapat diverifikasi dan mencakup sitasi yang akurat
Keterbatasan dan pekerjaan lanjutan
- Batas konteks 128K masih membatasi penanganan tugas yang sangat panjang
- Perlu verifikasi skalabilitas ke model MoE berukuran di atas 30B
- Direncanakan riset partial rollout dan off-policy learning untuk meningkatkan efisiensi reinforcement learning
Seri riset
- Telah dipublikasikan 11 makalah terkait seperti WebWalker, WebDancer, WebSailor, WebShaper, dan WebWatcher
- Dalam 6 bulan terakhir, laporan teknis diterbitkan setiap bulan, dan kali ini 6 laporan baru dirilis bersamaan dengan model Tongyi DeepResearch‑30B‑A3B
- Pengembangan model agen generasi berikutnya akan terus dilanjutkan
Belum ada komentar.