Tongyi DeepResearch – Model MoE 30B open-source yang menyaingi OpenAI DeepResearch
(tongyi-agent.github.io)- Tongyi DeepResearch adalah agen web yang sepenuhnya open-source pertama yang menunjukkan performa setara dengan OpenAI DeepResearch, dengan hasil papan atas pada benchmark penjelajahan informasi yang kompleks
- Tongyi Lab adalah salah satu divisi riset dan pengembangan AI di Alibaba Group yang berfokus pada large language model (LLM), model multimodal, dan teknologi agen, serta merupakan pembuat model QWEN
- Membangun pipeline pelatihan end-to-end yang mengintegrasikan Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT), dan Reinforcement Learning (RL)
- Memperkuat kemampuan penalaran dan perencanaan jangka panjang melalui pembuatan QA skala besar yang sepenuhnya berbasis data sintetis dan paradigma IterResearch
- Mendukung mode ReAct dan mode Heavy, sehingga dapat menangani dari penalaran sederhana hingga riset multilangkah yang kompleks, sambil memastikan performa stabil melalui reinforcement learning berbasis algoritme GRPO
- Sudah diterapkan pada layanan internal dan eksternal Alibaba seperti Gaode Mate dan Tongyi FaRui, membuktikan kepraktisan dan skalabilitas agen riset AI open-source
Dari chatbot ke agen otonom
- Tongyi DeepResearch adalah agen web yang sepenuhnya open-source pertama yang mencapai performa setingkat OpenAI DeepResearch
- Mencatat Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, dan xbench-DeepSearch 75
- Melampaui semua agen Deep Research komersial maupun open-source yang ada sebelumnya
- Selain modelnya, juga membuka metodologi pelatihan penuh berbasis sintesis data
- Menyediakan pembuatan data otomatis dan infrastruktur reinforcement learning untuk seluruh proses, termasuk Agentic CPT, SFT, dan RL
- Dengan framework ReAct, model menunjukkan kemampuan intrinsik yang kuat tanpa prompt engineering
- Dalam Heavy Mode, sistem mendemonstrasikan batas atas kemampuan perencanaan dan penalaran yang kompleks
Pra-pelatihan berkelanjutan dan post-training berbasis data sintetis
- Memperkenalkan Agentic CPT untuk membangun model dasar bergaya agen
- Melalui sistem AgentFounder, dilakukan sintesis data skala besar dan flywheel data siklik
- Pada tahap rekonstruksi data dan pembuatan pertanyaan, sistem mengintegrasikan dokumen, data crawling, knowledge graph, dan log pemanggilan alat
- Lalu menyusunnya ulang menjadi memori pengetahuan open-world yang berpusat pada entitas, serta menghasilkan pasangan (pertanyaan, jawaban) dalam berbagai bentuk
- Melalui Action Synthesis, dihasilkan data aksi primer dan orde tinggi
- Struktur pengambilan keputusan multilangkah dimodelkan untuk memperkuat kemampuan pengambilan keputusan
-
Data post-training
- Membangun pipeline pembuatan QA sintetis yang sepenuhnya otomatis
- Melalui rangkaian riset seperti WebWalker, WebSailor, dan WebShaper, sistem menghasilkan data QA berbasis graf dan dengan kontrol tingkat kesulitan
- Mewujudkan struktur informasi yang realistis melalui knowledge graph berbasis random walk dan fusi data tabel
- Tingkat kesulitan disesuaikan secara sistematis melalui “operasi atomik” seperti penggabungan entitas
- Dengan formalisasi masalah berbasis teori himpunan, ketidaksesuaian antara struktur informasi dan struktur penalaran diminimalkan
- Efisiensi verifikasi konsistensi QA meningkat
- Mesin data otomatis menghasilkan pertanyaan riset setingkat doktoral
- Berangkat dari basis pengetahuan multidisipliner, lalu menghasilkan QA berkesulitan tinggi melalui loop peningkatan kompleksitas berulang
- Berbagai pola penalaran dipelajari dengan memanfaatkan framework ReAct dan IterResearch
- IterResearch menyusun ulang ruang kerja di setiap putaran untuk memperkuat kemampuan perencanaan jangka panjang
- Membangun pipeline pembuatan QA sintetis yang sepenuhnya otomatis
Mode rollout
- Model mendukung dua mode eksekusi: mode ReAct dan mode Heavy
-
Native ReAct Mode
- Mengikuti struktur siklus Thought–Action–Observation, dan menunjukkan performa unggul bahkan tanpa prompt engineering
- Dengan panjang konteks 128K, model dapat menangani banyak putaran interaksi
- Kesederhanaan dan generalitasnya menyediakan tolok ukur yang jelas untuk mengevaluasi kemampuan intrinsik model
- Mengadopsi metodologi umum yang dapat diskalakan sesuai prinsip “The Bitter Lesson”
- Mengikuti struktur siklus Thought–Action–Observation, dan menunjukkan performa unggul bahkan tanpa prompt engineering
-
Heavy Mode
- Menangani tugas riset multilangkah yang kompleks berdasarkan paradigma IterResearch
- Pada setiap putaran, hanya hasil inti yang dipertahankan sambil menyusun ulang ruang kerja baru
- Laporan pusat terus diperbarui untuk menjaga kualitas penalaran yang tinggi
- Melalui framework Research–Synthesis, hasil dari beberapa agen riset dieksplorasi secara paralel lalu digabungkan
- Memungkinkan jalur eksplorasi yang lebih luas dalam konteks yang terbatas
- Menangani tugas riset multilangkah yang kompleks berdasarkan paradigma IterResearch
Pipeline pelatihan agen end-to-end
- Membangun loop pelatihan terintegrasi penuh dari Agentic CPT → SFT → RL
- Pada tahap on-policy reinforcement learning (RL), digunakan algoritme Group Relative Policy Optimization (GRPO)
- Stabilitas dijaga melalui token-level policy gradient loss, strategi leave-one-out, dan penyaringan sampel negatif
- Selama pelatihan, reward meningkat dan entropi kebijakan tetap tinggi sehingga eksplorasi terus berlangsung
- Data sintetis memberikan distribusi yang lebih konsisten dibanding data beranotasi manusia seperti BrowseComp, sehingga efisiensi pelatihan meningkat
-
Konfigurasi infrastruktur
- Lingkungan pelatihan sintetis: membangun lingkungan simulasi menggunakan DB Wikipedia offline dan kumpulan alat kustom
- Sandbox alat yang stabil: mencegah error pemanggilan alat dengan caching, retry, dan backup API
- Kurasi data otomatis: meningkatkan stabilitas dan performa melalui sintesis dan filtrasi data real-time sesuai dinamika pelatihan
- Framework on-policy asinkron: mengimplementasikan loop RL asinkron berbasis langkah di atas rLLM
- Melalui proses ini, loop pelatihan agen AI yang berevolusi sendiri berhasil diwujudkan, sehingga pemecahan masalah yang stabil dimungkinkan bahkan di lingkungan dinamis yang kompleks
Contoh penerapan nyata
- Gaode Mate (agen peta dan navigasi)
- Bekerja sama dengan tim Amap untuk mengembangkan AI copilot ‘Xiao Gao’
- Dengan penalaran multilangkah, sistem dapat menyusun rencana kompleks seperti itinerary perjalanan dan rute yang mencakup akomodasi ramah hewan peliharaan
- Tongyi FaRui (agen riset hukum)
- Menjalankan riset multilangkah setingkat pengacara, termasuk pencarian preseden, peninjauan silang regulasi, dan integrasi analisis
- Semua kesimpulan didasarkan pada materi yudisial yang dapat diverifikasi dan mencakup sitasi yang akurat
Keterbatasan dan pekerjaan lanjutan
- Batas konteks 128K masih membatasi penanganan tugas yang sangat panjang
- Perlu verifikasi skalabilitas ke model MoE berukuran di atas 30B
- Direncanakan riset partial rollout dan off-policy learning untuk meningkatkan efisiensi reinforcement learning
Seri riset
- Telah dipublikasikan 11 makalah terkait seperti WebWalker, WebDancer, WebSailor, WebShaper, dan WebWatcher
- Dalam 6 bulan terakhir, laporan teknis diterbitkan setiap bulan, dan kali ini 6 laporan baru dirilis bersamaan dengan model Tongyi DeepResearch‑30B‑A3B
- Pengembangan model agen generasi berikutnya akan terus dilanjutkan
1 komentar
Komentar Hacker News
Menjalankan beberapa agen secara paralel dengan model ringan untuk penelusuran dan ekstraksi, lalu model 30B untuk perencanaan, routing alat, dan verifikasi terasa efisien
Struktur spesialisasi pada MoE cocok untuk AI agen terdistribusi, tetapi tetap membutuhkan orkestrasi untuk retry, konsensus, dan evaluasi riset web bertahap
Jika model besar menjadi terlalu besar dan prapelatihan mulai mencapai batasnya, model yang dibuat untuk tujuan tertentu mungkin akan makin banyak
Melihat GPT‑3.5 dulu kuat di catur tetapi model terbaru tidak begitu, rasanya memang ada trade-off pada data pelatihan
Fine-tuning model kecil untuk tugas tertentu biayanya mahal, dan laju perkembangan model besar terlalu cepat sehingga cepat tertinggal
Namun jika laju kemajuannya melambat, pelatihan model kecil akan kembali punya makna
Sudah lama terpikir akan menarik kalau ada model 4B~8B yang benar-benar paham framework tertentu seperti SvelteKit
Sulit mengatakan kualitas model besar selalu lebih baik, dan jika model kecil bisa berjalan di satu GPU saja, itu terasa jauh lebih praktis
Dulu saya pernah mengusulkan ide situs web pembanding LLM catur kepada kakak saya, tetapi belum sempat dibuat
Saat dicoba langsung, jumlah halusinasi langkah sangat banyak
Keunggulannya adalah bagian yang diperlukan bisa dilatih dan ditingkatkan secara terpisah
Dalam pengalaman saya, hasilnya belum melampaui ringkasan mesin pencari dan hanya menghasilkan laporan yang hambar
Memang belum setara pengacara, tetapi sangat membantu untuk proyek dengan anggaran terbatas
Rasanya lebih seperti laporan konsultasi yang dibuat agar “terlihat berkualitas” daripada sesuatu yang benar-benar berguna bagi orang yang ingin belajar, jadi nilai praktisnya rendah
Untuk pertanyaan seperti “apakah topik ini sudah pernah diteliti?”, alat ini membantu menemukan contoh rujukan
Memang belum sepenuhnya menggantikan riset langsung, tetapi sangat membantu untuk penataan informasi awal
Qwen3 4B sangat mengesankan karena berjalan baik bahkan di GPU terintegrasi Intel saya
Dulu saya pernah memikirkan ide “model supermurah untuk deteksi konten berbahaya”, dan LLM kecil seperti ini tampaknya bisa mengisi peran itu
Sepertinya juga bisa dipakai untuk routing
Hanya saja, properti CSS
word-break: break-word;membuatnya sangat sulit dibacaSaya ingin mencoba menjalankannya, walau lambat, di 2080Ti dengan 128GB VRAM(?)
Menurut saya justru keterbatasannya yang membuatnya menyenangkan
Versi 32GB bisa didapat di AliExpress sekitar 150~250 dolar, dan jika memasang beberapa kartu, konfigurasi 128GB VRAM memungkinkan
Memang tidak secepat GPU terbaru, tetapi tetap cukup layak dipakai
Bisa diinstal dari ollama.com
Tapi kalau 2080Ti punya 128GB VRAM, saya jadi penasaran bagaimana caranya
Memang lambat, tetapi berjalan baik secara offline dan bahkan bisa dipakai di kedai kopi
Karena saya memakai Ollama, saya harus menunggu sampai model terbaru di-porting
Ryzen 9 9950X, RAM 96GB, dua RTX 3090, PSU 1600W
Model 30B terkuantisasi FP8 bisa dijalankan dengan cukup lancar
Model ini memang 30B MoE, tetapi parameter aktifnya hanya sekitar 3B sehingga mirip Qwen3 MoE
Saya menjalankan model terkuantisasi 4bit dengan i5‑6600 berusia 11 tahun dan Radeon 6600 (8GB), dan di konteks 16k saya mendapat sekitar 12tps
Juga membagikan contoh skrip eksekusi
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
Pelafalannya memang sama dengan “同意(setuju)”, tetapi maknanya berbeda
Lihat halaman resmi Alibaba Qwen
Hasilnya bisa berbeda tergantung apakah memakai GPT‑5, GPT‑4o, o3, atau model lain
Ini adalah tugas berbasis pencarian yang berjalan lama, mengumpulkan materi selama 5~10 menit lalu menghasilkan laporan dengan sitasi
Model Tongyi dioptimalkan untuk loop pencarian dan penulisan laporan seperti ini