10 poin oleh GN⁺ 2025-11-04 | Belum ada komentar. | Bagikan ke WhatsApp
  • Tongyi DeepResearch adalah agen web yang sepenuhnya open-source pertama yang menunjukkan performa setara dengan OpenAI DeepResearch, dengan hasil papan atas pada benchmark penjelajahan informasi yang kompleks
    • Tongyi Lab adalah salah satu divisi riset dan pengembangan AI di Alibaba Group yang berfokus pada large language model (LLM), model multimodal, dan teknologi agen, serta merupakan pembuat model QWEN
  • Membangun pipeline pelatihan end-to-end yang mengintegrasikan Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT), dan Reinforcement Learning (RL)
  • Memperkuat kemampuan penalaran dan perencanaan jangka panjang melalui pembuatan QA skala besar yang sepenuhnya berbasis data sintetis dan paradigma IterResearch
  • Mendukung mode ReAct dan mode Heavy, sehingga dapat menangani dari penalaran sederhana hingga riset multilangkah yang kompleks, sambil memastikan performa stabil melalui reinforcement learning berbasis algoritme GRPO
  • Sudah diterapkan pada layanan internal dan eksternal Alibaba seperti Gaode Mate dan Tongyi FaRui, membuktikan kepraktisan dan skalabilitas agen riset AI open-source

Dari chatbot ke agen otonom

  • Tongyi DeepResearch adalah agen web yang sepenuhnya open-source pertama yang mencapai performa setingkat OpenAI DeepResearch
    • Mencatat Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, dan xbench-DeepSearch 75
    • Melampaui semua agen Deep Research komersial maupun open-source yang ada sebelumnya
  • Selain modelnya, juga membuka metodologi pelatihan penuh berbasis sintesis data
    • Menyediakan pembuatan data otomatis dan infrastruktur reinforcement learning untuk seluruh proses, termasuk Agentic CPT, SFT, dan RL
  • Dengan framework ReAct, model menunjukkan kemampuan intrinsik yang kuat tanpa prompt engineering
    • Dalam Heavy Mode, sistem mendemonstrasikan batas atas kemampuan perencanaan dan penalaran yang kompleks

Pra-pelatihan berkelanjutan dan post-training berbasis data sintetis

  • Memperkenalkan Agentic CPT untuk membangun model dasar bergaya agen
    • Melalui sistem AgentFounder, dilakukan sintesis data skala besar dan flywheel data siklik
  • Pada tahap rekonstruksi data dan pembuatan pertanyaan, sistem mengintegrasikan dokumen, data crawling, knowledge graph, dan log pemanggilan alat
    • Lalu menyusunnya ulang menjadi memori pengetahuan open-world yang berpusat pada entitas, serta menghasilkan pasangan (pertanyaan, jawaban) dalam berbagai bentuk
  • Melalui Action Synthesis, dihasilkan data aksi primer dan orde tinggi
    • Struktur pengambilan keputusan multilangkah dimodelkan untuk memperkuat kemampuan pengambilan keputusan
  • Data post-training

    • Membangun pipeline pembuatan QA sintetis yang sepenuhnya otomatis
      • Melalui rangkaian riset seperti WebWalker, WebSailor, dan WebShaper, sistem menghasilkan data QA berbasis graf dan dengan kontrol tingkat kesulitan
    • Mewujudkan struktur informasi yang realistis melalui knowledge graph berbasis random walk dan fusi data tabel
      • Tingkat kesulitan disesuaikan secara sistematis melalui “operasi atomik” seperti penggabungan entitas
    • Dengan formalisasi masalah berbasis teori himpunan, ketidaksesuaian antara struktur informasi dan struktur penalaran diminimalkan
      • Efisiensi verifikasi konsistensi QA meningkat
    • Mesin data otomatis menghasilkan pertanyaan riset setingkat doktoral
      • Berangkat dari basis pengetahuan multidisipliner, lalu menghasilkan QA berkesulitan tinggi melalui loop peningkatan kompleksitas berulang
    • Berbagai pola penalaran dipelajari dengan memanfaatkan framework ReAct dan IterResearch
      • IterResearch menyusun ulang ruang kerja di setiap putaran untuk memperkuat kemampuan perencanaan jangka panjang

Mode rollout

  • Model mendukung dua mode eksekusi: mode ReAct dan mode Heavy
  • Native ReAct Mode

    • Mengikuti struktur siklus Thought–Action–Observation, dan menunjukkan performa unggul bahkan tanpa prompt engineering
      • Dengan panjang konteks 128K, model dapat menangani banyak putaran interaksi
    • Kesederhanaan dan generalitasnya menyediakan tolok ukur yang jelas untuk mengevaluasi kemampuan intrinsik model
    • Mengadopsi metodologi umum yang dapat diskalakan sesuai prinsip “The Bitter Lesson”
  • Heavy Mode

    • Menangani tugas riset multilangkah yang kompleks berdasarkan paradigma IterResearch
      • Pada setiap putaran, hanya hasil inti yang dipertahankan sambil menyusun ulang ruang kerja baru
      • Laporan pusat terus diperbarui untuk menjaga kualitas penalaran yang tinggi
    • Melalui framework Research–Synthesis, hasil dari beberapa agen riset dieksplorasi secara paralel lalu digabungkan
      • Memungkinkan jalur eksplorasi yang lebih luas dalam konteks yang terbatas

Pipeline pelatihan agen end-to-end

  • Membangun loop pelatihan terintegrasi penuh dari Agentic CPT → SFT → RL
  • Pada tahap on-policy reinforcement learning (RL), digunakan algoritme Group Relative Policy Optimization (GRPO)
    • Stabilitas dijaga melalui token-level policy gradient loss, strategi leave-one-out, dan penyaringan sampel negatif
    • Selama pelatihan, reward meningkat dan entropi kebijakan tetap tinggi sehingga eksplorasi terus berlangsung
  • Data sintetis memberikan distribusi yang lebih konsisten dibanding data beranotasi manusia seperti BrowseComp, sehingga efisiensi pelatihan meningkat
  • Konfigurasi infrastruktur

    • Lingkungan pelatihan sintetis: membangun lingkungan simulasi menggunakan DB Wikipedia offline dan kumpulan alat kustom
    • Sandbox alat yang stabil: mencegah error pemanggilan alat dengan caching, retry, dan backup API
    • Kurasi data otomatis: meningkatkan stabilitas dan performa melalui sintesis dan filtrasi data real-time sesuai dinamika pelatihan
    • Framework on-policy asinkron: mengimplementasikan loop RL asinkron berbasis langkah di atas rLLM
    • Melalui proses ini, loop pelatihan agen AI yang berevolusi sendiri berhasil diwujudkan, sehingga pemecahan masalah yang stabil dimungkinkan bahkan di lingkungan dinamis yang kompleks

Contoh penerapan nyata

  • Gaode Mate (agen peta dan navigasi)
    • Bekerja sama dengan tim Amap untuk mengembangkan AI copilot ‘Xiao Gao’
    • Dengan penalaran multilangkah, sistem dapat menyusun rencana kompleks seperti itinerary perjalanan dan rute yang mencakup akomodasi ramah hewan peliharaan
  • Tongyi FaRui (agen riset hukum)
    • Menjalankan riset multilangkah setingkat pengacara, termasuk pencarian preseden, peninjauan silang regulasi, dan integrasi analisis
    • Semua kesimpulan didasarkan pada materi yudisial yang dapat diverifikasi dan mencakup sitasi yang akurat

Keterbatasan dan pekerjaan lanjutan

  • Batas konteks 128K masih membatasi penanganan tugas yang sangat panjang
  • Perlu verifikasi skalabilitas ke model MoE berukuran di atas 30B
  • Direncanakan riset partial rollout dan off-policy learning untuk meningkatkan efisiensi reinforcement learning

Seri riset

  • Telah dipublikasikan 11 makalah terkait seperti WebWalker, WebDancer, WebSailor, WebShaper, dan WebWatcher
  • Dalam 6 bulan terakhir, laporan teknis diterbitkan setiap bulan, dan kali ini 6 laporan baru dirilis bersamaan dengan model Tongyi DeepResearch‑30B‑A3B
  • Pengembangan model agen generasi berikutnya akan terus dilanjutkan

Belum ada komentar.

Belum ada komentar.