10 poin oleh GN⁺ 2025-11-04 | 1 komentar | Bagikan ke WhatsApp
  • Tongyi DeepResearch adalah agen web yang sepenuhnya open-source pertama yang menunjukkan performa setara dengan OpenAI DeepResearch, dengan hasil papan atas pada benchmark penjelajahan informasi yang kompleks
    • Tongyi Lab adalah salah satu divisi riset dan pengembangan AI di Alibaba Group yang berfokus pada large language model (LLM), model multimodal, dan teknologi agen, serta merupakan pembuat model QWEN
  • Membangun pipeline pelatihan end-to-end yang mengintegrasikan Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT), dan Reinforcement Learning (RL)
  • Memperkuat kemampuan penalaran dan perencanaan jangka panjang melalui pembuatan QA skala besar yang sepenuhnya berbasis data sintetis dan paradigma IterResearch
  • Mendukung mode ReAct dan mode Heavy, sehingga dapat menangani dari penalaran sederhana hingga riset multilangkah yang kompleks, sambil memastikan performa stabil melalui reinforcement learning berbasis algoritme GRPO
  • Sudah diterapkan pada layanan internal dan eksternal Alibaba seperti Gaode Mate dan Tongyi FaRui, membuktikan kepraktisan dan skalabilitas agen riset AI open-source

Dari chatbot ke agen otonom

  • Tongyi DeepResearch adalah agen web yang sepenuhnya open-source pertama yang mencapai performa setingkat OpenAI DeepResearch
    • Mencatat Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, dan xbench-DeepSearch 75
    • Melampaui semua agen Deep Research komersial maupun open-source yang ada sebelumnya
  • Selain modelnya, juga membuka metodologi pelatihan penuh berbasis sintesis data
    • Menyediakan pembuatan data otomatis dan infrastruktur reinforcement learning untuk seluruh proses, termasuk Agentic CPT, SFT, dan RL
  • Dengan framework ReAct, model menunjukkan kemampuan intrinsik yang kuat tanpa prompt engineering
    • Dalam Heavy Mode, sistem mendemonstrasikan batas atas kemampuan perencanaan dan penalaran yang kompleks
Iklan

Pra-pelatihan berkelanjutan dan post-training berbasis data sintetis

  • Memperkenalkan Agentic CPT untuk membangun model dasar bergaya agen
    • Melalui sistem AgentFounder, dilakukan sintesis data skala besar dan flywheel data siklik
  • Pada tahap rekonstruksi data dan pembuatan pertanyaan, sistem mengintegrasikan dokumen, data crawling, knowledge graph, dan log pemanggilan alat
    • Lalu menyusunnya ulang menjadi memori pengetahuan open-world yang berpusat pada entitas, serta menghasilkan pasangan (pertanyaan, jawaban) dalam berbagai bentuk
  • Melalui Action Synthesis, dihasilkan data aksi primer dan orde tinggi
    • Struktur pengambilan keputusan multilangkah dimodelkan untuk memperkuat kemampuan pengambilan keputusan
  • Data post-training

    • Membangun pipeline pembuatan QA sintetis yang sepenuhnya otomatis
      • Melalui rangkaian riset seperti WebWalker, WebSailor, dan WebShaper, sistem menghasilkan data QA berbasis graf dan dengan kontrol tingkat kesulitan
    • Mewujudkan struktur informasi yang realistis melalui knowledge graph berbasis random walk dan fusi data tabel
      • Tingkat kesulitan disesuaikan secara sistematis melalui “operasi atomik” seperti penggabungan entitas
    • Dengan formalisasi masalah berbasis teori himpunan, ketidaksesuaian antara struktur informasi dan struktur penalaran diminimalkan
      • Efisiensi verifikasi konsistensi QA meningkat
      Iklan
    • Mesin data otomatis menghasilkan pertanyaan riset setingkat doktoral
      • Berangkat dari basis pengetahuan multidisipliner, lalu menghasilkan QA berkesulitan tinggi melalui loop peningkatan kompleksitas berulang
    • Berbagai pola penalaran dipelajari dengan memanfaatkan framework ReAct dan IterResearch
      • IterResearch menyusun ulang ruang kerja di setiap putaran untuk memperkuat kemampuan perencanaan jangka panjang

Mode rollout

  • Model mendukung dua mode eksekusi: mode ReAct dan mode Heavy
  • Native ReAct Mode

    • Mengikuti struktur siklus Thought–Action–Observation, dan menunjukkan performa unggul bahkan tanpa prompt engineering
      • Dengan panjang konteks 128K, model dapat menangani banyak putaran interaksi
    • Kesederhanaan dan generalitasnya menyediakan tolok ukur yang jelas untuk mengevaluasi kemampuan intrinsik model
    • Mengadopsi metodologi umum yang dapat diskalakan sesuai prinsip “The Bitter Lesson”
    Iklan
  • Heavy Mode

    • Menangani tugas riset multilangkah yang kompleks berdasarkan paradigma IterResearch
      • Pada setiap putaran, hanya hasil inti yang dipertahankan sambil menyusun ulang ruang kerja baru
      • Laporan pusat terus diperbarui untuk menjaga kualitas penalaran yang tinggi
    • Melalui framework Research–Synthesis, hasil dari beberapa agen riset dieksplorasi secara paralel lalu digabungkan
      • Memungkinkan jalur eksplorasi yang lebih luas dalam konteks yang terbatas

Pipeline pelatihan agen end-to-end

  • Membangun loop pelatihan terintegrasi penuh dari Agentic CPT → SFT → RL
  • Pada tahap on-policy reinforcement learning (RL), digunakan algoritme Group Relative Policy Optimization (GRPO)
    • Stabilitas dijaga melalui token-level policy gradient loss, strategi leave-one-out, dan penyaringan sampel negatif
    • Selama pelatihan, reward meningkat dan entropi kebijakan tetap tinggi sehingga eksplorasi terus berlangsung
  • Data sintetis memberikan distribusi yang lebih konsisten dibanding data beranotasi manusia seperti BrowseComp, sehingga efisiensi pelatihan meningkat
  • Konfigurasi infrastruktur

    • Lingkungan pelatihan sintetis: membangun lingkungan simulasi menggunakan DB Wikipedia offline dan kumpulan alat kustom
    • Sandbox alat yang stabil: mencegah error pemanggilan alat dengan caching, retry, dan backup API
    • Kurasi data otomatis: meningkatkan stabilitas dan performa melalui sintesis dan filtrasi data real-time sesuai dinamika pelatihan
    • Framework on-policy asinkron: mengimplementasikan loop RL asinkron berbasis langkah di atas rLLM
    • Melalui proses ini, loop pelatihan agen AI yang berevolusi sendiri berhasil diwujudkan, sehingga pemecahan masalah yang stabil dimungkinkan bahkan di lingkungan dinamis yang kompleks
    Iklan

Contoh penerapan nyata

  • Gaode Mate (agen peta dan navigasi)
    • Bekerja sama dengan tim Amap untuk mengembangkan AI copilot ‘Xiao Gao’
    • Dengan penalaran multilangkah, sistem dapat menyusun rencana kompleks seperti itinerary perjalanan dan rute yang mencakup akomodasi ramah hewan peliharaan
  • Tongyi FaRui (agen riset hukum)
    • Menjalankan riset multilangkah setingkat pengacara, termasuk pencarian preseden, peninjauan silang regulasi, dan integrasi analisis
    • Semua kesimpulan didasarkan pada materi yudisial yang dapat diverifikasi dan mencakup sitasi yang akurat

Keterbatasan dan pekerjaan lanjutan

  • Batas konteks 128K masih membatasi penanganan tugas yang sangat panjang
  • Perlu verifikasi skalabilitas ke model MoE berukuran di atas 30B
  • Direncanakan riset partial rollout dan off-policy learning untuk meningkatkan efisiensi reinforcement learning

Seri riset

  • Telah dipublikasikan 11 makalah terkait seperti WebWalker, WebDancer, WebSailor, WebShaper, dan WebWatcher
  • Dalam 6 bulan terakhir, laporan teknis diterbitkan setiap bulan, dan kali ini 6 laporan baru dirilis bersamaan dengan model Tongyi DeepResearch‑30B‑A3B
  • Pengembangan model agen generasi berikutnya akan terus dilanjutkan

1 komentar

 
GN⁺ 2025-11-04
Komentar Hacker News
  • Senang melihat model 30B MoE yang dirilis untuk “deep research”
    Menjalankan beberapa agen secara paralel dengan model ringan untuk penelusuran dan ekstraksi, lalu model 30B untuk perencanaan, routing alat, dan verifikasi terasa efisien
    Struktur spesialisasi pada MoE cocok untuk AI agen terdistribusi, tetapi tetap membutuhkan orkestrasi untuk retry, konsensus, dan evaluasi riset web bertahap
  • Penasaran apakah kini LLM terspesialisasi akan meledak jumlahnya
    Jika model besar menjadi terlalu besar dan prapelatihan mulai mencapai batasnya, model yang dibuat untuk tujuan tertentu mungkin akan makin banyak
    Melihat GPT‑3.5 dulu kuat di catur tetapi model terbaru tidak begitu, rasanya memang ada trade-off pada data pelatihan
    • Saat ini model besar serbaguna masih unggul di hampir semua hal
      Fine-tuning model kecil untuk tugas tertentu biayanya mahal, dan laju perkembangan model besar terlalu cepat sehingga cepat tertinggal
      Namun jika laju kemajuannya melambat, pelatihan model kecil akan kembali punya makna
    • Ingin melihat benchmark LLM yang kuat bermain catur
      Sudah lama terpikir akan menarik kalau ada model 4B~8B yang benar-benar paham framework tertentu seperti SvelteKit
      Sulit mengatakan kualitas model besar selalu lebih baik, dan jika model kecil bisa berjalan di satu GPU saja, itu terasa jauh lebih praktis
      Dulu saya pernah mengusulkan ide situs web pembanding LLM catur kepada kakak saya, tetapi belum sempat dibuat
    • Saya tidak setuju dengan pernyataan bahwa GPT‑3.5 kuat di catur
      Saat dicoba langsung, jumlah halusinasi langkah sangat banyak
    • Membagikan tautan seed‑tars.com/game‑tars
    • Bukankah ini inti dari arsitektur MoE?
      Keunggulannya adalah bagian yang diperlukan bisa dilatih dan ditingkatkan secara terpisah
  • Penasaran apakah alat deep research seperti ini benar-benar berguna
    Dalam pengalaman saya, hasilnya belum melampaui ringkasan mesin pencari dan hanya menghasilkan laporan yang hambar
    • Saya pernah memakainya di Inggris untuk kepatuhan hukum sambil mengelola situs web kecil, dan jika konteksnya dimasukkan, hasilnya cukup disesuaikan
      Memang belum setara pengacara, tetapi sangat membantu untuk proyek dengan anggaran terbatas
    • Pengalaman saya juga mirip
      Rasanya lebih seperti laporan konsultasi yang dibuat agar “terlihat berkualitas” daripada sesuatu yang benar-benar berguna bagi orang yang ingin belajar, jadi nilai praktisnya rendah
    • Laporannya memang hambar, tetapi berguna untuk menelusuri sumber referensi
      Untuk pertanyaan seperti “apakah topik ini sudah pernah diteliti?”, alat ini membantu menemukan contoh rujukan
    • Saya sering memakai ChatGPT, dan ketika diberi pertanyaan, ia cukup bagus dalam merapikan sumber terkait
      Memang belum sepenuhnya menggantikan riset langsung, tetapi sangat membantu untuk penataan informasi awal
    • Bahkan kalau hanya setingkat ringkasan mesin pencari, itu tetap cukup berguna untuk menemukan ide baru atau unknown unknowns
  • Saya pernah merilis model distill Qwen3 4B dan dataset sintetis di Hugging Face
    • Akan bagus kalau dibuatkan Hugging Face Space yang bisa langsung dicoba di browser
      Qwen3 4B sangat mengesankan karena berjalan baik bahkan di GPU terintegrasi Intel saya
      Dulu saya pernah memikirkan ide “model supermurah untuk deteksi konten berbahaya”, dan LLM kecil seperti ini tampaknya bisa mengisi peran itu
      Sepertinya juga bisa dipakai untuk routing
    • Saya menjalankannya lewat MCP pencarian web saya, dan ini pertama kalinya saya melihat kualitas deep research seperti ini dari model sekecil ini
  • Secara keseluruhan ini seri yang menarik
    Hanya saja, properti CSS word-break: break-word; membuatnya sangat sulit dibaca
    • Saya juga mencoba membacanya, tetapi rasanya kata-katanya tidak tersambung
  • Di Minggu pagi seperti ini, saya penasaran bagaimana cara self-hosting sebagai hobi engineer
    Saya ingin mencoba menjalankannya, walau lambat, di 2080Ti dengan 128GB VRAM(?)
    Menurut saya justru keterbatasannya yang membuatnya menyenangkan
    • Kalau ingin mendapatkan VRAM murah, AMD MI50 cukup bagus
      Versi 32GB bisa didapat di AliExpress sekitar 150~250 dolar, dan jika memasang beberapa kartu, konfigurasi 128GB VRAM memungkinkan
      Memang tidak secepat GPU terbaru, tetapi tetap cukup layak dipakai
    • Jika ingin cepat mencoba secara lokal, aplikasi Ollama adalah yang paling sederhana
      Bisa diinstal dari ollama.com
      Tapi kalau 2080Ti punya 128GB VRAM, saya jadi penasaran bagaimana caranya
    • Saya menjalankan model di MacBook Pro dengan memori terpadu 128GB
      Memang lambat, tetapi berjalan baik secara offline dan bahkan bisa dipakai di kedai kopi
      Karena saya memakai Ollama, saya harus menunggu sampai model terbaru di-porting
    • Setup saya yang dirakit dengan anggaran terbatas seperti ini
      Ryzen 9 9950X, RAM 96GB, dua RTX 3090, PSU 1600W
      Model 30B terkuantisasi FP8 bisa dijalankan dengan cukup lancar
    • Mungkin yang dimaksud itu RAM, bukan VRAM
      Model ini memang 30B MoE, tetapi parameter aktifnya hanya sekitar 3B sehingga mirip Qwen3 MoE
      Saya menjalankan model terkuantisasi 4bit dengan i5‑6600 berusia 11 tahun dan Radeon 6600 (8GB), dan di konteks 16k saya mendapat sekitar 12tps
      Juga membagikan contoh skrip eksekusi
  • Model Tongyi juga tersedia di OpenRouter, termasuk versi gratis
    openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
  • Melontarkan candaan apakah “Deep research” diterjemahkan menjadi “setuju”
    • Sebenarnya nama Tionghoanya adalah 通义千问(Tongyi Qianwen), yang berarti “mengetahui semua pertanyaan”
      Pelafalannya memang sama dengan “同意(setuju)”, tetapi maknanya berbeda
      Lihat halaman resmi Alibaba Qwen
  • Model ini sebenarnya sudah merilis bobot sejak sebulan lalu
    • Meski begitu, tidak semua orang mengikuti semuanya secara real time, jadi model yang berusia sebulan pun masih tetap berguna
    • Kalau begitu, saya penasaran bagaimana perbandingan performanya dengan model lain
  • “Deep research” milik OpenAI lebih mirip pola fungsional daripada model tertentu
    Hasilnya bisa berbeda tergantung apakah memakai GPT‑5, GPT‑4o, o3, atau model lain
    • Sekarang hampir semua pihak seperti OpenAI, Perplexity, Google Gemini, Anthropic, dan Grok menyediakan pola riset yang serupa
      Ini adalah tugas berbasis pencarian yang berjalan lama, mengumpulkan materi selama 5~10 menit lalu menghasilkan laporan dengan sitasi
      Model Tongyi dioptimalkan untuk loop pencarian dan penulisan laporan seperti ini