Open Deep Research - Deep Research yang Diimplementasikan sebagai Open Source

xguru · 2025-02-05T13:13:12+09:00

DeepResearch yang diumumkan OpenAI merangkum konten melalui penelusuran web dan melakukan tanya jawab Menarik perhatian karena meraih skor tinggi pada benchmark GAIA Menggabungkan LLM yang kuat dengan framework agen internal untuk memanfaatkan berbagai alat seperti penelusuran web secara bertahap Karena OpenAI tidak mengungkap detail framework agennya, eksperimen selama 24 jam dilakukan untuk mereproduksinya dalam bentuk open source Apa itu framework agen dan mengapa penting? Framework agen adalah struktur yang menambahkan lapisan di atas LLM agar dapat melakukan berbagai aksi seperti browsing dan membaca PDF Dibanding hanya menggunakan LLM dalam bentuk chat sederhana, kemampuannya menjadi jauh lebih kuat jika digabungkan dengan sistem agen Bahkan dengan menerapkan framework agen sederhana melalui library seperti smolagents, performanya meningkat secara signifikan OpenAI DeepResearch juga memperoleh performa unggul dengan memanfaatkan pendekatan ini Benchmark GAIA GAIA adalah benchmark yang sangat sulit untuk mengevaluasi performa agen Sebagai contoh, ada pertanyaan kompleks yang meminta menyusun buah-buahan yang muncul di “Embroidery from Uzbekistan” sesuai urutan dengan menu sarapan lama dari kapal tertentu Dengan LLM tunggal, hasilnya hanya berada di kisaran 7%, sedangkan DeepResearch mencapai lebih dari 67%, menunjukkan kesenjangan yang besar Karena pertanyaan GAIA membutuhkan penalaran multilangkah, pencarian informasi, dan pemrosesan multimodal, benchmark ini sangat cocok untuk menguji nilai pendekatan agen Membangun Open Deep Research Dilakukan eksperimen yang menggabungkan LLM open source dan framework agen untuk mereproduksi pendekatan DeepResearch Tujuannya adalah meningkatkan performa di GAIA dengan browser web berbasis teks sederhana dan alat peninjau file Menggunakan CodeAgent Pendekatan CodeAgent mengekspresikan aksi dalam bentuk kode, bukan JSON Menurut penelitian Wang et al. (2024), representasi kode memiliki keunggulan karena lebih ringkas, intuitif, dan dioptimalkan untuk LLM Jumlah langkah berkurang sehingga biaya bisa ditekan, dan ini juga menguntungkan untuk manajemen status multimodal Membuat alat yang tepat Alat pertama: browser web berbasis teks Fitur kaya seperti Operator belum diimplementasikan, tetapi sebagai tahap awal alat ini hanya menyediakan fungsi browsing sederhana Alat kedua: inspector untuk membuka format file teks Mendukung pembacaan isi melalui alat pemrosesan dokumen sederhana Ke depannya direncanakan dukungan format file yang lebih terperinci, integrasi model vision saat browsing web, dan pengenalan agen GUI Hasil Eksperimen reproduksi dalam 24 jam mencapai sekitar 54% pada benchmark GAIA Saat menggunakan representasi kode alih-alih JSON, skornya naik dari 33% menjadi 54% Siapa pun dapat mereproduksinya dengan menggunakan framework dan alat smolagents yang terbuka Masih ada banyak ruang untuk peningkatan dengan menggabungkan browser setingkat Operator atau model lokal yang lebih kuat Implementasi ulang oleh komunitas Berbagai implementasi dari dzhng, assafelovic, nickscamara, jina-ai, mshumer, dan lainnya telah muncul di komunitas Masing-masing memanfaatkan library berbeda atau mencoba pendekatan pencarian/pengindeksan yang berbeda Ke depan, hasil reproduksi dengan memanfaatkan open LLM, model vision, dan representasi aksi berbasis kode akan terus dibagikan dan dikembangkan Langkah berikutnya yang paling penting Pekerjaan penting berikutnya adalah membuat agen GUI untuk mendukung fitur browser web tingkat lanjut seperti OpenAI Operator Tujuannya adalah menyediakan secara open source kemampuan melihat layar dan mengoperasikannya dengan mouse dan keyboard Ada rencana untuk meningkatkan kelengkapan dengan mengintegrasikannya dengan smolagents, OpenAI Operator, dan lainnya Peningkatan skor GAIA, pemanfaatan open LLM, dan implementasi browsing web visual menjadi tantangan utama

(huggingface.co)

21 poin oleh xguru 2025-02-05 | Belum ada komentar. | Bagikan ke WhatsApp

DeepResearch yang diumumkan OpenAI merangkum konten melalui penelusuran web dan melakukan tanya jawab
- Menarik perhatian karena meraih skor tinggi pada benchmark GAIA
- Menggabungkan LLM yang kuat dengan framework agen internal untuk memanfaatkan berbagai alat seperti penelusuran web secara bertahap
Karena OpenAI tidak mengungkap detail framework agennya, eksperimen selama 24 jam dilakukan untuk mereproduksinya dalam bentuk open source

Apa itu framework agen dan mengapa penting?

Framework agen adalah struktur yang menambahkan lapisan di atas LLM agar dapat melakukan berbagai aksi seperti browsing dan membaca PDF
Dibanding hanya menggunakan LLM dalam bentuk chat sederhana, kemampuannya menjadi jauh lebih kuat jika digabungkan dengan sistem agen
Bahkan dengan menerapkan framework agen sederhana melalui library seperti smolagents, performanya meningkat secara signifikan
OpenAI DeepResearch juga memperoleh performa unggul dengan memanfaatkan pendekatan ini

Benchmark GAIA

GAIA adalah benchmark yang sangat sulit untuk mengevaluasi performa agen
Sebagai contoh, ada pertanyaan kompleks yang meminta menyusun buah-buahan yang muncul di “Embroidery from Uzbekistan” sesuai urutan dengan menu sarapan lama dari kapal tertentu
Dengan LLM tunggal, hasilnya hanya berada di kisaran 7%, sedangkan DeepResearch mencapai lebih dari 67%, menunjukkan kesenjangan yang besar
Karena pertanyaan GAIA membutuhkan penalaran multilangkah, pencarian informasi, dan pemrosesan multimodal, benchmark ini sangat cocok untuk menguji nilai pendekatan agen

Membangun Open Deep Research

Dilakukan eksperimen yang menggabungkan LLM open source dan framework agen untuk mereproduksi pendekatan DeepResearch
Tujuannya adalah meningkatkan performa di GAIA dengan browser web berbasis teks sederhana dan alat peninjau file
Menggunakan CodeAgent
- Pendekatan CodeAgent mengekspresikan aksi dalam bentuk kode, bukan JSON
- Menurut penelitian Wang et al. (2024), representasi kode memiliki keunggulan karena lebih ringkas, intuitif, dan dioptimalkan untuk LLM
- Jumlah langkah berkurang sehingga biaya bisa ditekan, dan ini juga menguntungkan untuk manajemen status multimodal
Membuat alat yang tepat
- Alat pertama: browser web berbasis teks
  - Fitur kaya seperti Operator belum diimplementasikan, tetapi sebagai tahap awal alat ini hanya menyediakan fungsi browsing sederhana
- Alat kedua: inspector untuk membuka format file teks
  - Mendukung pembacaan isi melalui alat pemrosesan dokumen sederhana
- Ke depannya direncanakan dukungan format file yang lebih terperinci, integrasi model vision saat browsing web, dan pengenalan agen GUI

Hasil

Eksperimen reproduksi dalam 24 jam mencapai sekitar 54% pada benchmark GAIA
Saat menggunakan representasi kode alih-alih JSON, skornya naik dari 33% menjadi 54%
Siapa pun dapat mereproduksinya dengan menggunakan framework dan alat smolagents yang terbuka
Masih ada banyak ruang untuk peningkatan dengan menggabungkan browser setingkat Operator atau model lokal yang lebih kuat

Implementasi ulang oleh komunitas

Berbagai implementasi dari dzhng, assafelovic, nickscamara, jina-ai, mshumer, dan lainnya telah muncul di komunitas
Masing-masing memanfaatkan library berbeda atau mencoba pendekatan pencarian/pengindeksan yang berbeda
Ke depan, hasil reproduksi dengan memanfaatkan open LLM, model vision, dan representasi aksi berbasis kode akan terus dibagikan dan dikembangkan

Langkah berikutnya yang paling penting

Pekerjaan penting berikutnya adalah membuat agen GUI untuk mendukung fitur browser web tingkat lanjut seperti OpenAI Operator
Tujuannya adalah menyediakan secara open source kemampuan melihat layar dan mengoperasikannya dengan mouse dan keyboard
Ada rencana untuk meningkatkan kelengkapan dengan mengintegrasikannya dengan smolagents, OpenAI Operator, dan lainnya
Peningkatan skor GAIA, pemanfaatan open LLM, dan implementasi browsing web visual menjadi tantangan utama