- DeepResearch yang diumumkan OpenAI merangkum konten melalui penelusuran web dan melakukan tanya jawab
- Menarik perhatian karena meraih skor tinggi pada benchmark GAIA
- Menggabungkan LLM yang kuat dengan framework agen internal untuk memanfaatkan berbagai alat seperti penelusuran web secara bertahap
- Karena OpenAI tidak mengungkap detail framework agennya, eksperimen selama 24 jam dilakukan untuk mereproduksinya dalam bentuk open source
Apa itu framework agen dan mengapa penting?
- Framework agen adalah struktur yang menambahkan lapisan di atas LLM agar dapat melakukan berbagai aksi seperti browsing dan membaca PDF
- Dibanding hanya menggunakan LLM dalam bentuk chat sederhana, kemampuannya menjadi jauh lebih kuat jika digabungkan dengan sistem agen
- Bahkan dengan menerapkan framework agen sederhana melalui library seperti smolagents, performanya meningkat secara signifikan
- OpenAI DeepResearch juga memperoleh performa unggul dengan memanfaatkan pendekatan ini
Benchmark GAIA
- GAIA adalah benchmark yang sangat sulit untuk mengevaluasi performa agen
- Sebagai contoh, ada pertanyaan kompleks yang meminta menyusun buah-buahan yang muncul di “Embroidery from Uzbekistan” sesuai urutan dengan menu sarapan lama dari kapal tertentu
- Dengan LLM tunggal, hasilnya hanya berada di kisaran 7%, sedangkan DeepResearch mencapai lebih dari 67%, menunjukkan kesenjangan yang besar
- Karena pertanyaan GAIA membutuhkan penalaran multilangkah, pencarian informasi, dan pemrosesan multimodal, benchmark ini sangat cocok untuk menguji nilai pendekatan agen
Membangun Open Deep Research
- Dilakukan eksperimen yang menggabungkan LLM open source dan framework agen untuk mereproduksi pendekatan DeepResearch
- Tujuannya adalah meningkatkan performa di GAIA dengan browser web berbasis teks sederhana dan alat peninjau file
- Menggunakan CodeAgent
- Pendekatan CodeAgent mengekspresikan aksi dalam bentuk kode, bukan JSON
- Menurut penelitian Wang et al. (2024), representasi kode memiliki keunggulan karena lebih ringkas, intuitif, dan dioptimalkan untuk LLM
- Jumlah langkah berkurang sehingga biaya bisa ditekan, dan ini juga menguntungkan untuk manajemen status multimodal
- Membuat alat yang tepat
- Alat pertama: browser web berbasis teks
- Fitur kaya seperti Operator belum diimplementasikan, tetapi sebagai tahap awal alat ini hanya menyediakan fungsi browsing sederhana
- Alat kedua: inspector untuk membuka format file teks
- Mendukung pembacaan isi melalui alat pemrosesan dokumen sederhana
- Ke depannya direncanakan dukungan format file yang lebih terperinci, integrasi model vision saat browsing web, dan pengenalan agen GUI
Hasil
- Eksperimen reproduksi dalam 24 jam mencapai sekitar 54% pada benchmark GAIA
- Saat menggunakan representasi kode alih-alih JSON, skornya naik dari 33% menjadi 54%
- Siapa pun dapat mereproduksinya dengan menggunakan framework dan alat smolagents yang terbuka
- Masih ada banyak ruang untuk peningkatan dengan menggabungkan browser setingkat Operator atau model lokal yang lebih kuat
Implementasi ulang oleh komunitas
- Berbagai implementasi dari dzhng, assafelovic, nickscamara, jina-ai, mshumer, dan lainnya telah muncul di komunitas
- Masing-masing memanfaatkan library berbeda atau mencoba pendekatan pencarian/pengindeksan yang berbeda
- Ke depan, hasil reproduksi dengan memanfaatkan open LLM, model vision, dan representasi aksi berbasis kode akan terus dibagikan dan dikembangkan
Langkah berikutnya yang paling penting
- Pekerjaan penting berikutnya adalah membuat agen GUI untuk mendukung fitur browser web tingkat lanjut seperti OpenAI Operator
- Tujuannya adalah menyediakan secara open source kemampuan melihat layar dan mengoperasikannya dengan mouse dan keyboard
- Ada rencana untuk meningkatkan kelengkapan dengan mengintegrasikannya dengan smolagents, OpenAI Operator, dan lainnya
- Peningkatan skor GAIA, pemanfaatan open LLM, dan implementasi browsing web visual menjadi tantangan utama
Belum ada komentar.