21 poin oleh xguru 2025-02-05 | Belum ada komentar. | Bagikan ke WhatsApp
  • DeepResearch yang diumumkan OpenAI merangkum konten melalui penelusuran web dan melakukan tanya jawab
    • Menarik perhatian karena meraih skor tinggi pada benchmark GAIA
    • Menggabungkan LLM yang kuat dengan framework agen internal untuk memanfaatkan berbagai alat seperti penelusuran web secara bertahap
  • Karena OpenAI tidak mengungkap detail framework agennya, eksperimen selama 24 jam dilakukan untuk mereproduksinya dalam bentuk open source

Apa itu framework agen dan mengapa penting?

  • Framework agen adalah struktur yang menambahkan lapisan di atas LLM agar dapat melakukan berbagai aksi seperti browsing dan membaca PDF
  • Dibanding hanya menggunakan LLM dalam bentuk chat sederhana, kemampuannya menjadi jauh lebih kuat jika digabungkan dengan sistem agen
  • Bahkan dengan menerapkan framework agen sederhana melalui library seperti smolagents, performanya meningkat secara signifikan
  • OpenAI DeepResearch juga memperoleh performa unggul dengan memanfaatkan pendekatan ini

Benchmark GAIA

  • GAIA adalah benchmark yang sangat sulit untuk mengevaluasi performa agen
  • Sebagai contoh, ada pertanyaan kompleks yang meminta menyusun buah-buahan yang muncul di “Embroidery from Uzbekistan” sesuai urutan dengan menu sarapan lama dari kapal tertentu
  • Dengan LLM tunggal, hasilnya hanya berada di kisaran 7%, sedangkan DeepResearch mencapai lebih dari 67%, menunjukkan kesenjangan yang besar
  • Karena pertanyaan GAIA membutuhkan penalaran multilangkah, pencarian informasi, dan pemrosesan multimodal, benchmark ini sangat cocok untuk menguji nilai pendekatan agen

Membangun Open Deep Research

  • Dilakukan eksperimen yang menggabungkan LLM open source dan framework agen untuk mereproduksi pendekatan DeepResearch
  • Tujuannya adalah meningkatkan performa di GAIA dengan browser web berbasis teks sederhana dan alat peninjau file
  • Menggunakan CodeAgent
    • Pendekatan CodeAgent mengekspresikan aksi dalam bentuk kode, bukan JSON
    • Menurut penelitian Wang et al. (2024), representasi kode memiliki keunggulan karena lebih ringkas, intuitif, dan dioptimalkan untuk LLM
    • Jumlah langkah berkurang sehingga biaya bisa ditekan, dan ini juga menguntungkan untuk manajemen status multimodal
  • Membuat alat yang tepat
    • Alat pertama: browser web berbasis teks
      • Fitur kaya seperti Operator belum diimplementasikan, tetapi sebagai tahap awal alat ini hanya menyediakan fungsi browsing sederhana
    • Alat kedua: inspector untuk membuka format file teks
      • Mendukung pembacaan isi melalui alat pemrosesan dokumen sederhana
    • Ke depannya direncanakan dukungan format file yang lebih terperinci, integrasi model vision saat browsing web, dan pengenalan agen GUI

Hasil

  • Eksperimen reproduksi dalam 24 jam mencapai sekitar 54% pada benchmark GAIA
  • Saat menggunakan representasi kode alih-alih JSON, skornya naik dari 33% menjadi 54%
  • Siapa pun dapat mereproduksinya dengan menggunakan framework dan alat smolagents yang terbuka
  • Masih ada banyak ruang untuk peningkatan dengan menggabungkan browser setingkat Operator atau model lokal yang lebih kuat

Implementasi ulang oleh komunitas

  • Berbagai implementasi dari dzhng, assafelovic, nickscamara, jina-ai, mshumer, dan lainnya telah muncul di komunitas
  • Masing-masing memanfaatkan library berbeda atau mencoba pendekatan pencarian/pengindeksan yang berbeda
  • Ke depan, hasil reproduksi dengan memanfaatkan open LLM, model vision, dan representasi aksi berbasis kode akan terus dibagikan dan dikembangkan

Langkah berikutnya yang paling penting

  • Pekerjaan penting berikutnya adalah membuat agen GUI untuk mendukung fitur browser web tingkat lanjut seperti OpenAI Operator
  • Tujuannya adalah menyediakan secara open source kemampuan melihat layar dan mengoperasikannya dengan mouse dan keyboard
  • Ada rencana untuk meningkatkan kelengkapan dengan mengintegrasikannya dengan smolagents, OpenAI Operator, dan lainnya
  • Peningkatan skor GAIA, pemanfaatan open LLM, dan implementasi browsing web visual menjadi tantangan utama

Belum ada komentar.

Belum ada komentar.