15 poin oleh GN⁺ 2025-02-28 | 1 komentar | Bagikan ke WhatsApp
  • Mengimplementasikan agen riset bergaya Deep Research dengan memanfaatkan model dan alat open source (Milvus, LangChain, dll.)
  • Melalui pencarian web dan dokumen, semakin banyak contoh implementasi struktur agen yang secara otomatis melakukan riset mendalam untuk topik atau pertanyaan dan memilih tindakan (pencarian, peringkasan, dll.) di setiap tahap perantara
  • Artikel ini memperkenalkan proyek open source DeepSearcher yang mengembangkan ide tersebut lebih jauh. Dijelaskan query routing, alur eksekusi bersyarat, penggunaan alat web crawling, dan lainnya
  • DeepSearcher disediakan dalam bentuk library Python dan CLI, sehingga dapat menerima berbagai dokumen sumber sebagai input dan dengan mudah menyesuaikan model embedding serta pengaturan vector DB melalui file
  • Meski sederhana, ini adalah contoh demonstrasi RAG berbasis agen yang dapat menjadi pijakan menuju pengembangan aplikasi AI nyata
  • Secara khusus, masalah kecepatan dan efisiensi model penalaran ditekankan, karena proses kueri dan pencarian membutuhkan pembuatan banyak token sehingga resource inferensi menjadi bottleneck
  • Dengan menggunakan DeepSeek-R1 reasoning model yang berjalan di atas hardware khusus milik SambaNova, kecepatan pembuatan token per detik lebih cepat dibanding layanan pesaing
  • Melalui layanan inferensi cloud semacam ini, inferensi yang efisien juga dimungkinkan untuk berbagai model seperti Llama 3.x, Qwen2.5, dan QwQ

Definisi dan perincian pertanyaan

  • Kueri awal pengguna dipecah menjadi sub-kueri yang lebih rinci
  • Mirip dengan artikel sebelumnya, kueri seperti "How has The Simpsons changed over time?" dipecah menjadi beberapa sub-kueri seperti berikut
    • Contoh: pengaruh budaya dan sosial karya tersebut, perubahan karakter, humor, dan cara bertutur per musim, perubahan animasi dan teknologi produksi, perubahan respons penonton, dll.
  • Pada tahap berikutnya, jika diperlukan, pertanyaan juga dapat didefinisikan ulang atau diperluas

Riset dan analisis

  • Berdasarkan sub-kueri, sistem melewati tahap query routing, vector search, reflection, dan iterasi bersyarat
  • Query routing
    • Prompt disusun agar LLM menentukan koleksi mana yang akan digunakan di antara beberapa koleksi database
    • Sistem menerima respons dalam format JSON lalu menghasilkan kueri pencarian untuk tiap koleksi
  • Vector search
    • Menjalankan pencarian kemiripan dengan memanfaatkan embedding yang disimpan di Milvus
    • Seperti pada artikel sebelumnya, data sumber dibagi dan divektorkan terlebih dahulu
  • Reflection
    • Berdasarkan kueri dan jawaban dari tahap sebelumnya, LLM memeriksa apakah informasi tambahan masih diperlukan
    • Jika ada bagian yang kurang, sistem membuat sub-kueri baru dan mencoba pencarian ulang
  • Iterasi bersyarat
    • Jika hasil reflection menunjukkan perlunya kueri tambahan, proses di atas diulang
    • Jika dinilai tidak perlu lagi mengumpulkan informasi, proses berlanjut ke tahap pembuatan laporan akhir

Pembuatan laporan akhir

  • Semua sub-kueri dan hasil pencarian digabungkan untuk menghasilkan laporan dalam satu prompt
  • Hasilnya adalah laporan dengan konsistensi dan koherensi yang lebih baik dibanding demo sebelumnya
  • Misalnya, laporan akhir untuk “How has The Simpsons changed over time?” memberikan detail dengan struktur seperti berikut
      1. Pengaruh budaya dan relevansi sosial
      1. Evolusi karakter, humor, dan alur cerita
      1. Perubahan animasi dan aspek teknis
      1. Perubahan demografi penonton, respons, dan rating
    • Kesimpulan: proses bagaimana karya tersebut berubah dari satire pemberontak di awal menjadi ikon populer, dan sebagainya
  • Tersedia perbandingan antara versi laporan yang dibuat menggunakan model DeepSeek-R1 dan versi yang dibuat dengan model GPT-4o mini

Arah ke depan

  • DeepSearcher masih berada pada tingkat yang sederhana, tetapi dapat dikembangkan lebih jauh melalui penambahan komposisi agen, penataan struktur laporan, dan perluasan iterasi bersyarat
  • Karena model penalaran skala besar melibatkan komputasi yang sangat berat, kecepatan inferensi dan biaya menjadi isu inti layanan
  • Disebutkan bahwa dengan model DeepSeek-R1 milik SambaNova, digunakan 65 panggilan inferensi, sekitar 25k token input dan 22k token output, dan respons yang cukup cepat diperoleh dengan biaya sekitar 0,30 dolar
  • Proyek ini dapat dicoba langsung di repositori DeepSearcher, dan ada rencana untuk terus membagikan fitur tambahan serta contoh penggunaan ke depannya

1 komentar

 
GN⁺ 2025-02-28
Opini Hacker News
  • Sistem ini tidak menggunakan LLM lokal, jadi bukan sistem lokal yang sesungguhnya

    • Penasaran apakah ada pencari riset mendalam yang bisa menggunakan LLM lokal yang di-host oleh Ollama dan LM Studio
  • Penasaran dengan perbandingannya terhadap versi open-source dari HuggingFace

    • Versi HF menggunakan LLM penalaran yang menelusuri web, mengumpulkan hasil, lalu mengevaluasinya untuk menyintesis hasil akhir
    • Versi ini tampaknya menampilkan vector store dari dokumen yang dihasilkan dari web crawling
  • Keajaiban implementasi Grok kemungkinan besar karena ia menyimpan cache untuk sebagian besar situs web, sehingga terasa sangat cepat

    • Pencarian Bing/Brave tampaknya tidak menyediakan fungsi itu
    • Penasaran apakah ada layanan seperti itu
  • Menyukai berbagai pendekatan terhadap Deep Research

    • Sedang mencoba workflow baru menggunakan Flow
  • Ada dua posting blog yang terkait

    • Berbagi pengalaman membangun Deep Research menggunakan open-source
  • Karena perusahaan AI besar telah membuat produk Deep Research yang serupa, mungkin lebih masuk akal untuk berfokus pada platform open-source bersama

  • Penasaran dengan makna praktis dari integrasi web crawling

    • Secara teori, penasaran apakah ini bisa digunakan untuk membaca makalah dari Sci-Hub dan menghasilkan riset valid setingkat pascasarjana
    • Ini bisa berguna untuk membandingkan laporan yang ditulis menggunakan DeepSeek R1, GPT-4o, dan model besar lainnya
    • Kode open-source dapat membantu mengungkap batasan berbagai LLM lebih cepat dan membantu pengembangan loop penalaran yang lebih baik untuk kebutuhan tertentu
  • Sudah mencari alat Deep Research yang bisa terhubung ke catatan pribadi (Obsidian) dan web

    • Alat ini tampaknya memiliki fungsi itu
    • Sekarang yang tersisa adalah mencari cara mengekspor hasil Deep Research ke Obsidian
  • Sudah benar-benar mencobanya, dan karena menghadapi beberapa masalah, perlu mengganti embedding teks openAI dengan MilvusEmbedding

    • Respons QuickStart bagus
  • Peluru ajaib yang sesungguhnya adalah menelusuri lib-gen dan sci-hub