- Mengimplementasikan agen riset bergaya Deep Research dengan memanfaatkan model dan alat open source (Milvus, LangChain, dll.)
- Melalui pencarian web dan dokumen, semakin banyak contoh implementasi struktur agen yang secara otomatis melakukan riset mendalam untuk topik atau pertanyaan dan memilih tindakan (pencarian, peringkasan, dll.) di setiap tahap perantara
- Artikel ini memperkenalkan proyek open source DeepSearcher yang mengembangkan ide tersebut lebih jauh. Dijelaskan query routing, alur eksekusi bersyarat, penggunaan alat web crawling, dan lainnya
- DeepSearcher disediakan dalam bentuk library Python dan CLI, sehingga dapat menerima berbagai dokumen sumber sebagai input dan dengan mudah menyesuaikan model embedding serta pengaturan vector DB melalui file
- Meski sederhana, ini adalah contoh demonstrasi RAG berbasis agen yang dapat menjadi pijakan menuju pengembangan aplikasi AI nyata
- Secara khusus, masalah kecepatan dan efisiensi model penalaran ditekankan, karena proses kueri dan pencarian membutuhkan pembuatan banyak token sehingga resource inferensi menjadi bottleneck
- Dengan menggunakan DeepSeek-R1 reasoning model yang berjalan di atas hardware khusus milik SambaNova, kecepatan pembuatan token per detik lebih cepat dibanding layanan pesaing
- Melalui layanan inferensi cloud semacam ini, inferensi yang efisien juga dimungkinkan untuk berbagai model seperti Llama 3.x, Qwen2.5, dan QwQ
Definisi dan perincian pertanyaan
- Kueri awal pengguna dipecah menjadi sub-kueri yang lebih rinci
- Mirip dengan artikel sebelumnya, kueri seperti "How has The Simpsons changed over time?" dipecah menjadi beberapa sub-kueri seperti berikut
- Contoh: pengaruh budaya dan sosial karya tersebut, perubahan karakter, humor, dan cara bertutur per musim, perubahan animasi dan teknologi produksi, perubahan respons penonton, dll.
- Pada tahap berikutnya, jika diperlukan, pertanyaan juga dapat didefinisikan ulang atau diperluas
Riset dan analisis
- Berdasarkan sub-kueri, sistem melewati tahap query routing, vector search, reflection, dan iterasi bersyarat
- Query routing
- Prompt disusun agar LLM menentukan koleksi mana yang akan digunakan di antara beberapa koleksi database
- Sistem menerima respons dalam format JSON lalu menghasilkan kueri pencarian untuk tiap koleksi
- Vector search
- Menjalankan pencarian kemiripan dengan memanfaatkan embedding yang disimpan di Milvus
- Seperti pada artikel sebelumnya, data sumber dibagi dan divektorkan terlebih dahulu
- Reflection
- Berdasarkan kueri dan jawaban dari tahap sebelumnya, LLM memeriksa apakah informasi tambahan masih diperlukan
- Jika ada bagian yang kurang, sistem membuat sub-kueri baru dan mencoba pencarian ulang
- Iterasi bersyarat
- Jika hasil reflection menunjukkan perlunya kueri tambahan, proses di atas diulang
- Jika dinilai tidak perlu lagi mengumpulkan informasi, proses berlanjut ke tahap pembuatan laporan akhir
Pembuatan laporan akhir
- Semua sub-kueri dan hasil pencarian digabungkan untuk menghasilkan laporan dalam satu prompt
- Hasilnya adalah laporan dengan konsistensi dan koherensi yang lebih baik dibanding demo sebelumnya
- Misalnya, laporan akhir untuk “How has The Simpsons changed over time?” memberikan detail dengan struktur seperti berikut
-
- Pengaruh budaya dan relevansi sosial
-
- Evolusi karakter, humor, dan alur cerita
-
- Perubahan animasi dan aspek teknis
-
- Perubahan demografi penonton, respons, dan rating
- Kesimpulan: proses bagaimana karya tersebut berubah dari satire pemberontak di awal menjadi ikon populer, dan sebagainya
- Tersedia perbandingan antara versi laporan yang dibuat menggunakan model DeepSeek-R1 dan versi yang dibuat dengan model GPT-4o mini
Arah ke depan
- DeepSearcher masih berada pada tingkat yang sederhana, tetapi dapat dikembangkan lebih jauh melalui penambahan komposisi agen, penataan struktur laporan, dan perluasan iterasi bersyarat
- Karena model penalaran skala besar melibatkan komputasi yang sangat berat, kecepatan inferensi dan biaya menjadi isu inti layanan
- Disebutkan bahwa dengan model DeepSeek-R1 milik SambaNova, digunakan 65 panggilan inferensi, sekitar 25k token input dan 22k token output, dan respons yang cukup cepat diperoleh dengan biaya sekitar 0,30 dolar
- Proyek ini dapat dicoba langsung di repositori DeepSearcher, dan ada rencana untuk terus membagikan fitur tambahan serta contoh penggunaan ke depannya
1 komentar
Opini Hacker News
Sistem ini tidak menggunakan LLM lokal, jadi bukan sistem lokal yang sesungguhnya
Penasaran dengan perbandingannya terhadap versi open-source dari HuggingFace
Keajaiban implementasi Grok kemungkinan besar karena ia menyimpan cache untuk sebagian besar situs web, sehingga terasa sangat cepat
Menyukai berbagai pendekatan terhadap Deep Research
Ada dua posting blog yang terkait
Karena perusahaan AI besar telah membuat produk Deep Research yang serupa, mungkin lebih masuk akal untuk berfokus pada platform open-source bersama
Penasaran dengan makna praktis dari integrasi web crawling
Sudah mencari alat Deep Research yang bisa terhubung ke catatan pribadi (Obsidian) dan web
Sudah benar-benar mencobanya, dan karena menghadapi beberapa masalah, perlu mengganti embedding teks openAI dengan MilvusEmbedding
Peluru ajaib yang sesungguhnya adalah menelusuri lib-gen dan sci-hub