Perbedaan Deep Research, Deep Research, dan Deep Research
(leehanchung.github.io)- Belakangan ini, lab AI mengumumkan berbagai fitur dengan menggunakan istilah 'Deep Research'
- Google merilis Gemini 1.5 Deep Research pada Desember 2024, OpenAI merilis Deep Research pada Februari 2025, dan Perplexity segera setelah itu memperkenalkan Deep Research versinya sendiri
- Selain itu, DeepSeek, Qwen milik Alibaba, dan xAI milik Elon Musk juga memperkenalkan fitur Search dan Deep Search ke asisten chatbot mereka
- Di GitHub, muncul puluhan implementasi open source 'Deep Research'
- Ini menunjukkan bahwa, mirip dengan Retrieval-Augmented Generation (RAG) pada 2025, istilah 'Deep Research' sedang digunakan tanpa definisi yang jelas
Deep Research, Deep Search, atau sekadar Search
> Google : "Deep Research menggunakan AI untuk mengeksplorasi topik yang kompleks, memberikan laporan yang komprehensif dan mudah dibaca, serta menunjukkan bahwa Gemini semakin mahir menangani tugas-tugas kompleks untuk menghemat waktu." -
> OpenAI : "Deep Research adalah agen generasi berikutnya dari OpenAI; ketika pengguna memberikan prompt, ChatGPT mencari, menganalisis, dan menyintesis ratusan sumber online untuk menghasilkan laporan komprehensif setingkat analis riset."
> Perplexity : "Saat Anda mengajukan pertanyaan Deep Research, Perplexity melakukan puluhan pencarian, membaca ratusan sumber, menalar materi, dan secara otonom memberikan laporan yang komprehensif."
- Jika mengesampingkan istilah pemasaran, Deep Research dapat didefinisikan sebagai berikut
> Sebuah sistem pembuatan laporan yang menerima kueri pengguna, menggunakan large language model (LLM) sebagai agen untuk mencari dan menganalisis informasi secara berulang, lalu menghasilkan laporan terperinci - Dalam istilah natural language processing (NLP), ini dikenal sebagai 'report generation'
Metode implementasi
- Sejak kemunculan ChatGPT, pembuatan laporan atau 'Deep Research' telah menjadi fokus utama AI engineering
- Penulis telah bereksperimen dengan ini dalam sebuah hackathon pada awal 2023, saat AI engineering baru mulai bangkit
- Alat seperti LangChain, AutoGPT, GPT-Researcher, prompt engineering, serta banyak demo mendapat perhatian besar di Twitter dan LinkedIn
- Namun, tantangan sebenarnya ada pada detail implementasi
- Di bawah ini, dibahas pola umum untuk membangun sistem pembuatan laporan, menyoroti perbedaannya, dan mengklasifikasikan penawaran dari berbagai vendor
Non-learning: directed acyclic graph (DAG)
- Pada tahap awal, ditemukan bahwa tidak praktis meminta LLM seperti GPT-3.5 untuk menghasilkan laporan dari nol
- Sebagai gantinya, digunakan pola Composite untuk menghubungkan beberapa pemanggilan LLM
- Kueri pengguna dipecah untuk membuat kerangka laporan
- Untuk setiap bagian, informasi terkait dicari dari mesin pencari atau knowledge base lalu diringkas
- Terakhir, LLM digunakan untuk menggabungkan bagian-bagian tersebut menjadi laporan yang koheren
- GPT-Researcher adalah contohnya
- Semua prompt dalam sistem ini disetel dengan cermat melalui 'prompt engineering'
- Evaluasi bergantung pada pemeriksaan output yang subjektif, dan kualitas laporan tidak konsisten
- Saat berhasil, hasilnya sangat baik, tetapi tidak selalu stabil
Non-learning: finite state machine (FSM)
- Untuk meningkatkan kualitas laporan, para engineer menambahkan kompleksitas pada pendekatan DAG
- Alih-alih proses satu lintasan, mereka memperkenalkan pola terstruktur seperti Reflexion dan self-reflection agar LLM meninjau dan memperbaiki outputnya sendiri
- Ini mengubah DAG sederhana menjadi finite state machine (FSM), dengan LLM sebagian memandu transisi status
- Seperti pendekatan DAG, semua prompt tetap ditulis secara manual dan evaluasinya subjektif
- Karena sistem disetel secara manual, kualitas laporan masih sangat bervariasi
Learning: end-to-end
- Kekurangan metode sebelumnya, yaitu prompt engineering yang serba acak dan tidak adanya metrik evaluasi yang dapat diukur, mendorong perubahan
- STORM dari Stanford menyelesaikan masalah ini dengan mengoptimalkan sistem secara end-to-end menggunakan DSPy
- Hasilnya, STORM menghasilkan laporan dengan kualitas yang sebanding dengan artikel Wikipedia
Learning: large-scale reasoning model
- Seiring meningkatnya kemampuan penalaran LLM, large-scale reasoning model menjadi opsi yang menarik untuk Deep Research
- Misalnya, OpenAI melatih model Deep Research dengan cara berikut
- Mengevaluasi output menggunakan LLM-as-a-judge dan rubrik evaluasi
- Asisten chat Gemini dari Google dan Perplexity juga menyediakan fitur 'Deep Research', tetapi mereka tidak memublikasikan dokumen tentang bagaimana model atau sistem mereka dioptimalkan maupun evaluasi kuantitatif yang substansial
- Namun, manajer produk Deep Research di Google menyebutkan dalam sebuah wawancara podcast, "Ada hak akses khusus. Modelnya hampir sama (Gemini 1.5). Tentu saja kami melakukan pekerjaan pelatihan lanjutan kami sendiri"
- Ini menunjukkan bahwa porsi fine-tuning tidak terlalu besar
- Sementara itu, Grok dari xAI unggul dalam pembuatan laporan, tetapi tampaknya tidak melakukan pencarian lebih dari dua iterasi
- Polanya adalah mencari beberapa kali untuk bagian kerangka, lalu beberapa kali untuk tiap bagian
Peta persaingan
- Sebuah peta konseptual dikembangkan untuk menilai kapabilitas berbagai layanan yang menyediakan fitur Deep Research
- Sumbu vertikal: kedalaman riset (jumlah siklus iteratif untuk mengumpulkan informasi tambahan berdasarkan hasil sebelumnya)
- Sumbu horizontal: tingkat learning (dari sistem yang disetel manual hingga sistem yang sepenuhnya dilatih dengan teknik machine learning)
- Contoh sistem learning yang representatif:
- OpenAI Deep Research: sistem berbasis reinforcement learning yang dioptimalkan untuk tugas riset
- DeepSeek: dilatih untuk penalaran umum dan penggunaan alat, serta dapat beradaptasi dengan kebutuhan riset
- Google Gemini: LLM yang dilatih secara luas, tetapi tidak secara khusus untuk riset
- Stanford STORM: sistem yang mengoptimalkan seluruh proses riset secara end-to-end
- Kerangka ini membantu memahami bagaimana tiap layanan menyeimbangkan kedalaman riset iteratif dan pendekatan learning
Kesimpulan
- Teknologi Deep Research berkembang sangat cepat, dan teknik yang beberapa bulan lalu tidak efektif atau belum diimplementasikan kini berhasil diterapkan
- Namun, penggunaan istilahnya yang ambigu justru menambah kebingungan
- Semoga tulisan ini membantu memperjelas perbedaan teknis dan mencegah orang terbawa oleh istilah pemasaran
2 komentar
> Seorang rekan bercanda, “AlphaGO memang mengalahkan Lee Sedol, tetapi Lee Sedol punya algoritme mobil otonom yang jauh lebih baik”
Namun Lee Sedol hanya satu orang dan tidak bisa diduplikasi
Opini Hacker News
Pembedaan antara DeepSearch dan DeepResearch yang diajukan Han Xiao sangat menarik
Seorang rekan bercanda, "AlphaGO mengalahkan Lee Sedol, tapi Lee Sedol punya algoritma kendaraan otonom yang jauh lebih baik"
Ini tampaknya menangkap dengan baik perbedaan antara apa yang ditawarkan OpenAI dan perusahaan lain
AI makin beragam, dan kemungkinan akan muncul berbagai macam agen
Katanya Grok unggul dalam pembuatan laporan, dan dengan meminta jawaban dalam format tabel, hasilnya jadi mudah dibandingkan
DR adalah cara yang baik untuk mengumpulkan informasi dan melakukan riset nyata dari titik awal yang terfokus
Saat membandingkan OpenAI Deep Research dengan Deep Research milik Perplexity, ada perbedaan "sempit dan dalam" vs "dangkal dan luas"
Saya sudah mencoba berbagai workflow lewat Deep Search/Research
STORM mendapat penilaian tinggi, tetapi GPT Researcher tidak
Ini adalah platform pengorganisasian informasi terbesar di internet, tetapi orang belum menemukan kata lain untuk menjelaskan produknya