Perbedaan Deep Research, Deep Research, dan Deep Research

(leehanchung.github.io)

6 poin oleh GN⁺ 2025-03-06 | 2 komentar | Bagikan ke WhatsApp

Belakangan ini, lab AI mengumumkan berbagai fitur dengan menggunakan istilah 'Deep Research'
Google merilis Gemini 1.5 Deep Research pada Desember 2024, OpenAI merilis Deep Research pada Februari 2025, dan Perplexity segera setelah itu memperkenalkan Deep Research versinya sendiri
Selain itu, DeepSeek, Qwen milik Alibaba, dan xAI milik Elon Musk juga memperkenalkan fitur Search dan Deep Search ke asisten chatbot mereka
Di GitHub, muncul puluhan implementasi open source 'Deep Research'
Ini menunjukkan bahwa, mirip dengan Retrieval-Augmented Generation (RAG) pada 2025, istilah 'Deep Research' sedang digunakan tanpa definisi yang jelas

Deep Research, Deep Search, atau sekadar Search

> Google : "Deep Research menggunakan AI untuk mengeksplorasi topik yang kompleks, memberikan laporan yang komprehensif dan mudah dibaca, serta menunjukkan bahwa Gemini semakin mahir menangani tugas-tugas kompleks untuk menghemat waktu." -
> OpenAI : "Deep Research adalah agen generasi berikutnya dari OpenAI; ketika pengguna memberikan prompt, ChatGPT mencari, menganalisis, dan menyintesis ratusan sumber online untuk menghasilkan laporan komprehensif setingkat analis riset."
> Perplexity : "Saat Anda mengajukan pertanyaan Deep Research, Perplexity melakukan puluhan pencarian, membaca ratusan sumber, menalar materi, dan secara otonom memberikan laporan yang komprehensif."

Jika mengesampingkan istilah pemasaran, Deep Research dapat didefinisikan sebagai berikut
> Sebuah sistem pembuatan laporan yang menerima kueri pengguna, menggunakan large language model (LLM) sebagai agen untuk mencari dan menganalisis informasi secara berulang, lalu menghasilkan laporan terperinci
Dalam istilah natural language processing (NLP), ini dikenal sebagai 'report generation'

Metode implementasi

Sejak kemunculan ChatGPT, pembuatan laporan atau 'Deep Research' telah menjadi fokus utama AI engineering
Penulis telah bereksperimen dengan ini dalam sebuah hackathon pada awal 2023, saat AI engineering baru mulai bangkit
Alat seperti LangChain, AutoGPT, GPT-Researcher, prompt engineering, serta banyak demo mendapat perhatian besar di Twitter dan LinkedIn
Namun, tantangan sebenarnya ada pada detail implementasi
Di bawah ini, dibahas pola umum untuk membangun sistem pembuatan laporan, menyoroti perbedaannya, dan mengklasifikasikan penawaran dari berbagai vendor

Non-learning: directed acyclic graph (DAG)

Pada tahap awal, ditemukan bahwa tidak praktis meminta LLM seperti GPT-3.5 untuk menghasilkan laporan dari nol
Sebagai gantinya, digunakan pola Composite untuk menghubungkan beberapa pemanggilan LLM
Kueri pengguna dipecah untuk membuat kerangka laporan
Untuk setiap bagian, informasi terkait dicari dari mesin pencari atau knowledge base lalu diringkas
Terakhir, LLM digunakan untuk menggabungkan bagian-bagian tersebut menjadi laporan yang koheren
GPT-Researcher adalah contohnya
- Semua prompt dalam sistem ini disetel dengan cermat melalui 'prompt engineering'
- Evaluasi bergantung pada pemeriksaan output yang subjektif, dan kualitas laporan tidak konsisten
- Saat berhasil, hasilnya sangat baik, tetapi tidak selalu stabil

Non-learning: finite state machine (FSM)

Untuk meningkatkan kualitas laporan, para engineer menambahkan kompleksitas pada pendekatan DAG
Alih-alih proses satu lintasan, mereka memperkenalkan pola terstruktur seperti Reflexion dan self-reflection agar LLM meninjau dan memperbaiki outputnya sendiri
Ini mengubah DAG sederhana menjadi finite state machine (FSM), dengan LLM sebagian memandu transisi status
- Seperti pendekatan DAG, semua prompt tetap ditulis secara manual dan evaluasinya subjektif
- Karena sistem disetel secara manual, kualitas laporan masih sangat bervariasi

Learning: end-to-end

Kekurangan metode sebelumnya, yaitu prompt engineering yang serba acak dan tidak adanya metrik evaluasi yang dapat diukur, mendorong perubahan
STORM dari Stanford menyelesaikan masalah ini dengan mengoptimalkan sistem secara end-to-end menggunakan DSPy
- Hasilnya, STORM menghasilkan laporan dengan kualitas yang sebanding dengan artikel Wikipedia

Learning: large-scale reasoning model

Seiring meningkatnya kemampuan penalaran LLM, large-scale reasoning model menjadi opsi yang menarik untuk Deep Research
Misalnya, OpenAI melatih model Deep Research dengan cara berikut
- Mengevaluasi output menggunakan LLM-as-a-judge dan rubrik evaluasi
Asisten chat Gemini dari Google dan Perplexity juga menyediakan fitur 'Deep Research', tetapi mereka tidak memublikasikan dokumen tentang bagaimana model atau sistem mereka dioptimalkan maupun evaluasi kuantitatif yang substansial
Namun, manajer produk Deep Research di Google menyebutkan dalam sebuah wawancara podcast, "Ada hak akses khusus. Modelnya hampir sama (Gemini 1.5). Tentu saja kami melakukan pekerjaan pelatihan lanjutan kami sendiri"
Ini menunjukkan bahwa porsi fine-tuning tidak terlalu besar
Sementara itu, Grok dari xAI unggul dalam pembuatan laporan, tetapi tampaknya tidak melakukan pencarian lebih dari dua iterasi
Polanya adalah mencari beberapa kali untuk bagian kerangka, lalu beberapa kali untuk tiap bagian

Peta persaingan

Sebuah peta konseptual dikembangkan untuk menilai kapabilitas berbagai layanan yang menyediakan fitur Deep Research
Sumbu vertikal: kedalaman riset (jumlah siklus iteratif untuk mengumpulkan informasi tambahan berdasarkan hasil sebelumnya)
Sumbu horizontal: tingkat learning (dari sistem yang disetel manual hingga sistem yang sepenuhnya dilatih dengan teknik machine learning)
Contoh sistem learning yang representatif:
- OpenAI Deep Research: sistem berbasis reinforcement learning yang dioptimalkan untuk tugas riset
- DeepSeek: dilatih untuk penalaran umum dan penggunaan alat, serta dapat beradaptasi dengan kebutuhan riset
- Google Gemini: LLM yang dilatih secara luas, tetapi tidak secara khusus untuk riset
- Stanford STORM: sistem yang mengoptimalkan seluruh proses riset secara end-to-end
Kerangka ini membantu memahami bagaimana tiap layanan menyeimbangkan kedalaman riset iteratif dan pendekatan learning

Kesimpulan

Teknologi Deep Research berkembang sangat cepat, dan teknik yang beberapa bulan lalu tidak efektif atau belum diimplementasikan kini berhasil diterapkan
Namun, penggunaan istilahnya yang ambigu justru menambah kebingungan
Semoga tulisan ini membantu memperjelas perbedaan teknis dan mencegah orang terbawa oleh istilah pemasaran

2 komentar

halfenif 2025-03-10

> Seorang rekan bercanda, “AlphaGO memang mengalahkan Lee Sedol, tetapi Lee Sedol punya algoritme mobil otonom yang jauh lebih baik”

Namun Lee Sedol hanya satu orang dan tidak bisa diduplikasi

GN⁺ 2025-03-06

Opini Hacker News

Pembedaan antara DeepSearch dan DeepResearch yang diajukan Han Xiao sangat menarik
- DeepSearch adalah proses mengulang pencarian, membaca, dan penalaran sampai menemukan jawaban terbaik
- DeepResearch menambahkan framework terstruktur ke DeepSearch untuk menghasilkan laporan riset yang panjang
- Saya rasa DeepSearch adalah pola yang lebih bernilai dan lebih menarik
- DeepResearch hanyalah efek kosmetik yang membungkus hasil sebagai sebuah "laporan", dan sangat mungkin menghasilkan hasil yang tidak akurat atau menyesatkan
Seorang rekan bercanda, "AlphaGO mengalahkan Lee Sedol, tapi Lee Sedol punya algoritma kendaraan otonom yang jauh lebih baik"
- Ini menekankan besarnya perbedaan antara sistem AI paling maju dan "kemampuan rata-rata" manusia biasa seiring waktu
Ini tampaknya menangkap dengan baik perbedaan antara apa yang ditawarkan OpenAI dan perusahaan lain
- Gemini 2.0 Flash dari Google juga memiliki integrasi native dengan Google Search
- DR milik OpenAI cenderung melatih model untuk tugas tertentu
- Mereka bergerak ke arah menyediakan model + pelatihan lanjutan RL sebagai produk
- genspark MOA menghasilkan laporan mendalam untuk prompt yang diberikan
AI makin beragam, dan kemungkinan akan muncul berbagai macam agen
Katanya Grok unggul dalam pembuatan laporan, dan dengan meminta jawaban dalam format tabel, hasilnya jadi mudah dibandingkan
- Amazon memilih produk yang akan dibandingkan, tetapi item perbandingannya kurang baik
- Dengan Grok, kita bisa menambah atau menghapus kolom, dan mempersingkat respons
DR adalah cara yang baik untuk mengumpulkan informasi dan melakukan riset nyata dari titik awal yang terfokus
- Fakta bahwa LLM yang melakukannya tidak berarti ia menjadi lebih bijak
- LLM tidak memahami topik secara lebih mendalam
- Diperlukan kemampuan yang lebih dalam untuk integrasi dan penerapan informasi
- Karena keterbatasan arsitektur transformer, pembelajaran real-time itu sulit
Saat membandingkan OpenAI Deep Research dengan Deep Research milik Perplexity, ada perbedaan "sempit dan dalam" vs "dangkal dan luas"
- OpenAI memilih sumber berkualitas tinggi dan menggali topik tertentu secara mendalam
- Perplexity memakai banyak sumber untuk memberikan cakupan permukaan atas ruang masalah
- OpenAI memerlukan waktu lebih lama
Saya sudah mencoba berbagai workflow lewat Deep Search/Research
- Ada pendekatan imperatif (memilih sumber secara langsung lalu membuat laporan) dan deklaratif (menggunakan algoritma DFS/BFS)
- Saya terpesona oleh alur end-to-end dari sistem seperti STORM
STORM mendapat penilaian tinggi, tetapi GPT Researcher tidak
- GPT Researcher bisa dikonfigurasi sesuai berbagai anggaran
Ini adalah platform pengorganisasian informasi terbesar di internet, tetapi orang belum menemukan kata lain untuk menjelaskan produknya