6 poin oleh GN⁺ 2025-03-06 | 2 komentar | Bagikan ke WhatsApp
  • Belakangan ini, lab AI mengumumkan berbagai fitur dengan menggunakan istilah 'Deep Research'
  • Google merilis Gemini 1.5 Deep Research pada Desember 2024, OpenAI merilis Deep Research pada Februari 2025, dan Perplexity segera setelah itu memperkenalkan Deep Research versinya sendiri
  • Selain itu, DeepSeek, Qwen milik Alibaba, dan xAI milik Elon Musk juga memperkenalkan fitur Search dan Deep Search ke asisten chatbot mereka
  • Di GitHub, muncul puluhan implementasi open source 'Deep Research'
  • Ini menunjukkan bahwa, mirip dengan Retrieval-Augmented Generation (RAG) pada 2025, istilah 'Deep Research' sedang digunakan tanpa definisi yang jelas

Deep Research, Deep Search, atau sekadar Search

> Google : "Deep Research menggunakan AI untuk mengeksplorasi topik yang kompleks, memberikan laporan yang komprehensif dan mudah dibaca, serta menunjukkan bahwa Gemini semakin mahir menangani tugas-tugas kompleks untuk menghemat waktu." -
> OpenAI : "Deep Research adalah agen generasi berikutnya dari OpenAI; ketika pengguna memberikan prompt, ChatGPT mencari, menganalisis, dan menyintesis ratusan sumber online untuk menghasilkan laporan komprehensif setingkat analis riset."
> Perplexity : "Saat Anda mengajukan pertanyaan Deep Research, Perplexity melakukan puluhan pencarian, membaca ratusan sumber, menalar materi, dan secara otonom memberikan laporan yang komprehensif."

  • Jika mengesampingkan istilah pemasaran, Deep Research dapat didefinisikan sebagai berikut
    > Sebuah sistem pembuatan laporan yang menerima kueri pengguna, menggunakan large language model (LLM) sebagai agen untuk mencari dan menganalisis informasi secara berulang, lalu menghasilkan laporan terperinci
  • Dalam istilah natural language processing (NLP), ini dikenal sebagai 'report generation'

Metode implementasi

  • Sejak kemunculan ChatGPT, pembuatan laporan atau 'Deep Research' telah menjadi fokus utama AI engineering
  • Penulis telah bereksperimen dengan ini dalam sebuah hackathon pada awal 2023, saat AI engineering baru mulai bangkit
  • Alat seperti LangChain, AutoGPT, GPT-Researcher, prompt engineering, serta banyak demo mendapat perhatian besar di Twitter dan LinkedIn
  • Namun, tantangan sebenarnya ada pada detail implementasi
  • Di bawah ini, dibahas pola umum untuk membangun sistem pembuatan laporan, menyoroti perbedaannya, dan mengklasifikasikan penawaran dari berbagai vendor

Non-learning: directed acyclic graph (DAG)

  • Pada tahap awal, ditemukan bahwa tidak praktis meminta LLM seperti GPT-3.5 untuk menghasilkan laporan dari nol
  • Sebagai gantinya, digunakan pola Composite untuk menghubungkan beberapa pemanggilan LLM
  • Kueri pengguna dipecah untuk membuat kerangka laporan
  • Untuk setiap bagian, informasi terkait dicari dari mesin pencari atau knowledge base lalu diringkas
  • Terakhir, LLM digunakan untuk menggabungkan bagian-bagian tersebut menjadi laporan yang koheren
  • GPT-Researcher adalah contohnya
    • Semua prompt dalam sistem ini disetel dengan cermat melalui 'prompt engineering'
    • Evaluasi bergantung pada pemeriksaan output yang subjektif, dan kualitas laporan tidak konsisten
    • Saat berhasil, hasilnya sangat baik, tetapi tidak selalu stabil

Non-learning: finite state machine (FSM)

  • Untuk meningkatkan kualitas laporan, para engineer menambahkan kompleksitas pada pendekatan DAG
  • Alih-alih proses satu lintasan, mereka memperkenalkan pola terstruktur seperti Reflexion dan self-reflection agar LLM meninjau dan memperbaiki outputnya sendiri
  • Ini mengubah DAG sederhana menjadi finite state machine (FSM), dengan LLM sebagian memandu transisi status
    • Seperti pendekatan DAG, semua prompt tetap ditulis secara manual dan evaluasinya subjektif
    • Karena sistem disetel secara manual, kualitas laporan masih sangat bervariasi

Learning: end-to-end

  • Kekurangan metode sebelumnya, yaitu prompt engineering yang serba acak dan tidak adanya metrik evaluasi yang dapat diukur, mendorong perubahan
  • STORM dari Stanford menyelesaikan masalah ini dengan mengoptimalkan sistem secara end-to-end menggunakan DSPy
    • Hasilnya, STORM menghasilkan laporan dengan kualitas yang sebanding dengan artikel Wikipedia

Learning: large-scale reasoning model

  • Seiring meningkatnya kemampuan penalaran LLM, large-scale reasoning model menjadi opsi yang menarik untuk Deep Research
  • Misalnya, OpenAI melatih model Deep Research dengan cara berikut
    • Mengevaluasi output menggunakan LLM-as-a-judge dan rubrik evaluasi
  • Asisten chat Gemini dari Google dan Perplexity juga menyediakan fitur 'Deep Research', tetapi mereka tidak memublikasikan dokumen tentang bagaimana model atau sistem mereka dioptimalkan maupun evaluasi kuantitatif yang substansial
  • Namun, manajer produk Deep Research di Google menyebutkan dalam sebuah wawancara podcast, "Ada hak akses khusus. Modelnya hampir sama (Gemini 1.5). Tentu saja kami melakukan pekerjaan pelatihan lanjutan kami sendiri"
  • Ini menunjukkan bahwa porsi fine-tuning tidak terlalu besar
  • Sementara itu, Grok dari xAI unggul dalam pembuatan laporan, tetapi tampaknya tidak melakukan pencarian lebih dari dua iterasi
  • Polanya adalah mencari beberapa kali untuk bagian kerangka, lalu beberapa kali untuk tiap bagian

Peta persaingan

  • Sebuah peta konseptual dikembangkan untuk menilai kapabilitas berbagai layanan yang menyediakan fitur Deep Research
  • Sumbu vertikal: kedalaman riset (jumlah siklus iteratif untuk mengumpulkan informasi tambahan berdasarkan hasil sebelumnya)
  • Sumbu horizontal: tingkat learning (dari sistem yang disetel manual hingga sistem yang sepenuhnya dilatih dengan teknik machine learning)
  • Contoh sistem learning yang representatif:
    • OpenAI Deep Research: sistem berbasis reinforcement learning yang dioptimalkan untuk tugas riset
    • DeepSeek: dilatih untuk penalaran umum dan penggunaan alat, serta dapat beradaptasi dengan kebutuhan riset
    • Google Gemini: LLM yang dilatih secara luas, tetapi tidak secara khusus untuk riset
    • Stanford STORM: sistem yang mengoptimalkan seluruh proses riset secara end-to-end
  • Kerangka ini membantu memahami bagaimana tiap layanan menyeimbangkan kedalaman riset iteratif dan pendekatan learning

Kesimpulan

  • Teknologi Deep Research berkembang sangat cepat, dan teknik yang beberapa bulan lalu tidak efektif atau belum diimplementasikan kini berhasil diterapkan
  • Namun, penggunaan istilahnya yang ambigu justru menambah kebingungan
  • Semoga tulisan ini membantu memperjelas perbedaan teknis dan mencegah orang terbawa oleh istilah pemasaran

2 komentar

 
halfenif 2025-03-10

> Seorang rekan bercanda, “AlphaGO memang mengalahkan Lee Sedol, tetapi Lee Sedol punya algoritme mobil otonom yang jauh lebih baik”

Namun Lee Sedol hanya satu orang dan tidak bisa diduplikasi

 
GN⁺ 2025-03-06
Opini Hacker News
  • Pembedaan antara DeepSearch dan DeepResearch yang diajukan Han Xiao sangat menarik

    • DeepSearch adalah proses mengulang pencarian, membaca, dan penalaran sampai menemukan jawaban terbaik
    • DeepResearch menambahkan framework terstruktur ke DeepSearch untuk menghasilkan laporan riset yang panjang
    • Saya rasa DeepSearch adalah pola yang lebih bernilai dan lebih menarik
    • DeepResearch hanyalah efek kosmetik yang membungkus hasil sebagai sebuah "laporan", dan sangat mungkin menghasilkan hasil yang tidak akurat atau menyesatkan
  • Seorang rekan bercanda, "AlphaGO mengalahkan Lee Sedol, tapi Lee Sedol punya algoritma kendaraan otonom yang jauh lebih baik"

    • Ini menekankan besarnya perbedaan antara sistem AI paling maju dan "kemampuan rata-rata" manusia biasa seiring waktu
  • Ini tampaknya menangkap dengan baik perbedaan antara apa yang ditawarkan OpenAI dan perusahaan lain

    • Gemini 2.0 Flash dari Google juga memiliki integrasi native dengan Google Search
    • DR milik OpenAI cenderung melatih model untuk tugas tertentu
    • Mereka bergerak ke arah menyediakan model + pelatihan lanjutan RL sebagai produk
    • genspark MOA menghasilkan laporan mendalam untuk prompt yang diberikan
  • AI makin beragam, dan kemungkinan akan muncul berbagai macam agen

  • Katanya Grok unggul dalam pembuatan laporan, dan dengan meminta jawaban dalam format tabel, hasilnya jadi mudah dibandingkan

    • Amazon memilih produk yang akan dibandingkan, tetapi item perbandingannya kurang baik
    • Dengan Grok, kita bisa menambah atau menghapus kolom, dan mempersingkat respons
  • DR adalah cara yang baik untuk mengumpulkan informasi dan melakukan riset nyata dari titik awal yang terfokus

    • Fakta bahwa LLM yang melakukannya tidak berarti ia menjadi lebih bijak
    • LLM tidak memahami topik secara lebih mendalam
    • Diperlukan kemampuan yang lebih dalam untuk integrasi dan penerapan informasi
    • Karena keterbatasan arsitektur transformer, pembelajaran real-time itu sulit
  • Saat membandingkan OpenAI Deep Research dengan Deep Research milik Perplexity, ada perbedaan "sempit dan dalam" vs "dangkal dan luas"

    • OpenAI memilih sumber berkualitas tinggi dan menggali topik tertentu secara mendalam
    • Perplexity memakai banyak sumber untuk memberikan cakupan permukaan atas ruang masalah
    • OpenAI memerlukan waktu lebih lama
  • Saya sudah mencoba berbagai workflow lewat Deep Search/Research

    • Ada pendekatan imperatif (memilih sumber secara langsung lalu membuat laporan) dan deklaratif (menggunakan algoritma DFS/BFS)
    • Saya terpesona oleh alur end-to-end dari sistem seperti STORM
  • STORM mendapat penilaian tinggi, tetapi GPT Researcher tidak

    • GPT Researcher bisa dikonfigurasi sesuai berbagai anggaran
  • Ini adalah platform pengorganisasian informasi terbesar di internet, tetapi orang belum menemukan kata lain untuk menjelaskan produknya