API Gemini Deep Research Agent Dirilis
(x.com/GoogleAIStudio)Google telah merilis Gemini Deep Research Agent sebagai API. Deep Research adalah fitur yang memungkinkan AI menyusun rencana pencarian sendiri untuk pertanyaan yang diajukan pengguna, lalu menjelajahi, membandingkan, dan mensintesis banyak halaman web untuk secara otomatis menghasilkan laporan panjang yang disertai sumber. Sebelumnya fitur ini hanya bisa digunakan di web UI Google AI Studio, tetapi kini developer dapat langsung mengintegrasikannya ke aplikasi mereka melalui antarmuka asinkron baru bernama Interactions API. Berbeda dari pemanggilan generate_content yang sudah ada, tugas ini berjalan di background selama beberapa menit, sehingga setelah mengirim permintaan, struktur penggunaannya adalah memeriksa status penyelesaian secara berkala (polling) atau menerima progres melalui streaming.
Model yang tersedia
deep-research-preview-04-2026: berfokus pada kecepatan dan efisiensi. Cocok untuk streaming real-time ke UI klien.deep-research-max-preview-04-2026: mengejar cakupan semaksimal mungkin. Unggul dalam pengumpulan konteks dan sintesis otomatis.
Ringkasan fitur utama
- Collaborative Planning : alih-alih langsung menjalankan riset, agen terlebih dahulu menyajikan rencana. Setelah pengguna meninjau, mengubah, lalu menyetujuinya, barulah eksekusi penuh dimulai.
- Pembuatan chart dan infografik otomatis : jika opsi
visualization="auto"diaktifkan, agen akan membuat chart dan grafik sendiri lalu mengembalikannya sebagai gambar yang dienkode base64. - Integrasi server MCP : mendukung Model Context Protocol (standar terbuka untuk menghubungkan tool eksternal ke LLM), sehingga tool dari layanan eksternal seperti data finansial dapat dihubungkan ke agen.
- Set tool yang diperluas : Google Search, pembacaan konten URL, dan eksekusi kode tersedia secara bawaan. File search (untuk dokumen yang diunggah) dan server MCP dapat ditambahkan secara opsional.
- Input multimodal : tidak hanya teks, tetapi juga gambar, PDF, dan file audio dapat dikirim bersama sebagai konteks riset.
- Streaming real-time dan ringkasan pemikiran : progres riset dapat diterima secara real-time melalui streaming, dan jika
thinking_summaries="auto"diaktifkan, proses penalaran antara agen juga bisa dilihat dalam bentuk ringkasan.
Contoh kode utama
Ini adalah cara penggunaan paling dasar. Dengan background=True, tugas asinkron dimulai, lalu status penyelesaian dipolling setiap 10 detik.
import time
from google import genai
client = genai.Client()
interaction = client.interactions.create(
input="Research the history of Google TPUs.",
agent="deep-research-preview-04-2026",
background=True,
)
while True:
interaction = client.interactions.get(interaction.id)
if interaction.status == "completed":
print(interaction.outputs[-1].text)
break
elif interaction.status == "failed":
print(f"Research failed: {interaction.error}")
break
time.sleep(10)
Berikut alur collaborative planning. Pertama, ambil rencana saja dengan collaborative_planning=True, beri feedback, lalu pada tahap akhir harus diubah ke False agar riset yang sebenarnya dimulai. Perlu diperhatikan bahwa jika hanya mengirim teks seperti "go ahead" tanpa mengubah flag tersebut, laporan tidak akan dibuat.
# Langkah 1: minta rencana
plan = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Research Google TPUs vs competitor hardware.",
agent_config={"type": "deep-research", "collaborative_planning": True},
background=True,
)
while (result := client.interactions.get(id=plan.id)).status != "completed":
time.sleep(5)
print(result.outputs[-1].text) # output rencana
# Langkah 2: revisi rencana (lanjutkan percakapan dengan previous_interaction_id)
refined = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Add a section comparing power efficiency.",
agent_config={"type": "deep-research", "collaborative_planning": True},
previous_interaction_id=plan.id,
background=True,
)
while (result := client.interactions.get(id=refined.id)).status != "completed":
time.sleep(5)
print(result.outputs[-1].text) # rencana yang telah direvisi
# Langkah 3: setujui lalu jalankan (wajib ubah collaborative_planning=False)
report = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Plan looks good!",
agent_config={"type": "deep-research", "collaborative_planning": False},
previous_interaction_id=refined.id,
background=True,
)
while (result := client.interactions.get(id=report.id)).status != "completed":
time.sleep(5)
print(result.outputs[-1].text) # laporan akhir
Berikut contoh pembuatan chart dan input multimodal. Opsi visualisasi sebaiknya diaktifkan, tetapi hasil akan lebih baik jika prompt juga menjelaskan secara spesifik chart seperti apa yang diinginkan.
# Riset dengan chart
interaction = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Analyze global semiconductor market trends. Include charts showing market share changes.",
agent_config={"type": "deep-research", "visualization": "auto"},
background=True,
)
# Riset multimodal dengan paper PDF sebagai konteks
interaction = client.interactions.create(
agent="deep-research-preview-04-2026",
input=[
{"type": "text", "text": "What has been the impact of this research paper?"},
{"type": "document", "uri": "https://arxiv.org/pdf/1706.03762", "mime_type": "application/pdf"},
],
background=True,
)
Berikut contoh menghubungkan server MCP untuk menyediakan data finansial eksternal kepada agen. allowed_tools juga dapat digunakan untuk membatasi tool yang boleh dipanggil agen.
interaction = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Research how recent geopolitical events influenced USD interest rates",
tools=[
{
"type": "mcp_server",
"name": "Finance Data Provider",
"url": "https://finance.example.com/mcp",
"headers": {"Authorization": "Bearer my-token"},
}
],
background=True,
)
Pembeda
- Yang menonjol adalah ini bukan sekadar RAG sederhana (retrieval-augmented generation, teknik mencari dokumen eksternal lalu memberikannya ke LLM) atau satu kali tanya-jawab, melainkan otomatisasi workflow riset panjang berupa perencanaan-pencarian-sintesis hanya dengan satu API. Secara khusus, collaborative planning menunjukkan dengan jelas filosofi desain "agen mengerjakan sendiri, tetapi arah ditentukan manusia".
- Karena pencarian web publik dan pencarian dokumen privat dapat dikombinasikan hanya lewat pengaturan tool, terbuka juga kemungkinan pemanfaatan untuk riset berbasis materi internal perusahaan.
Implikasi
- Dengan hadirnya agen riset AI di level API, kini fitur "deep research" dapat diintegrasikan langsung ke aplikasi tanpa framework agen terpisah. Namun, struktur API berbasis polling asinkron menuntut perubahan pola desain bagi developer yang terbiasa dengan pemanggilan LLM sinkron, dan bagaimana menangani latensi respons yang mencapai hitungan menit dari sisi UX tampaknya akan menjadi tantangan utama saat implementasi nyata.
Belum ada komentar.