WebMCP (Web Model Context Protocol) diperkenalkan
(developer.chrome.com)- WebMCP adalah standar usulan yang dirancang agar situs web dapat langsung mengekspos tool terstruktur kepada AI agent di dalam browser
- Alih-alih screen scraping atau inferensi DOM, web sendiri menyediakan "apa yang bisa dilakukan di halaman ini" beserta fungsi serta input-output dalam bentuk kontrak eksplisit
- Mendukung mulai dari pekerjaan berbasis formulir HTML hingga interaksi JavaScript yang kompleks melalui API deklaratif dan API imperatif
- Struktur kontrak tempat agent dapat menemukan (Discovery) tool di halaman, mendeskripsikan input-output dengan JSON Schema, dan berbagi status (State) halaman saat ini
- Termasuk sebagai early preview di Chrome versi 146. Untuk mencoba lebih awal, perlu mendaftar ke Chrome built-in AI Early Preview Program
- Berbeda dari MCP yang merupakan protokol sisi server, WebMCP menonjol sebagai protokol untuk AI agent sisi klien di dalam browser
Draf spesifikasi: WebMCP Early Preview
Latar belakang kemunculan WebMCP
- Di lingkungan web agent, AI semakin sering menjalankan tugas nyata atas nama pengguna seperti reservasi, pengiriman, perubahan pengaturan, dan navigasi
- Web yang ada selama ini dirancang dengan asumsi pengguna manusia, sehingga agent harus menyimpulkan makna tombol atau struktur formulir
- Akibatnya, kesalahan input, pemetaan field yang keliru, dan kerapuhan akibat perubahan UI terus berulang
- Untuk mengatasi masalah ini, WebMCP memperkenalkan kontrak interaksi eksplisit antara web dan agent
- Alih-alih agent menebak tujuan tombol atau struktur formulir, situs web mempublikasikan antarmukanya secara eksplisit
- Kontrak ini terdiri dari tiga elemen inti:
- Discovery: agent mengambil daftar tool yang didukung halaman (misalnya
checkout,filter_results) dengan cara terstandarisasi - JSON Schema: definisi eksplisit untuk input dan output yang diharapkan guna mengurangi halusinasi (hallucination) atau kesalahpahaman
- State: pemahaman bersama tentang konteks halaman saat ini, sehingga agent dapat mengetahui resource yang tersedia secara real-time
- Discovery: agent mengambil daftar tool yang didukung halaman (misalnya
Konsep inti WebMCP
-
Eksposur tool terstruktur
- Situs web mendeklarasikan fungsi yang disediakannya dalam bentuk tool
- Setiap tool mendefinisikan nama, deskripsi, skema input (
JSON Schema), dan hasil eksekusi secara jelas - Agent bisa memahami dengan tepat apa yang harus dipanggil tanpa menafsirkan DOM
-
Kontrak alih-alih inferensi
- Alih-alih menebak arti tombol atau menganalisis UI kalender, web langsung mengungkapkan maksud dan aturannya
- Format input-output tetap sehingga halusinasi (hallucination) dan malfungsi berkurang
- Selama kontrak tool tetap dipertahankan, perilaku agent tetap stabil meski UI berubah
Dua model API
-
API deklaratif (Declarative API)
- Mengubah elemen HTML
<form>menjadi tool hanya dengan menambahkan atribut - Arti tool dideklarasikan lewat atribut
toolname,tooldescription - Field formulir langsung menjadi parameter input tool
- Browser otomatis mengubahnya menjadi
JSON Schema - Cocok untuk tugas sederhana dan berulang, serta UI berbasis formulir yang sudah ada
- Mengubah elemen HTML
-
API imperatif (Imperative API)
- Tool didaftarkan langsung dengan JavaScript
- Menyediakan API seperti
registerTool,provideContext,unregisterTool - Cocok untuk logika kompleks, percabangan kondisi, pemrosesan asinkron, dan perilaku berbasis status
- Sangat berguna pada SPA atau aplikasi web tingkat lanjut
Cara browser dan agent berinteraksi
- Saat agent memanggil tool, browser otomatis memfokuskan UI terkait dan mengisi input
- Apakah formulir dipanggil oleh agent dapat dibedakan dengan flag
agentInvoked - Saat berhasil atau dibatalkan, event
toolactivated,toolcancelakan dipicu - Feedback visual disediakan melalui CSS pseudo-class (
:tool-form-active,:tool-submit-active) - Alur penggunaan manusia dan agent dapat disatukan dalam model status UI yang sama
Skenario penggunaan yang representatif
- Jika situs maskapai menyediakan tool
book_flight, agent dapat langsung mengirim informasi penumpang terstruktur tanpa menafsirkan UI kalender - Di portal medis atau hukum, arti field bisa disampaikan dengan jelas melalui tool
submit_application - Di halaman pengaturan developer, tool seperti
run_diagnosticsdapat diekspos untuk menjalankan menu tersembunyi secara otomatis - Sangat efektif terutama di area yang membutuhkan input dengan keandalan tinggi seperti dukungan pelanggan, e-commerce, dan layanan perjalanan
Perbedaan WebMCP dan MCP
- MCP (Model Context Protocol) adalah protokol sisi server yang memerlukan deployment server terpisah
- WebMCP berjalan di dalam browser dan terintegrasi langsung ke aplikasi web yang ada
- Tanpa server pun, fungsi sisi klien dapat diberikan kepada agent
- Perbedaan utamanya adalah pendekatan berpusat pada frontend dengan asumsi browser agent
Status saat ini dan keterbatasan
- Bisa digunakan di Chrome 146 ke atas jika flag diaktifkan
- Tidak bekerja di lingkungan headless dan memerlukan konteks browsing yang terlihat
- Belum ada mekanisme untuk menemukan situs yang menyediakan tool secara otomatis
- Sinkronisasi status UI menjadi tanggung jawab developer
- Masih tahap preview awal, sehingga ada kemungkinan perubahan API dan friksi implementasi
3 komentar
Setelah @firt membicarakannya di X, ini jadi cukup ramai dibahas. Saya memakai tautan dari Google.
Katanya, untuk otomatisasi situs web, ini bisa dilakukan hanya dengan 10% token dibanding analisis screenshot/DOM.
Ini juga sejalan dengan perkiraan bahwa software yang menghemat biaya token akan bertahan karena tekanan evolusioner.
Kalau Chrome yang memimpin, sepertinya browser lain juga akan segera mengadopsinya.
Rasanya seperti Swagger untuk agent.