42 poin oleh xguru 2026-02-11 | 3 komentar | Bagikan ke WhatsApp
  • WebMCP adalah standar usulan yang dirancang agar situs web dapat langsung mengekspos tool terstruktur kepada AI agent di dalam browser
  • Alih-alih screen scraping atau inferensi DOM, web sendiri menyediakan "apa yang bisa dilakukan di halaman ini" beserta fungsi serta input-output dalam bentuk kontrak eksplisit
  • Mendukung mulai dari pekerjaan berbasis formulir HTML hingga interaksi JavaScript yang kompleks melalui API deklaratif dan API imperatif
  • Struktur kontrak tempat agent dapat menemukan (Discovery) tool di halaman, mendeskripsikan input-output dengan JSON Schema, dan berbagi status (State) halaman saat ini
  • Termasuk sebagai early preview di Chrome versi 146. Untuk mencoba lebih awal, perlu mendaftar ke Chrome built-in AI Early Preview Program
  • Berbeda dari MCP yang merupakan protokol sisi server, WebMCP menonjol sebagai protokol untuk AI agent sisi klien di dalam browser

Draf spesifikasi: WebMCP Early Preview

Latar belakang kemunculan WebMCP

  • Di lingkungan web agent, AI semakin sering menjalankan tugas nyata atas nama pengguna seperti reservasi, pengiriman, perubahan pengaturan, dan navigasi
  • Web yang ada selama ini dirancang dengan asumsi pengguna manusia, sehingga agent harus menyimpulkan makna tombol atau struktur formulir
  • Akibatnya, kesalahan input, pemetaan field yang keliru, dan kerapuhan akibat perubahan UI terus berulang
  • Untuk mengatasi masalah ini, WebMCP memperkenalkan kontrak interaksi eksplisit antara web dan agent
  • Alih-alih agent menebak tujuan tombol atau struktur formulir, situs web mempublikasikan antarmukanya secara eksplisit
  • Kontrak ini terdiri dari tiga elemen inti:
    • Discovery: agent mengambil daftar tool yang didukung halaman (misalnya checkout, filter_results) dengan cara terstandarisasi
    • JSON Schema: definisi eksplisit untuk input dan output yang diharapkan guna mengurangi halusinasi (hallucination) atau kesalahpahaman
    • State: pemahaman bersama tentang konteks halaman saat ini, sehingga agent dapat mengetahui resource yang tersedia secara real-time

Konsep inti WebMCP

  • Eksposur tool terstruktur

    • Situs web mendeklarasikan fungsi yang disediakannya dalam bentuk tool
    • Setiap tool mendefinisikan nama, deskripsi, skema input (JSON Schema), dan hasil eksekusi secara jelas
    • Agent bisa memahami dengan tepat apa yang harus dipanggil tanpa menafsirkan DOM
  • Kontrak alih-alih inferensi

    • Alih-alih menebak arti tombol atau menganalisis UI kalender, web langsung mengungkapkan maksud dan aturannya
    • Format input-output tetap sehingga halusinasi (hallucination) dan malfungsi berkurang
    • Selama kontrak tool tetap dipertahankan, perilaku agent tetap stabil meski UI berubah

Dua model API

  • API deklaratif (Declarative API)

    • Mengubah elemen HTML <form> menjadi tool hanya dengan menambahkan atribut
    • Arti tool dideklarasikan lewat atribut toolname, tooldescription
    • Field formulir langsung menjadi parameter input tool
    • Browser otomatis mengubahnya menjadi JSON Schema
    • Cocok untuk tugas sederhana dan berulang, serta UI berbasis formulir yang sudah ada
  • API imperatif (Imperative API)

    • Tool didaftarkan langsung dengan JavaScript
    • Menyediakan API seperti registerTool, provideContext, unregisterTool
    • Cocok untuk logika kompleks, percabangan kondisi, pemrosesan asinkron, dan perilaku berbasis status
    • Sangat berguna pada SPA atau aplikasi web tingkat lanjut

Cara browser dan agent berinteraksi

  • Saat agent memanggil tool, browser otomatis memfokuskan UI terkait dan mengisi input
  • Apakah formulir dipanggil oleh agent dapat dibedakan dengan flag agentInvoked
  • Saat berhasil atau dibatalkan, event toolactivated, toolcancel akan dipicu
  • Feedback visual disediakan melalui CSS pseudo-class (:tool-form-active, :tool-submit-active)
  • Alur penggunaan manusia dan agent dapat disatukan dalam model status UI yang sama

Skenario penggunaan yang representatif

  • Jika situs maskapai menyediakan tool book_flight, agent dapat langsung mengirim informasi penumpang terstruktur tanpa menafsirkan UI kalender
  • Di portal medis atau hukum, arti field bisa disampaikan dengan jelas melalui tool submit_application
  • Di halaman pengaturan developer, tool seperti run_diagnostics dapat diekspos untuk menjalankan menu tersembunyi secara otomatis
  • Sangat efektif terutama di area yang membutuhkan input dengan keandalan tinggi seperti dukungan pelanggan, e-commerce, dan layanan perjalanan

Perbedaan WebMCP dan MCP

  • MCP (Model Context Protocol) adalah protokol sisi server yang memerlukan deployment server terpisah
  • WebMCP berjalan di dalam browser dan terintegrasi langsung ke aplikasi web yang ada
  • Tanpa server pun, fungsi sisi klien dapat diberikan kepada agent
  • Perbedaan utamanya adalah pendekatan berpusat pada frontend dengan asumsi browser agent

Status saat ini dan keterbatasan

  • Bisa digunakan di Chrome 146 ke atas jika flag diaktifkan
  • Tidak bekerja di lingkungan headless dan memerlukan konteks browsing yang terlihat
  • Belum ada mekanisme untuk menemukan situs yang menyediakan tool secara otomatis
  • Sinkronisasi status UI menjadi tanggung jawab developer
  • Masih tahap preview awal, sehingga ada kemungkinan perubahan API dan friksi implementasi

3 komentar

 
xguru 2026-02-11

Setelah @firt membicarakannya di X, ini jadi cukup ramai dibahas. Saya memakai tautan dari Google.

Katanya, untuk otomatisasi situs web, ini bisa dilakukan hanya dengan 10% token dibanding analisis screenshot/DOM.
Ini juga sejalan dengan perkiraan bahwa software yang menghemat biaya token akan bertahan karena tekanan evolusioner.

 
crawler 2026-02-11

Kalau Chrome yang memimpin, sepertinya browser lain juga akan segera mengadopsinya.

 
parkindani 2026-02-11

Rasanya seperti Swagger untuk agent.