Vibium - Alat otomatisasi browser untuk AI dan manusia
(github.com/VibiumDev)- Jason Huggins, yang mengembangkan Selenium 21 tahun lalu, kini membangunnya kembali dengan mempertimbangkan agen AI dalam proyek open source otomatisasi browser ini
- Vibium adalah infrastruktur otomatisasi browser untuk agen AI, yang mengelola siklus hidup browser dan protokol WebDriver BiDi dalam satu biner tunggal serta mengekspos server MCP
- Clicker, biner Go tunggal berukuran 10MB, secara otomatis mendeteksi dan menjalankan Chrome, lalu memungkinkan model AI atau klien JS mengendalikan browser melalui proxy BiDi dan server MCP
- Klien JS/TS mendukung API sinkron maupun asinkron, dan dapat langsung digunakan setelah instalasi dengan
npm install vibium - Agen LLM seperti Claude Code dapat menambahkan kemampuan kontrol browser hanya dengan satu perintah:
claude mcp add vibium - Cocok untuk otomatisasi AI maupun otomatisasi pengujian, serta menyediakan lingkungan kontrol browser tanpa konfigurasi
Ikhtisar Vibium
- Vibium adalah infrastruktur otomatisasi browser untuk agen AI dan pengguna manusia
- Menggabungkan manajemen browser, proxy WebDriver BiDi, dan fungsi server MCP dalam satu biner Go
- Kompatibel dengan berbagai model LLM seperti Claude Code, Codex, Gemini, dan lainnya
- Dirancang untuk langsung berjalan tanpa proses instalasi yang rumit, sehingga dapat dimanfaatkan dalam lingkungan agen AI maupun otomatisasi pengujian
Komponen
- Clicker: biner Go sekitar 10MB yang menjalankan fungsi berikut
- Deteksi otomatis Chrome dan menjalankannya dalam mode BiDi
- Meneruskan perintah melalui server proxy BiDi berbasis WebSocket
- Berkomunikasi dengan agen LLM melalui server MCP
- Menyediakan fitur Auto-Wait untuk menunggu elemen sebelum berinteraksi
- Menyediakan fitur pengambilan screenshot
- Klien JS/TS: tersedia sebagai paket npm dan mendukung API sinkron (
browserSync) maupun asinkron (browser)- Mengendalikan browser dengan perintah sederhana seperti
vibe.go(),vibe.find(),vibe.click(),vibe.quit() - Mencakup fungsi otomatisasi dasar seperti menyimpan screenshot, mencari elemen, dan klik
- Mengendalikan browser dengan perintah sederhana seperti
Integrasi agen AI
- Perintah untuk menambahkan kemampuan kontrol browser ke Claude Code:
claude mcp add vibium -- npx -y vibium- Chrome akan diunduh secara otomatis sehingga tidak memerlukan konfigurasi tambahan
- Daftar perintah yang disediakan
browser_launch: menjalankan browserbrowser_navigate: berpindah ke URLbrowser_find: mencari elemen dengan selektor CSSbrowser_click: mengklik elemenbrowser_type: memasukkan teksbrowser_screenshot: menangkap viewportbrowser_quit: menutup browser
Instalasi untuk pengguna manusia
- Instalasi otomatis dengan perintah
npm install vibium- Mengunduh ke cache biner Clicker, Chrome for Testing, dan chromedriver sesuai platform
- Linux:
~/.cache/vibium/, macOS:~/Library/Caches/vibium/, Windows:%LOCALAPPDATA%\vibium\
- Unduhan browser dapat dilewati dengan variabel lingkungan
VIBIUM_SKIP_BROWSER_DOWNLOAD=1
Dukungan platform
- Mendukung Linux x64, macOS (Intel/Apple Silicon), dan Windows x64
Mulai cepat
- Contoh penggunaan library
import { browser } from "vibium"; const vibe = await browser.launch(); await vibe.go("https://example.com"); const el = await vibe.find("a"); await el.click(); await vibe.quit(); - Contoh integrasi Claude Code
- Setelah instalasi, browser dapat dikendalikan dengan perintah seperti “Go to example.com and click the first link”
Roadmap
- V1: berfokus pada kontrol browser melalui MCP dan klien JS
- Rencana V2
- Klien Python dan Java
- Cortex (lapisan memori dan navigasi)
- Retina (fitur ekstensi perekaman)
- Perekaman video, fitur pencarian elemen berbasis AI
1 komentar
Komentar Hacker News
Berkat Selenium, karier saya mengalami perubahan besar. Saya benar-benar sangat berterima kasih
Sekarang saya memakai Playwright, tetapi saya penasaran dengan pendekatan baru Vibium
Saya penasaran apakah Vibium mendukung injeksi JS, modifikasi DOM, serta pemantauan dan perubahan request jaringan. Saat memakai Playwright, saya hampir selalu menggunakan fitur-fitur ini
Menarik. Baru-baru ini saya memakai dev-browser dan mendapatkan penghematan konteks serta peningkatan kecepatan. Saya pasti akan mencoba Vibium juga
Sebagai orang yang mencari nafkah lewat otomatisasi UI selama lebih dari 10 tahun, saya berterima kasih kepada Selenium. Sekarang Playwright pada dasarnya adalah standar de facto, tetapi Selenium adalah browser driver yang asli. Saya penasaran bagaimana Vibium berbeda dari Playwright
Saya adalah orang yang dulu membantu perluasan pengujian Atlassian dengan Selenium. Saya ingat pernah berbincang sekitar 13~15 tahun lalu. Senang melihat Anda masih aktif di bidang ini
Saya penasaran apakah dengan memindahkan skrip Selenium lama ke Vibium, kita bisa memanfaatkan fitur self-heal saat pengujian gagal
Saya penasaran, jika agen mengambil tangkapan layar dengan
browser_screenshotlalu ingin mengklik sesuatu, bagaimana ia menemukan CSS selector-nya. Hanya dari screenshot saja, sulit mengetahui tipe elemennyabrowser_evaluateuntuk mengambil pohon aksesibilitas dengan JS dan memungkinkan navigasi berdasarkan itu. Untuk detailnya, silakan lihat roadmap V2Agar alat seperti Claude bisa bebas memakai otomatisasi browser, diperlukan fitur penguncian browser yang hanya mengizinkan URL tertentu. Saya penasaran apakah fitur seperti ini ada di roadmap
browser_navigate. Skrip whitelist bisa disiapkan dalam 5 menit. Kebijakan yang lebih kompleks bisa diimplementasikan dengan cupcake dan Rego. Referensi: dokumentasi Claude Code HooksSaya sempat ingin membuat sesuatu yang mirip Skyvern, tetapi saya penasaran mengapa Anda membuat Vibium baru alih-alih perluasan Selenium
Saya penasaran bagaimana masalah beban konteks (context bloat) antara browser dan LLM ditangani. Mereka juga bertanya apakah ada rencana untuk mengekspos file tracing seperti Playwright atau mengizinkan eksekusi JS