Library agen AI untuk menjelajah web yang ramah token lewat kompresi DOM tanpa bergantung pada omnimodal
(tidesurf.org)Biasanya saya hanya sesekali membaca GN, dan ini pertama kalinya saya mengirimkan tulisan. Mohon bantuannya!
Library ini dibuat berangkat dari ide: bagaimana jika, alih-alih memakai web surf agent omnimodal yang masih belum pasti saat ini, DOM yang diterima lewat CDP diformat dan dikompresi seminimal mungkin agar bisa dipahami LLM, lalu dijadikan MCP?
Alasan membuatnya
- Agen web berbasis screenshot memerlukan vision model dan konsumsi tokennya sangat besar.
- Serialisasi DOM yang ada saat ini memasukkan semuanya, termasuk kelas CSS, wrapper div, hingga script, sehingga satu halaman bisa menghasilkan 50 ribu~100 ribu token.
- Yang dibutuhkan agen sebenarnya hanya tombol, tautan, input, dan teks, jadi menggunakan seluruh context window hanya untuk itu tidak efisien.
Cara kerjanya
- Setelah terhubung ke instance Chrome melalui CDP, semua hal dihapus kecuali elemen minimum yang diperlukan untuk pembedaan di dalam DOM.
- Setelah itu, setiap elemen diberi ID pendek, lalu kontennya disampaikan ke Agent.
- Interaksi terhadap elemen interaktif dari agen seperti
click("B1"),type("I1", "kata kunci pencarian")juga didukung!
Benchmark
- GitHub: 84,357 -> 2,593 token (32x)
- Wikipedia: 123,615 -> 12,097 token (10x)
- MDN: 24,923 -> 1,793 token (14x)
- HN: 8,736 -> 1,038 token (8.4x)
- Rata-rata penghematan token 93%, waktu parsing sekitar 30ms
Spesifikasi ala paper
- Berbasis TypeScript, dengan dukungan runtime Bun Native maupun Node 18+
- Bergantung pada runtime chrome-remote-interface
- Backend berbasis ElysiaJS
Tautan
- GitHub: https://github.com/TideSurf/core
- npm: https://www.npmjs.com/package/@tidesurf/core
- Dokumentasi/demo: https://tidesurf.org
Awalnya saya membuat dan memakainya untuk debugging pribadi, lalu ternyata cukup berguna, jadi saya merilisnya sebagai OSS. Silakan coba sekali, dan saya sangat menantikan banyak masukan dari kalian!
Belum ada komentar.