- Fara-7B adalah model bahasa kecil (SLM) agentik ultra-ringkas dengan 7 miliar parameter, yang mengadopsi arsitektur Computer Use Agent untuk benar-benar mengoperasikan browser web saat menjalankan tugas
- Model ini langsung memprediksi input mouse dan keyboard untuk mengenali serta mengoperasikan halaman web secara visual, berinteraksi dengan cara yang sama seperti manusia tanpa perlu accessibility tree atau model parsing terpisah
- Dapat dijalankan on-device untuk mengurangi latensi dan memperkuat perlindungan privasi, serta menyelesaikan tugas rata-rata dalam 16 langkah sehingga lebih efisien dibanding model sekelasnya
- Mencatat performa yang melampaui model sekelas maupun model besar di berbagai benchmark seperti WebTailBench, khususnya dengan tingkat keberhasilan tinggi dalam otomasi web dan tugas multi-langkah
- Bersama dataset WebTailBench yang dirilis Microsoft, Fara-7B menyediakan evaluasi agen berbasis web dan lingkungan eksperimen yang dapat direproduksi, sehingga berkontribusi pada standardisasi penelitian interaksi web nyata
Ikhtisar Fara-7B
- Model bahasa kecil (SLM) agentik khusus penggunaan komputer pertama dari Microsoft, yang mencapai performa mutakhir pada skala 7 miliar parameter
- Dibangun di atas Qwen2.5-VL-7B dan dilatih menggunakan data sintetis (145.000 lintasan) dengan framework multi-agent Magentic-One
- Terdiri dari 7B parameter sehingga bisa dijalankan secara lokal, mengurangi latensi dan meningkatkan privasi data
Karakteristik utama
- Mengenali halaman web dengan pendekatan manipulasi visual, meniru tindakan pengguna nyata seperti scroll, klik, dan input
- Menggunakan modalitas input yang sama dengan manusia, tanpa memerlukan model parsing terpisah
- Menyelesaikan tugas rata-rata dalam 16 langkah, lebih efisien dibanding model serupa (rata-rata 41 langkah)
- Deployment on-device mengurangi ketergantungan pada cloud dan memperkuat perlindungan data pribadi
Fitur yang didukung
- Pencarian web dan peringkasan hasil
- Pengisian formulir dan pengelolaan akun
- Pemesanan tiket pesawat, film, dan restoran
- Belanja online dan perbandingan harga
- Penelusuran lowongan kerja dan informasi properti
Perbandingan performa
- Dievaluasi pada 4 benchmark: WebVoyager, Online-M2W, DeepShop, WebTailBench
- Fara-7B mencatat tingkat keberhasilan WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%
- Performanya lebih tinggi dibanding model sekelas (UI-TARS-1.5-7B) maupun model besar (GLM-4.1V-9B)
Benchmark WebTailBench
- Terdiri dari 609 tugas yang mencakup 11 jenis tugas web nyata
- Mencakup tugas satu situs (belanja, penerbangan, hotel, dll.) dan tugas multi-langkah (belanja komparatif, tugas gabungan, dll.)
- Fara-7B mencatat performa terbaik di antara model penggunaan komputer pada semua kategori
- Contoh: hotel 53.8%, penerbangan 37.9%, belanja 52.4%, belanja komparatif 32.7%
Infrastruktur evaluasi
- Menggunakan Playwright untuk mereproduksi lingkungan browser nyata
- Abstract Web Agent Interface memungkinkan integrasi berbagai model
- Fara-Agent Class mendukung eksekusi dan pengujian model
- Karena ini versi rilis eksperimental, disarankan menjalankannya di lingkungan sandbox dan membatasi penggunaan data sensitif
Instalasi dan menjalankan
Reproduksibilitas dan lingkungan evaluasi
- Menyediakan framework
webeval/ untuk mereproduksi evaluasi WebVoyager dan OnlineMind2Web
- Integrasi BrowserBase untuk pengelolaan sesi browser yang stabil
- Menjamin konsistensi evaluasi lewat pembaruan tugas sensitif waktu, penanganan error lingkungan, dan batas 100 langkah
- Menghapus 48 tugas yang mustahil dari dataset WebVoyager dan memperbarui 50 tanggal masa depan
Menjalankan evaluasi dan analisis
- Jalankan skrip evaluasi dari direktori
webeval/scripts
- Bisa memilih antara self-hosting VLLM atau endpoint Azure Foundry
- Hasil disimpan ke
gpt_eval/, traj/, screenshot_X.png, dll.
- Menggunakan Jupyter Notebook, pengguna dapat menganalisis skor rata-rata, penyebab kegagalan, dan lintasan yang terhenti
Rencana ke depan
- Berencana merilis pipeline validasi untuk evaluasi LLM-as-a-judge dan data anotasi manusia resmi untuk WebTailBench
- Juga meningkatkan kualitas evaluasi melalui kolaborasi dengan BrowserBase
Informasi sitasi
- Untuk penggunaan riset, disarankan mengutip makalah Microsoft Research Fara: Fast and Accurate Web Agent (2025)
Belum ada komentar.