Fara-7B: Model agentik efisien untuk penggunaan komputer
(github.com/microsoft)- Fara-7B adalah model bahasa kecil (SLM) agentik ultra-ringkas dengan 7 miliar parameter, yang mengadopsi arsitektur Computer Use Agent untuk benar-benar mengoperasikan browser web saat menjalankan tugas
- Model ini langsung memprediksi input mouse dan keyboard untuk mengenali serta mengoperasikan halaman web secara visual, berinteraksi dengan cara yang sama seperti manusia tanpa perlu accessibility tree atau model parsing terpisah
- Dapat dijalankan on-device untuk mengurangi latensi dan memperkuat perlindungan privasi, serta menyelesaikan tugas rata-rata dalam 16 langkah sehingga lebih efisien dibanding model sekelasnya
- Mencatat performa yang melampaui model sekelas maupun model besar di berbagai benchmark seperti WebTailBench, khususnya dengan tingkat keberhasilan tinggi dalam otomasi web dan tugas multi-langkah
- Bersama dataset WebTailBench yang dirilis Microsoft, Fara-7B menyediakan evaluasi agen berbasis web dan lingkungan eksperimen yang dapat direproduksi, sehingga berkontribusi pada standardisasi penelitian interaksi web nyata
Ikhtisar Fara-7B
- Model bahasa kecil (SLM) agentik khusus penggunaan komputer pertama dari Microsoft, yang mencapai performa mutakhir pada skala 7 miliar parameter
- Dibangun di atas Qwen2.5-VL-7B dan dilatih menggunakan data sintetis (145.000 lintasan) dengan framework multi-agent Magentic-One
- Terdiri dari 7B parameter sehingga bisa dijalankan secara lokal, mengurangi latensi dan meningkatkan privasi data
Karakteristik utama
- Mengenali halaman web dengan pendekatan manipulasi visual, meniru tindakan pengguna nyata seperti scroll, klik, dan input
- Menggunakan modalitas input yang sama dengan manusia, tanpa memerlukan model parsing terpisah
- Menyelesaikan tugas rata-rata dalam 16 langkah, lebih efisien dibanding model serupa (rata-rata 41 langkah)
- Deployment on-device mengurangi ketergantungan pada cloud dan memperkuat perlindungan data pribadi
Fitur yang didukung
- Pencarian web dan peringkasan hasil
- Pengisian formulir dan pengelolaan akun
- Pemesanan tiket pesawat, film, dan restoran
- Belanja online dan perbandingan harga
- Penelusuran lowongan kerja dan informasi properti
Perbandingan performa
- Dievaluasi pada 4 benchmark: WebVoyager, Online-M2W, DeepShop, WebTailBench
- Fara-7B mencatat tingkat keberhasilan WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%
- Performanya lebih tinggi dibanding model sekelas (UI-TARS-1.5-7B) maupun model besar (GLM-4.1V-9B)
Benchmark WebTailBench
- Terdiri dari 609 tugas yang mencakup 11 jenis tugas web nyata
- Mencakup tugas satu situs (belanja, penerbangan, hotel, dll.) dan tugas multi-langkah (belanja komparatif, tugas gabungan, dll.)
- Fara-7B mencatat performa terbaik di antara model penggunaan komputer pada semua kategori
- Contoh: hotel 53.8%, penerbangan 37.9%, belanja 52.4%, belanja komparatif 32.7%
Infrastruktur evaluasi
- Menggunakan Playwright untuk mereproduksi lingkungan browser nyata
- Abstract Web Agent Interface memungkinkan integrasi berbagai model
- Fara-Agent Class mendukung eksekusi dan pengujian model
- Karena ini versi rilis eksperimental, disarankan menjalankannya di lingkungan sandbox dan membatasi penggunaan data sensitif
Instalasi dan menjalankan
- Instal dengan
pip install -e .atauuv sync --all-extras - Perlu memasang browser Playwright
- Mendukung hosting cloud melalui Azure Foundry atau self-hosting GPU menggunakan VLLM
- Contoh perintah:
fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com"
Reproduksibilitas dan lingkungan evaluasi
- Menyediakan framework
webeval/untuk mereproduksi evaluasi WebVoyager dan OnlineMind2Web - Integrasi BrowserBase untuk pengelolaan sesi browser yang stabil
- Menjamin konsistensi evaluasi lewat pembaruan tugas sensitif waktu, penanganan error lingkungan, dan batas 100 langkah
- Menghapus 48 tugas yang mustahil dari dataset WebVoyager dan memperbarui 50 tanggal masa depan
Menjalankan evaluasi dan analisis
- Jalankan skrip evaluasi dari direktori
webeval/scripts - Bisa memilih antara self-hosting VLLM atau endpoint Azure Foundry
- Hasil disimpan ke
gpt_eval/,traj/,screenshot_X.png, dll. - Menggunakan Jupyter Notebook, pengguna dapat menganalisis skor rata-rata, penyebab kegagalan, dan lintasan yang terhenti
Rencana ke depan
- Berencana merilis pipeline validasi untuk evaluasi LLM-as-a-judge dan data anotasi manusia resmi untuk WebTailBench
- Juga meningkatkan kualitas evaluasi melalui kolaborasi dengan BrowserBase
Informasi sitasi
- Untuk penggunaan riset, disarankan mengutip makalah Microsoft Research Fara: Fast and Accurate Web Agent (2025)
1 komentar
Komentar Hacker News
Menurut saya inilah titik awal sebenarnya dari diskusi kali ini. Saya jadi penasaran apakah perusahaan besar lain juga pernah melakukan fine-tuning model eksternal dengan cara seperti ini
Sekarang sepertinya perusahaan Tiongkok yang memimpin
Mungkin karena kontraknya dengan OpenAI mereka tidak bisa membuat LLM sendiri. Hanya Meta yang merilis model open source besar di AS, sementara perusahaan Tiongkok terus merilis model yang benar-benar terbuka
Model kali ini untuk kontrol komputer, jadi data sintetis memang cocok. Hampir tidak ada dataset nyata untuk itu.
Alasan perusahaan Tiongkok memilih open source juga besar kemungkinan demi membangun kepercayaan dan diferensiasi pemasaran
Makalah terkait: https://arxiv.org/pdf/2504.14772v1
Saya pernah mencoba Qwen3-VL-30B bersama Playwright, dan hasilnya cukup bagus untuk otomasi browser. Namun untuk pekerjaan berulang pada akhirnya tetap harus ditangkap dalam kode
Menariknya, model ini lebih kecil tetapi dibuat untuk tujuan yang terspesialisasi
Saya jadi bertanya-tanya apakah orang benar-benar mengalihdayakan belanja ke AI
Rasanya Microsoft cuma sedang melempar banyak eksperimen AI sembarangan
Model menerima screenshot halaman dan tujuan, lalu menghasilkan perintah otomasi menuju tujuan tersebut
Saat dicoba dengan Opus3, adegan ketika ia meledakkan pesawat luar angkasa sambil mengucapkan “memulai prosedur pelarian darurat” cukup lucu
Makalah terkait: https://arxiv.org/abs/2511.10395
Postingan umpan balik dari Sung Kim juga layak dibaca
Saya tidak tahu apakah kita sampai di situ karena kita tidak bisa menulis skrip, atau karena software stack sudah terlalu rumit
Rasanya seperti ada niat menambah penggunaan token
Karena perusahaan-perusahaan tidak menyediakan API demi interoperabilitas, pada akhirnya LLM jadi lebih mudah menangani UI dengan cara brute force seperti manusia