Fara-7B: Model agentik efisien untuk penggunaan komputer

(github.com/microsoft)

3 poin oleh GN⁺ 2025-11-28 | 1 komentar | Bagikan ke WhatsApp

Fara-7B adalah model bahasa kecil (SLM) agentik ultra-ringkas dengan 7 miliar parameter, yang mengadopsi arsitektur Computer Use Agent untuk benar-benar mengoperasikan browser web saat menjalankan tugas
Model ini langsung memprediksi input mouse dan keyboard untuk mengenali serta mengoperasikan halaman web secara visual, berinteraksi dengan cara yang sama seperti manusia tanpa perlu accessibility tree atau model parsing terpisah
Dapat dijalankan on-device untuk mengurangi latensi dan memperkuat perlindungan privasi, serta menyelesaikan tugas rata-rata dalam 16 langkah sehingga lebih efisien dibanding model sekelasnya
Mencatat performa yang melampaui model sekelas maupun model besar di berbagai benchmark seperti WebTailBench, khususnya dengan tingkat keberhasilan tinggi dalam otomasi web dan tugas multi-langkah
Bersama dataset WebTailBench yang dirilis Microsoft, Fara-7B menyediakan evaluasi agen berbasis web dan lingkungan eksperimen yang dapat direproduksi, sehingga berkontribusi pada standardisasi penelitian interaksi web nyata

Ikhtisar Fara-7B

Model bahasa kecil (SLM) agentik khusus penggunaan komputer pertama dari Microsoft, yang mencapai performa mutakhir pada skala 7 miliar parameter
Dibangun di atas Qwen2.5-VL-7B dan dilatih menggunakan data sintetis (145.000 lintasan) dengan framework multi-agent Magentic-One
Terdiri dari 7B parameter sehingga bisa dijalankan secara lokal, mengurangi latensi dan meningkatkan privasi data

Karakteristik utama

Mengenali halaman web dengan pendekatan manipulasi visual, meniru tindakan pengguna nyata seperti scroll, klik, dan input
Menggunakan modalitas input yang sama dengan manusia, tanpa memerlukan model parsing terpisah
Menyelesaikan tugas rata-rata dalam 16 langkah, lebih efisien dibanding model serupa (rata-rata 41 langkah)
Deployment on-device mengurangi ketergantungan pada cloud dan memperkuat perlindungan data pribadi

Fitur yang didukung

Pencarian web dan peringkasan hasil
Pengisian formulir dan pengelolaan akun
Pemesanan tiket pesawat, film, dan restoran
Belanja online dan perbandingan harga
Penelusuran lowongan kerja dan informasi properti

Perbandingan performa

Dievaluasi pada 4 benchmark: WebVoyager, Online-M2W, DeepShop, WebTailBench
Fara-7B mencatat tingkat keberhasilan WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%
Performanya lebih tinggi dibanding model sekelas (UI-TARS-1.5-7B) maupun model besar (GLM-4.1V-9B)

Benchmark WebTailBench

Terdiri dari 609 tugas yang mencakup 11 jenis tugas web nyata
Mencakup tugas satu situs (belanja, penerbangan, hotel, dll.) dan tugas multi-langkah (belanja komparatif, tugas gabungan, dll.)
Fara-7B mencatat performa terbaik di antara model penggunaan komputer pada semua kategori
- Contoh: hotel 53.8%, penerbangan 37.9%, belanja 52.4%, belanja komparatif 32.7%

Infrastruktur evaluasi

Menggunakan Playwright untuk mereproduksi lingkungan browser nyata
Abstract Web Agent Interface memungkinkan integrasi berbagai model
Fara-Agent Class mendukung eksekusi dan pengujian model
Karena ini versi rilis eksperimental, disarankan menjalankannya di lingkungan sandbox dan membatasi penggunaan data sensitif

Instalasi dan menjalankan

Instal dengan pip install -e . atau uv sync --all-extras
Perlu memasang browser Playwright
Mendukung hosting cloud melalui Azure Foundry atau self-hosting GPU menggunakan VLLM

Contoh perintah:

fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";

Reproduksibilitas dan lingkungan evaluasi

Menyediakan framework webeval/ untuk mereproduksi evaluasi WebVoyager dan OnlineMind2Web
Integrasi BrowserBase untuk pengelolaan sesi browser yang stabil
Menjamin konsistensi evaluasi lewat pembaruan tugas sensitif waktu, penanganan error lingkungan, dan batas 100 langkah
Menghapus 48 tugas yang mustahil dari dataset WebVoyager dan memperbarui 50 tanggal masa depan

Menjalankan evaluasi dan analisis

Jalankan skrip evaluasi dari direktori webeval/scripts
Bisa memilih antara self-hosting VLLM atau endpoint Azure Foundry
Hasil disimpan ke gpt_eval/, traj/, screenshot_X.png, dll.
Menggunakan Jupyter Notebook, pengguna dapat menganalisis skor rata-rata, penyebab kegagalan, dan lintasan yang terhenti

Rencana ke depan

Berencana merilis pipeline validasi untuk evaluasi LLM-as-a-judge dan data anotasi manusia resmi untuk WebTailBench
Juga meningkatkan kualitas evaluasi melalui kolaborasi dengan BrowserBase

Informasi sitasi

Untuk penggunaan riset, disarankan mengutip makalah Microsoft Research Fara: Fast and Accurate Web Agent (2025)

1 komentar

GN⁺ 2025-11-28

Komentar Hacker News

Poin utamanya adalah Microsoft melakukan fine-tuning pada Qwen2.5-VL-7B
Menurut saya inilah titik awal sebenarnya dari diskusi kali ini. Saya jadi penasaran apakah perusahaan besar lain juga pernah melakukan fine-tuning model eksternal dengan cara seperti ini
Rasanya seperti cuma menempelkan stiker Microsoft pada Qwen2.5-VL
Sekarang sepertinya perusahaan Tiongkok yang memimpin
- Betul. Misalnya, Fara-7B bisa menjawab dengan baik tentang Pertempuran Somme pada Perang Dunia I, tetapi soal insiden Tiananmen malah menghindar dengan mengatakan “tidak bisa menjawab karena itu topik politik sensitif”
Poin yang benar-benar penting adalah dirilisnya benchmark tugas web baru, WebTailBench
Saya heran kenapa Microsoft terus hanya merilis model yang dilatih dengan data sintetis (synthetic data)
Mungkin karena kontraknya dengan OpenAI mereka tidak bisa membuat LLM sendiri. Hanya Meta yang merilis model open source besar di AS, sementara perusahaan Tiongkok terus merilis model yang benar-benar terbuka
- Menurut saya tidak ada batasan kontraktual. Mereka hanya tampaknya tidak ingin membuang sumber daya untuk membuat foundation model lain
  Model kali ini untuk kontrol komputer, jadi data sintetis memang cocok. Hampir tidak ada dataset nyata untuk itu.
  Alasan perusahaan Tiongkok memilih open source juga besar kemungkinan demi membangun kepercayaan dan diferensiasi pemasaran
- Kemungkinan besar tim legal yang menyuruh begitu. Perusahaan besar pada dasarnya punya struktur yang membuat inovasi mustahil
- Model seperti Gemma, Phi, OLMO, Mistral, dan GPT-OSS juga cukup kompetitif dan berjalan baik di hardware umum
- Pelatihan dengan data sintetis jauh lebih efisien. Data nyata hanya memberi tahu token berikutnya, sedangkan data sintetis memberi tahu seluruh distribusi probabilitas, jadi efek belajarnya berlipat ganda
  Makalah terkait: https://arxiv.org/pdf/2504.14772v1
- Memakai hanya data sintetis juga lebih aman. Bisa menghindari masalah seperti konten dewasa atau roleplay
Model ini tampaknya terbatas hanya pada penggunaan browser. Misalnya, program umum seperti KiCAD tidak bisa dikendalikan
Saya pernah mencoba Qwen3-VL-30B bersama Playwright, dan hasilnya cukup bagus untuk otomasi browser. Namun untuk pekerjaan berulang pada akhirnya tetap harus ditangkap dalam kode
Menariknya, model ini lebih kecil tetapi dibuat untuk tujuan yang terspesialisasi
- Jika ingin mengubah aksi CUA seperti ini menjadi skrip deterministik, panduan Stagehand caching mungkin layak dilihat
- Kalau diemulasikan dengan WASM di dalam browser, itu memungkinkan. Ini bukan batasan model melainkan batasan sandbox keamanan
- Ada permintaan agar siapa pun yang punya alat atau kode terkait membagikannya
- Setelah diuji langsung, ternyata hanya bekerja di lingkungan Playwright
Melihat tabelnya, saya tidak paham sebagian besar use case-nya. Yang saya mengerti paling cuma perbandingan belanja
Saya jadi bertanya-tanya apakah orang benar-benar mengalihdayakan belanja ke AI
- Ini tidak harus untuk konsumen saja. Misalnya, berguna untuk mengotomasi hal-hal seperti situs web perusahaan asuransi yang tidak punya API
- Mengumpulkan produk per kategori lalu merangkumnya adalah fitur yang cukup berguna
- Saya kurang nyaman kalau AI yang membayar atau memesan sendiri. Saya lebih ingin menyerahkan hanya sampai riset dan penelusuran
- Saya memang benar-benar menyerahkan belanja wine ke AI
Otomasi seperti ini sebenarnya sudah mungkin dilakukan sejak beberapa tahun lalu. Tidak butuh GPU, dan kalau antarmukanya berubah tinggal ubah skripnya
Rasanya Microsoft cuma sedang melempar banyak eksperimen AI sembarangan
- Intinya adalah otomasi bisa dilakukan terhadap lebih dari 1 miliar situs web tanpa perlu menulis skrip sendiri
  Model menerima screenshot halaman dan tujuan, lalu menghasilkan perintah otomasi menuju tujuan tersebut
Saya penasaran apakah model seperti ini juga bisa dipakai untuk mengendalikan input video game. Akan seru kalau AI memainkan Kerbal Space Program
- Eksperimen seperti ini sudah ada sejak dulu. Dengan kRPC, model bisa dengan mudah berinteraksi dengan game
  Saat dicoba dengan Opus3, adegan ketika ia meledakkan pesawat luar angkasa sambil mengucapkan “memulai prosedur pelarian darurat” cukup lucu
- SIMA-2 dari DeepMind juga layak dilihat (bukan model lokal)
- AgentEvolver dari Alibaba memang bukan khusus game, tetapi menarik sebagai sistem agen berbasis loop OODA
  Makalah terkait: https://arxiv.org/abs/2511.10395
  Postingan umpan balik dari Sung Kim juga layak dibaca
- Saya penasaran apa yang akan terjadi kalau disuruh bermain poker online
Sepertinya Microsoft melakukan fine-tuning pada Qwen-7B
- Tepatnya Qwen2.5-VL-7B. Perbedaannya cukup penting
- Rasanya peta persaingan sedang berubah sekarang
Lucu juga bahwa untuk mengotomasi klik di halaman web ternyata perlu model 7 miliar parameter
Saya tidak tahu apakah kita sampai di situ karena kita tidak bisa menulis skrip, atau karena software stack sudah terlalu rumit
- Belakangan saya menonton video berjudul ‘My New Agent Coding Workflow’, dan di sana orang menyuruh IDE lewat prompt untuk melakukan hal yang sebenarnya cukup dengan mengunduh file
  Rasanya seperti ada niat menambah penggunaan token
- Ini bukan masalah teknis, melainkan masalah kerja sama sosial.
  Karena perusahaan-perusahaan tidak menyediakan API demi interoperabilitas, pada akhirnya LLM jadi lebih mudah menangani UI dengan cara brute force seperti manusia
- Setengah dari industri software dan keuangan saat ini dibangun di atas hambatan masuk buatan akibat kompleksitas yang berlebihan

Fara-7B: Model agentik efisien untuk penggunaan komputer

Ikhtisar Fara-7B

Karakteristik utama

Fitur yang didukung

Perbandingan performa

Benchmark WebTailBench

Infrastruktur evaluasi

Instalasi dan menjalankan

Reproduksibilitas dan lingkungan evaluasi

Menjalankan evaluasi dan analisis

Rencana ke depan

Informasi sitasi

Bacaan terkait

1 komentar

Komentar Hacker News