3 poin oleh GN⁺ 2025-11-28 | 1 komentar | Bagikan ke WhatsApp
  • Fara-7B adalah model bahasa kecil (SLM) agentik ultra-ringkas dengan 7 miliar parameter, yang mengadopsi arsitektur Computer Use Agent untuk benar-benar mengoperasikan browser web saat menjalankan tugas
  • Model ini langsung memprediksi input mouse dan keyboard untuk mengenali serta mengoperasikan halaman web secara visual, berinteraksi dengan cara yang sama seperti manusia tanpa perlu accessibility tree atau model parsing terpisah
  • Dapat dijalankan on-device untuk mengurangi latensi dan memperkuat perlindungan privasi, serta menyelesaikan tugas rata-rata dalam 16 langkah sehingga lebih efisien dibanding model sekelasnya
  • Mencatat performa yang melampaui model sekelas maupun model besar di berbagai benchmark seperti WebTailBench, khususnya dengan tingkat keberhasilan tinggi dalam otomasi web dan tugas multi-langkah
  • Bersama dataset WebTailBench yang dirilis Microsoft, Fara-7B menyediakan evaluasi agen berbasis web dan lingkungan eksperimen yang dapat direproduksi, sehingga berkontribusi pada standardisasi penelitian interaksi web nyata

Ikhtisar Fara-7B

  • Model bahasa kecil (SLM) agentik khusus penggunaan komputer pertama dari Microsoft, yang mencapai performa mutakhir pada skala 7 miliar parameter
  • Dibangun di atas Qwen2.5-VL-7B dan dilatih menggunakan data sintetis (145.000 lintasan) dengan framework multi-agent Magentic-One
  • Terdiri dari 7B parameter sehingga bisa dijalankan secara lokal, mengurangi latensi dan meningkatkan privasi data

Karakteristik utama

  • Mengenali halaman web dengan pendekatan manipulasi visual, meniru tindakan pengguna nyata seperti scroll, klik, dan input
  • Menggunakan modalitas input yang sama dengan manusia, tanpa memerlukan model parsing terpisah
  • Menyelesaikan tugas rata-rata dalam 16 langkah, lebih efisien dibanding model serupa (rata-rata 41 langkah)
  • Deployment on-device mengurangi ketergantungan pada cloud dan memperkuat perlindungan data pribadi

Fitur yang didukung

  • Pencarian web dan peringkasan hasil
  • Pengisian formulir dan pengelolaan akun
  • Pemesanan tiket pesawat, film, dan restoran
  • Belanja online dan perbandingan harga
  • Penelusuran lowongan kerja dan informasi properti

Perbandingan performa

  • Dievaluasi pada 4 benchmark: WebVoyager, Online-M2W, DeepShop, WebTailBench
  • Fara-7B mencatat tingkat keberhasilan WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%
  • Performanya lebih tinggi dibanding model sekelas (UI-TARS-1.5-7B) maupun model besar (GLM-4.1V-9B)
Iklan

Benchmark WebTailBench

  • Terdiri dari 609 tugas yang mencakup 11 jenis tugas web nyata
  • Mencakup tugas satu situs (belanja, penerbangan, hotel, dll.) dan tugas multi-langkah (belanja komparatif, tugas gabungan, dll.)
  • Fara-7B mencatat performa terbaik di antara model penggunaan komputer pada semua kategori
    • Contoh: hotel 53.8%, penerbangan 37.9%, belanja 52.4%, belanja komparatif 32.7%

Infrastruktur evaluasi

  • Menggunakan Playwright untuk mereproduksi lingkungan browser nyata
  • Abstract Web Agent Interface memungkinkan integrasi berbagai model
  • Fara-Agent Class mendukung eksekusi dan pengujian model
  • Karena ini versi rilis eksperimental, disarankan menjalankannya di lingkungan sandbox dan membatasi penggunaan data sensitif

Instalasi dan menjalankan

  • Instal dengan pip install -e . atau uv sync --all-extras
  • Perlu memasang browser Playwright
  • Mendukung hosting cloud melalui Azure Foundry atau self-hosting GPU menggunakan VLLM
  • Contoh perintah:
    fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";
    
    Iklan

Reproduksibilitas dan lingkungan evaluasi

  • Menyediakan framework webeval/ untuk mereproduksi evaluasi WebVoyager dan OnlineMind2Web
  • Integrasi BrowserBase untuk pengelolaan sesi browser yang stabil
  • Menjamin konsistensi evaluasi lewat pembaruan tugas sensitif waktu, penanganan error lingkungan, dan batas 100 langkah
  • Menghapus 48 tugas yang mustahil dari dataset WebVoyager dan memperbarui 50 tanggal masa depan

Menjalankan evaluasi dan analisis

  • Jalankan skrip evaluasi dari direktori webeval/scripts
  • Bisa memilih antara self-hosting VLLM atau endpoint Azure Foundry
  • Hasil disimpan ke gpt_eval/, traj/, screenshot_X.png, dll.
  • Menggunakan Jupyter Notebook, pengguna dapat menganalisis skor rata-rata, penyebab kegagalan, dan lintasan yang terhenti

Rencana ke depan

  • Berencana merilis pipeline validasi untuk evaluasi LLM-as-a-judge dan data anotasi manusia resmi untuk WebTailBench
  • Juga meningkatkan kualitas evaluasi melalui kolaborasi dengan BrowserBase

Informasi sitasi

  • Untuk penggunaan riset, disarankan mengutip makalah Microsoft Research Fara: Fast and Accurate Web Agent (2025)

1 komentar

 
GN⁺ 2025-11-28
Komentar Hacker News
  • Poin utamanya adalah Microsoft melakukan fine-tuning pada Qwen2.5-VL-7B
    Menurut saya inilah titik awal sebenarnya dari diskusi kali ini. Saya jadi penasaran apakah perusahaan besar lain juga pernah melakukan fine-tuning model eksternal dengan cara seperti ini
  • Rasanya seperti cuma menempelkan stiker Microsoft pada Qwen2.5-VL
    Sekarang sepertinya perusahaan Tiongkok yang memimpin
    • Betul. Misalnya, Fara-7B bisa menjawab dengan baik tentang Pertempuran Somme pada Perang Dunia I, tetapi soal insiden Tiananmen malah menghindar dengan mengatakan “tidak bisa menjawab karena itu topik politik sensitif”
  • Poin yang benar-benar penting adalah dirilisnya benchmark tugas web baru, WebTailBench
  • Saya heran kenapa Microsoft terus hanya merilis model yang dilatih dengan data sintetis (synthetic data)
    Mungkin karena kontraknya dengan OpenAI mereka tidak bisa membuat LLM sendiri. Hanya Meta yang merilis model open source besar di AS, sementara perusahaan Tiongkok terus merilis model yang benar-benar terbuka
    • Menurut saya tidak ada batasan kontraktual. Mereka hanya tampaknya tidak ingin membuang sumber daya untuk membuat foundation model lain
      Model kali ini untuk kontrol komputer, jadi data sintetis memang cocok. Hampir tidak ada dataset nyata untuk itu.
      Alasan perusahaan Tiongkok memilih open source juga besar kemungkinan demi membangun kepercayaan dan diferensiasi pemasaran
    • Kemungkinan besar tim legal yang menyuruh begitu. Perusahaan besar pada dasarnya punya struktur yang membuat inovasi mustahil
    • Model seperti Gemma, Phi, OLMO, Mistral, dan GPT-OSS juga cukup kompetitif dan berjalan baik di hardware umum
    • Pelatihan dengan data sintetis jauh lebih efisien. Data nyata hanya memberi tahu token berikutnya, sedangkan data sintetis memberi tahu seluruh distribusi probabilitas, jadi efek belajarnya berlipat ganda
      Makalah terkait: https://arxiv.org/pdf/2504.14772v1
    • Memakai hanya data sintetis juga lebih aman. Bisa menghindari masalah seperti konten dewasa atau roleplay
  • Model ini tampaknya terbatas hanya pada penggunaan browser. Misalnya, program umum seperti KiCAD tidak bisa dikendalikan
    Saya pernah mencoba Qwen3-VL-30B bersama Playwright, dan hasilnya cukup bagus untuk otomasi browser. Namun untuk pekerjaan berulang pada akhirnya tetap harus ditangkap dalam kode
    Menariknya, model ini lebih kecil tetapi dibuat untuk tujuan yang terspesialisasi
    • Jika ingin mengubah aksi CUA seperti ini menjadi skrip deterministik, panduan Stagehand caching mungkin layak dilihat
    • Kalau diemulasikan dengan WASM di dalam browser, itu memungkinkan. Ini bukan batasan model melainkan batasan sandbox keamanan
    • Ada permintaan agar siapa pun yang punya alat atau kode terkait membagikannya
    • Setelah diuji langsung, ternyata hanya bekerja di lingkungan Playwright
  • Melihat tabelnya, saya tidak paham sebagian besar use case-nya. Yang saya mengerti paling cuma perbandingan belanja
    Saya jadi bertanya-tanya apakah orang benar-benar mengalihdayakan belanja ke AI
    • Ini tidak harus untuk konsumen saja. Misalnya, berguna untuk mengotomasi hal-hal seperti situs web perusahaan asuransi yang tidak punya API
    • Mengumpulkan produk per kategori lalu merangkumnya adalah fitur yang cukup berguna
    • Saya kurang nyaman kalau AI yang membayar atau memesan sendiri. Saya lebih ingin menyerahkan hanya sampai riset dan penelusuran
    • Saya memang benar-benar menyerahkan belanja wine ke AI
  • Otomasi seperti ini sebenarnya sudah mungkin dilakukan sejak beberapa tahun lalu. Tidak butuh GPU, dan kalau antarmukanya berubah tinggal ubah skripnya
    Rasanya Microsoft cuma sedang melempar banyak eksperimen AI sembarangan
    • Intinya adalah otomasi bisa dilakukan terhadap lebih dari 1 miliar situs web tanpa perlu menulis skrip sendiri
      Model menerima screenshot halaman dan tujuan, lalu menghasilkan perintah otomasi menuju tujuan tersebut
  • Saya penasaran apakah model seperti ini juga bisa dipakai untuk mengendalikan input video game. Akan seru kalau AI memainkan Kerbal Space Program
    • Eksperimen seperti ini sudah ada sejak dulu. Dengan kRPC, model bisa dengan mudah berinteraksi dengan game
      Saat dicoba dengan Opus3, adegan ketika ia meledakkan pesawat luar angkasa sambil mengucapkan “memulai prosedur pelarian darurat” cukup lucu
    • SIMA-2 dari DeepMind juga layak dilihat (bukan model lokal)
    • AgentEvolver dari Alibaba memang bukan khusus game, tetapi menarik sebagai sistem agen berbasis loop OODA
      Makalah terkait: https://arxiv.org/abs/2511.10395
      Postingan umpan balik dari Sung Kim juga layak dibaca
    • Saya penasaran apa yang akan terjadi kalau disuruh bermain poker online
  • Sepertinya Microsoft melakukan fine-tuning pada Qwen-7B
    • Tepatnya Qwen2.5-VL-7B. Perbedaannya cukup penting
    • Rasanya peta persaingan sedang berubah sekarang
  • Lucu juga bahwa untuk mengotomasi klik di halaman web ternyata perlu model 7 miliar parameter
    Saya tidak tahu apakah kita sampai di situ karena kita tidak bisa menulis skrip, atau karena software stack sudah terlalu rumit
    • Belakangan saya menonton video berjudul ‘My New Agent Coding Workflow’, dan di sana orang menyuruh IDE lewat prompt untuk melakukan hal yang sebenarnya cukup dengan mengunduh file
      Rasanya seperti ada niat menambah penggunaan token
    • Ini bukan masalah teknis, melainkan masalah kerja sama sosial.
      Karena perusahaan-perusahaan tidak menyediakan API demi interoperabilitas, pada akhirnya LLM jadi lebih mudah menangani UI dengan cara brute force seperti manusia
    • Setengah dari industri software dan keuangan saat ini dibangun di atas hambatan masuk buatan akibat kompleksitas yang berlebihan