Tarsier - Utilitas visi untuk agen interaksi web

xguru · 2023-11-16T10:03:01+09:00

Pertanyaan yang muncul saat mengotomatiskan interaksi web dengan GPT-4(V) Bagaimana memetakan respons LLM ke elemen web? Bagaimana menandai halaman agar LLM dapat lebih memahami ruang kerjanya? Bagaimana menyediakan 'screenshot' untuk LLM yang hanya mendukung teks? Tarsier adalah utilitas visi untuk agen web multimodal Bekerja dengan cara menempelkan 'tag' secara visual pada elemen interaktif di halaman melalui ID seperti [1] Dengan ini, Tarsier menyediakan pemetaan antara elemen dan ID agar GPT-4(V) dapat menjalankan tugas Elemen interaktif didefinisikan sebagai tombol, tautan, atau bidang input yang ditampilkan di halaman Dapat menyediakan representasi teks dari halaman Artinya, interaksi yang lebih mendalam juga dimungkinkan pada LLM non-multimodal Ini merupakan hal penting mengingat masalah performa pada model vision-language yang ada saat ini Juga menyediakan utilitas OCR yang mengubah screenshot halaman menjadi string dengan struktur spasi yang dapat dipahami oleh LLM tanpa visi Layanan OCR yang didukung Saat ini hanya mendukung Google Cloud Vision, dan dukungan untuk Amazon Textract serta Microsoft Azure Computer Vision direncanakan

Pertanyaan yang muncul saat mengotomatiskan interaksi web dengan GPT-4(V)
- Bagaimana memetakan respons LLM ke elemen web?
- Bagaimana menandai halaman agar LLM dapat lebih memahami ruang kerjanya?
- Bagaimana menyediakan 'screenshot' untuk LLM yang hanya mendukung teks?
Tarsier adalah utilitas visi untuk agen web multimodal
- Bekerja dengan cara menempelkan 'tag' secara visual pada elemen interaktif di halaman melalui ID seperti [1]
- Dengan ini, Tarsier menyediakan pemetaan antara elemen dan ID agar GPT-4(V) dapat menjalankan tugas
- Elemen interaktif didefinisikan sebagai tombol, tautan, atau bidang input yang ditampilkan di halaman
- Dapat menyediakan representasi teks dari halaman
  - Artinya, interaksi yang lebih mendalam juga dimungkinkan pada LLM non-multimodal
  - Ini merupakan hal penting mengingat masalah performa pada model vision-language yang ada saat ini
- Juga menyediakan utilitas OCR yang mengubah screenshot halaman menjadi string dengan struktur spasi yang dapat dipahami oleh LLM tanpa visi
Layanan OCR yang didukung
- Saat ini hanya mendukung Google Cloud Vision, dan dukungan untuk Amazon Textract serta Microsoft Azure Computer Vision direncanakan

Tarsier - Utilitas visi untuk agen interaksi web

Bacaan terkait

Belum ada komentar.