- Pertanyaan yang muncul saat mengotomatiskan interaksi web dengan GPT-4(V)
- Bagaimana memetakan respons LLM ke elemen web?
- Bagaimana menandai halaman agar LLM dapat lebih memahami ruang kerjanya?
- Bagaimana menyediakan 'screenshot' untuk LLM yang hanya mendukung teks?
- Tarsier adalah utilitas visi untuk agen web multimodal
- Bekerja dengan cara menempelkan 'tag' secara visual pada elemen interaktif di halaman melalui ID seperti [1]
- Dengan ini, Tarsier menyediakan pemetaan antara elemen dan ID agar GPT-4(V) dapat menjalankan tugas
- Elemen interaktif didefinisikan sebagai tombol, tautan, atau bidang input yang ditampilkan di halaman
- Dapat menyediakan representasi teks dari halaman
- Artinya, interaksi yang lebih mendalam juga dimungkinkan pada LLM non-multimodal
- Ini merupakan hal penting mengingat masalah performa pada model vision-language yang ada saat ini
- Juga menyediakan utilitas OCR yang mengubah screenshot halaman menjadi string dengan struktur spasi yang dapat dipahami oleh LLM tanpa visi
- Layanan OCR yang didukung
- Saat ini hanya mendukung Google Cloud Vision, dan dukungan untuk Amazon Textract serta Microsoft Azure Computer Vision direncanakan
Belum ada komentar.