6 poin oleh xguru 2023-11-16 | Belum ada komentar. | Bagikan ke WhatsApp
  • Pertanyaan yang muncul saat mengotomatiskan interaksi web dengan GPT-4(V)
    • Bagaimana memetakan respons LLM ke elemen web?
    • Bagaimana menandai halaman agar LLM dapat lebih memahami ruang kerjanya?
    • Bagaimana menyediakan 'screenshot' untuk LLM yang hanya mendukung teks?
  • Tarsier adalah utilitas visi untuk agen web multimodal
    • Bekerja dengan cara menempelkan 'tag' secara visual pada elemen interaktif di halaman melalui ID seperti [1]
    • Dengan ini, Tarsier menyediakan pemetaan antara elemen dan ID agar GPT-4(V) dapat menjalankan tugas
    • Elemen interaktif didefinisikan sebagai tombol, tautan, atau bidang input yang ditampilkan di halaman
    • Dapat menyediakan representasi teks dari halaman
      • Artinya, interaksi yang lebih mendalam juga dimungkinkan pada LLM non-multimodal
      • Ini merupakan hal penting mengingat masalah performa pada model vision-language yang ada saat ini
    • Juga menyediakan utilitas OCR yang mengubah screenshot halaman menjadi string dengan struktur spasi yang dapat dipahami oleh LLM tanpa visi
  • Layanan OCR yang didukung
    • Saat ini hanya mendukung Google Cloud Vision, dan dukungan untuk Amazon Textract serta Microsoft Azure Computer Vision direncanakan

Belum ada komentar.

Belum ada komentar.