Penjelajahan web dengan GPT-4 Vision dan Vimium
(github.com/ishan0102)vimGPT: menyediakan taman bermain bagi model multimodal
Gambaran umum
- Pemanfaatan large language models (LLM) untuk penjelajahan web sedang dieksplorasi oleh berbagai startup dan proyek open source.
- Ada ketertarikan pada proyek eksperimen untuk melihat apakah penjelajahan web memungkinkan hanya dengan menggunakan kemampuan visual GPT-4V.
- Model mengalami kesulitan memahami target yang ingin diklik tanpa DOM browser berbasis teks.
Pengaturan
- Instal kebutuhan Python:
pip install -r requirements.txt - Unduh Vimium secara lokal dan muat ekstensi secara manual saat menjalankan Playwright:
./setup.sh
Ide
- Berencana mempertimbangkan penggunaan Assistant API saat dirilis untuk pencarian konteks otomatis.
- Ada kemungkinan mengembangkan versi khusus Vimium yang secara selektif menampilkan overlay elemen berdasarkan konteks.
- Masalah kegagalan pengenalan model pada resolusi rendah dapat diperbaiki dengan menggunakan gambar beresolusi lebih tinggi.
- LLaVa atau CogVLM dapat di-fine-tune agar lebih cepat dan lebih murah.
- Jika Vision API mendukung mode JSON, ada rencana untuk menggunakannya, tetapi saat ini harus mengandalkan metode prompting yang lebih mentah.
- Sedang mempertimbangkan cara agar Vision API mengembalikan instruksi umum, lalu merumuskannya melalui API mode JSON.
- Juga mempertimbangkan penambahan speech-to-text menggunakan Whisper atau model lain untuk menghilangkan input teks dan meningkatkan aksesibilitas.
- Ingin membuatnya bekerja di browser milik pengguna sendiri, bukan di browser buatan.
- Menyediakan frame berdasarkan apakah Vimium aktif atau tidak, untuk berjaga-jaga jika model tidak dapat melihat di bawah kotak persegi panjang kuning.
- Selain input gambar, juga menyediakan pohon aksesibilitas Chrome sebagai input untuk memberikan tata letak elemen interaktif yang dapat dipetakan ke binding Vimium.
Referensi
Opini GN⁺
Hal terpenting dalam artikel ini adalah upaya merevolusi pengalaman menjelajah web dengan memanfaatkan large language model seperti GPT-4V. Menyediakan cara bagi model untuk berinteraksi dengan web melalui ekstensi Vimium adalah pendekatan yang menarik, dan ini memiliki potensi untuk meningkatkan aksesibilitas serta interaktivitas web. Bagi penggemar teknologi dan pengembang perangkat lunak, eksperimen seperti ini memberikan wawasan tentang masa depan kecerdasan buatan dan evolusi antarmuka web, sehingga menjadi topik yang sangat menarik.
1 komentar
Pendapat Hacker News
Sulit dipercaya bahwa hal seperti ini sekarang memungkinkan:
Di tempat kerja saya, utang teknis begitu besar sehingga banyak orang masih menyalin data secara manual:
Salam dari pembuatnya:
Ada pendapat bahwa vim adalah "implementasi" yang cocok untuk ChatGPT:
Diskusi tentang screenshot dan tugas browsing menggunakan GPT-4 Vision:
Berbagi pengalaman bereksperimen melalui antarmuka ChatGPT:
Pertanyaan tentang dampak alat seperti ini terhadap pelacakan web atau iklan:
Dimungkinkan membuat autopilot untuk browser:
Pendapat positif bahwa GPT-4V menghadirkan sudut pandang baru untuk web scraping:
Berbagi pengalaman penggunaan nyata: