2 poin oleh GN⁺ 2023-11-10 | 1 komentar | Bagikan ke WhatsApp

vimGPT: menyediakan taman bermain bagi model multimodal

Gambaran umum

  • Pemanfaatan large language models (LLM) untuk penjelajahan web sedang dieksplorasi oleh berbagai startup dan proyek open source.
  • Ada ketertarikan pada proyek eksperimen untuk melihat apakah penjelajahan web memungkinkan hanya dengan menggunakan kemampuan visual GPT-4V.
  • Model mengalami kesulitan memahami target yang ingin diklik tanpa DOM browser berbasis teks.

Pengaturan

  • Instal kebutuhan Python: pip install -r requirements.txt
  • Unduh Vimium secara lokal dan muat ekstensi secara manual saat menjalankan Playwright: ./setup.sh

Ide

  • Berencana mempertimbangkan penggunaan Assistant API saat dirilis untuk pencarian konteks otomatis.
  • Ada kemungkinan mengembangkan versi khusus Vimium yang secara selektif menampilkan overlay elemen berdasarkan konteks.
  • Masalah kegagalan pengenalan model pada resolusi rendah dapat diperbaiki dengan menggunakan gambar beresolusi lebih tinggi.
  • LLaVa atau CogVLM dapat di-fine-tune agar lebih cepat dan lebih murah.
  • Jika Vision API mendukung mode JSON, ada rencana untuk menggunakannya, tetapi saat ini harus mengandalkan metode prompting yang lebih mentah.
  • Sedang mempertimbangkan cara agar Vision API mengembalikan instruksi umum, lalu merumuskannya melalui API mode JSON.
  • Juga mempertimbangkan penambahan speech-to-text menggunakan Whisper atau model lain untuk menghilangkan input teks dan meningkatkan aksesibilitas.
  • Ingin membuatnya bekerja di browser milik pengguna sendiri, bukan di browser buatan.
  • Menyediakan frame berdasarkan apakah Vimium aktif atau tidak, untuk berjaga-jaga jika model tidak dapat melihat di bawah kotak persegi panjang kuning.
  • Selain input gambar, juga menyediakan pohon aksesibilitas Chrome sebagai input untuk memberikan tata letak elemen interaktif yang dapat dipetakan ke binding Vimium.

Referensi

Opini GN⁺

Hal terpenting dalam artikel ini adalah upaya merevolusi pengalaman menjelajah web dengan memanfaatkan large language model seperti GPT-4V. Menyediakan cara bagi model untuk berinteraksi dengan web melalui ekstensi Vimium adalah pendekatan yang menarik, dan ini memiliki potensi untuk meningkatkan aksesibilitas serta interaktivitas web. Bagi penggemar teknologi dan pengembang perangkat lunak, eksperimen seperti ini memberikan wawasan tentang masa depan kecerdasan buatan dan evolusi antarmuka web, sehingga menjadi topik yang sangat menarik.

1 komentar

 
GN⁺ 2023-11-10
Pendapat Hacker News
  • Sulit dipercaya bahwa hal seperti ini sekarang memungkinkan:

    • Ada opsi yang bisa dipilih untuk membantu pengguna menyelesaikan tugas tertentu: 'navigate', 'type', 'click', dan 'done'.
    • 'navigate' harus berpindah ke URL yang ditentukan, sedangkan 'type' dan 'click' memproses input berupa string.
    • Saat melakukan klik, harus mengembalikan urutan karakter berwarna kuning, dan saat mengetik, harus mengembalikan pesan sebagai string.
    • Jika halaman sudah memuaskan, kembalikan 'done' sebagai kunci, dan wajib merespons hanya dalam format JSON.
  • Di tempat kerja saya, utang teknis begitu besar sehingga banyak orang masih menyalin data secara manual:

    • Menyatakan antusiasme bahwa alat seperti ini akan berfungsi sebagai lapisan yang dapat menyelesaikan masalah yang sudah ada.
  • Salam dari pembuatnya:

    • Mengucapkan terima kasih karena telah membagikan proyek ini, dan meminta agar diberi tahu jika ada pertanyaan.
    • Ada ide untuk langkah berikutnya di README, jadi kontribusi sangat diterima.
  • Ada pendapat bahwa vim adalah "implementasi" yang cocok untuk ChatGPT:

    • Semuanya bisa dilakukan sebagai aliran teks, dan di internet sudah ada banyak vimscript.
    • Menyebut bahwa ia mulai melakukan eksperimen serupa dan membagikan tautan proyek terkait.
  • Diskusi tentang screenshot dan tugas browsing menggunakan GPT-4 Vision:

    • Setelah gagal meng-overlay informasi pada screenshot, pendekatan mengambil accessibility tree dari playwright sebagai teks dan memberi tahu model tentang opsi interaksi menunjukkan hasil yang lebih baik.
    • Menyarankan kepada pembuatnya untuk menambahkan ide ini ke daftar ide masa depan.
  • Berbagi pengalaman bereksperimen melalui antarmuka ChatGPT:

    • Menyarankan untuk memperbarui CSS agar menghapus gradien dan sudut membulat.
    • Kombinasi merah dengan teks putih tebal menunjukkan hasil yang paling konsisten.
    • Menyarankan untuk memperbesar ukuran font, memisahkan label jika saling tumpang tindih, dan menambahkan panah.
    • Merekomendasikan untuk mengirim dua versi gambar ke API: satu yang diberi anotasi dan satu lagi yang tidak.
  • Pertanyaan tentang dampak alat seperti ini terhadap pelacakan web atau iklan:

    • Potensinya sebagai 'pemblokir iklan' di mana agen menemukan hal yang diinginkan pengguna tanpa iklan atau pop-up.
    • Membayangkan bahwa ini dapat mengurangi pentingnya SEO dan meningkatkan kualitas internet.
    • Di sisi lain, juga mengungkapkan kekhawatiran tentang dampak negatif yang bisa ditimbulkan iklan.
  • Dimungkinkan membuat autopilot untuk browser:

    • Jika teknologi ini diterapkan dalam skala besar, akan sangat sulit membedakan traffic bot.
    • Mengangkat masalah bahwa dalam jangka pendek hal ini tidak akan murah atau mudah diakses.
  • Pendapat positif bahwa GPT-4V menghadirkan sudut pandang baru untuk web scraping:

    • Kode ini atau kode serupa diperkirakan akan dimanfaatkan di banyak proyek.
    • Misalnya dapat digunakan untuk scraping situs seperti LinkedIn atau Twitter, analisis pesaing, memahami sektor industri, atau memperoleh berita.
  • Berbagi pengalaman penggunaan nyata:

    • Muncul masalah di mana anotasi kecil untuk opsi yang dapat diklik sering kali tidak terlihat di layar sehingga terjebak dalam loop.
    • Berhasil login ke Twitter, tetapi batas 100 image API cepat habis.
    • Mengusulkan agar pada versi mendatang lebih banyak menggunakan browser berbasis teks, dan hanya memakai vision dalam situasi yang kompleks.