Menjelajah Web dengan GPT-4 Vision dan Vimium

(github.com/ishan0102)

2 poin oleh GN⁺ 2023-11-10 | 1 komentar | Bagikan ke WhatsApp

Proyek ini bereksperimen apakah penjelajahan web bisa dilakukan hanya dengan kemampuan vision dari GPT-4V, dengan menyediakan antarmuka bagi model multimodal untuk berinteraksi dengan web
Membahas masalah bahwa tanpa memberikan DOM browser sebagai teks, model sulit menentukan apa yang ingin dikliknya
Menggunakan ekstensi Chrome Vimium agar web dapat dijelajahi hanya dengan keyboard, lalu bereksperimen dengan cara model berinteraksi dengan web melalui mekanisme ini
Alur eksekusinya terdiri dari instalasi kebutuhan Python, mengunduh Vimium secara lokal, memuat ekstensi secara manual saat menjalankan Playwright, lalu menjalankan python main.py
Dengan python main.py --voice, Voice Mode dapat dijalankan sehingga pengguna bisa menyebutkan tujuan lewat perintah suara dan membuat browser melakukan tindakan secara real time
Saat ini Vision API belum mendukung JSON mode atau function calling, sehingga harus bergantung pada pendekatan prompt yang lebih mentah
Pada resolusi rendah, model terkadang tidak dapat mendeteksi apa pun; penggunaan gambar beresolusi lebih tinggi bisa memperbaikinya, tetapi membutuhkan lebih banyak token

1 komentar

GN⁺ 2023-11-10

Komentar Hacker News

Sungguh mengejutkan bahwa hal seperti ini sekarang bisa dilakukan: https://github.com/ishan0102/vimGPT/blob/682b5e539541cd6d710...
Prompt-nya pada dasarnya menyuruh browser untuk beroperasi dengan cara, “demi membantu tujuan pengguna, pilih tindakan di antara navigate, type, click, done, tentukan target klik dengan urutan teks kuning, lalu kembalikan hanya JSON”
- Kecepatan pergerakan bidang ini terasa sampai bikin kepala pening. Rasanya ini bahkan bisa jadi arus yang lebih gila daripada boom dot-com
Di tempat kerja, cukup banyak orang yang hanya melakukan penyalinan data manual di antara program-program lawas. Karena ini di ranah pemerintahan, utang teknisnya terlalu besar sehingga mereka tidak bisa menemukan cara untuk menghubungkan sistem-sistem itu satu sama lain
Akan menarik kalau suatu hari alat seperti ini bisa menjadi lapisan yang berjalan di atas masalah seperti itu. Dari sudut pandang sumber daya komputasi, memang solusi yang aneh
- Dahulu sekali saya pernah mengerjakan proyek kecil untuk sebuah jaringan bahan makanan multinasional besar. Saya membuatkan alat yang mem-parsing file Excel dengan struktur tertentu lalu memanggil endpoint sistem internal untuk mengirimkan data
  Saya penasaran bagaimana cara lama mereka bekerja, jadi saya bertanya. Mereka membawa saya ke komputer di belakang kantor, dan di wallpaper-nya ada dua kotak bertuliskan MS EXCEL dan INTERNET EXPLORER. Petugasnya membuka dua aplikasi itu, menempatkan jendelanya tepat sesuai kotak-kotak tersebut, lalu menjalankan auto-clicker yang terasa seperti buatan cheater RuneScape untuk menyalin nilai Excel ke formulir-formulir situs web. Luar biasa
- Orang-orang menyalahkan “perangkat lunak lama” di sini, tetapi sebenarnya hampir semua orang yang memakai internet terus menghadapi masalah input data yang sama. Menyalin data formulir dari satu sisi layar ke formulir web lain, atau lebih buruk lagi, mengetiknya ulang
  Nama pengguna, kata sandi, alamat email, alamat fisik, informasi kartu kredit, semuanya seperti itu, dan memang ada ekstensi yang berusaha membantu pengisian, tetapi tidak ada yang benar-benar bekerja dengan andal secara konsisten. Bahkan mengharapkan nama pengguna dan kata sandi terisi konsisten pun sulit. Ini adalah gangguan nomor satu dalam penggunaan internet, bahkan lebih besar daripada iklan, dan mengejutkan bahwa masalah ini masih belum terselesaikan, dengan atau tanpa LLM. Kalau ada perangkat lunak yang benar-benar menuntaskan ini, saya bersedia membayar langganan bulanan
- Dalam istilah industri, ini disebut Robotic Process Automation (otomatisasi proses robotik), dan keluarga produk ini selama ini berfokus pada cara menggabungkan berbagai bentuk machine learning/AI dengan screen scraping tradisional agar hal-hal seperti ini bisa dihubungkan secara umum dan terstruktur
  Sampai sekarang produk-produk seperti ini cukup rapuh, tetapi ledakan AI belakangan ini tampaknya menjadi kabar sangat baik untuk area ini
- Setiap kali mendengar bahwa ekstraksi data dari sistem lawas dilakukan manual oleh manusia, saya selalu bertanya-tanya apakah mereka sudah pernah meminta estimasi solusi yang “benar”, lalu memutuskan bahwa membayar beberapa orang untuk mengetik tetap lebih murah
  Bahkan kalau sesuatu seperti ChatGPT diintegrasikan, tetap perlu ditinjau oleh orang yang benar-benar paham, dan saya tidak akan heran bila saran pertama dari mereka justru “jangan pakai ChatGPT untuk itu”
- Dulu saya menganggap adegan di Ghost in the Shell, saat robot punya jari tambahan di atas jari agar bisa mengetik cepat, itu aneh. Memang tidak akan persis begitu karena bisa langsung dicolok ke USB, tetapi tetap saja kadang sepertinya layar dan input keyboard akan dipakai
vim tampaknya tanpa sengaja menjadi tubuh terimplementasi yang sangat bagus untuk ChatGPT. Hampir tak ada yang tidak bisa dilakukan lewat aliran teks, dan internet sudah dipenuhi vimscript
Saya baru mulai eksperimen serupa, jadi kalau ada yang memikirkan arah yang sama bisa menjadikannya referensi: https://github.com/LachlanGray/vim-agent
Saya yang membuatnya. Silakan tanya kalau penasaran, dan kontribusi juga diterima. Saya sudah meninggalkan beberapa langkah berikutnya yang mungkin di README
- Hari ini lebih awal saya merilis sesuatu yang hampir sama: https://github.com/Jiayi-Pan/GPT-V-on-Web. Hanya saja tidak banyak mendapat perhatian
- Open Interpreter juga sedang mencoba mengotomatisasi Selenium dengan kontrol bahasa alami, dan belakangan cukup banyak proyek serupa muncul di HN. Pendekatan Vimium tampak jauh lebih ringan, jadi cukup menjanjikan
  Dengan satu atau lain cara, World Wide Web yang terbuka tampaknya sedang berubah menjadi server overlay API dinamisnya sendiri
- Apa bedanya dengan cara ChatGPT saat ini menjelajahi web?
- Apakah ini bisa dipakai untuk membuat bot yang mengunjungi situs web lalu mengekstrak dan menganalisis informasi relevan tanpa menulis parser khusus per situs?
Saya sempat mencoba ide serupa untuk browsing menggunakan screenshot dan aksi dengan GPT-4 Vision, tetapi setelah gagal menumpangkan informasi di atas screenshot, saya akhirnya mengambil accessibility tree dari Playwright lalu mengirimkannya bersama teks
Dengan begitu model bisa mengetahui opsi yang bisa diinteraksikan, dan dalam kasus saya hasilnya bekerja lebih baik. Pembuatnya ada di sini dan juga punya daftar ide ke depan, jadi kalau berkenan mungkin ini bisa ditambahkan ke daftar itu
- Ide bagus. Awalnya saya ingin memakai data visual saja, tetapi ini bisa membuat agennya jauh lebih kuat. Akan saya coba segera
- Sepertinya akan lebih baik menangkap seluruh konten, bukan hanya yang masuk dalam satu layar. Dengan jendela token yang kini lebih besar, rasanya kebanyakan halaman bisa dimasukkan sebagai teks atau HTML
Selama beberapa minggu terakhir saya mengutak-atik ini lewat antarmuka ChatGPT. Ada beberapa tips
Ubah CSS untuk menghilangkan gradien dan sudut membulat; teks putih tebal di atas merah adalah yang paling konsisten. Perbesar ukuran font, dan kalau dua label bertumpuk, dorong agar saling menjauh lalu tambahkan panah yang menunjuk ke elemennya. Untuk API, sebaiknya kirim keduanya: gambar yang sudah diberi anotasi dan gambar tanpa anotasi
Kita bisa membuat autopilot untuk browser
Jika ini diterapkan dalam skala besar, ke depan akan sangat sulit membedakan trafik bot. Namun dalam jangka pendek tampaknya ada masalah bahwa biayanya belum akan murah atau mudah ditanggung
- Dengan fine-tuning model open source seperti llava atau cogvlm, sepertinya biaya bisa ditekan. Demo ini sendiri sekitar 6 sen, jadi tidak semahal gila-gilaan, dan dengan perancangan prompt yang cerdas hasilnya mungkin bisa lebih baik lagi
Dampak alat seperti ini terhadap pelacakan web atau iklan internet secara keseluruhan akan seperti apa? Jika agen bisa menjelajahi web sebagai pengganti kita, mengambil hanya hal yang dicari dengan tepat sambil menghindari pelacakan dan tanpa melihat iklan atau pop-up, ini bisa menjadi pemblokir iklan yang hebat
Mungkin ini juga bisa membuat SEO menjadi tidak berguna dan meningkatkan kualitas internet. Sebaliknya, saya juga penasaran apakah akan muncul efek samping berupa iklan yang entah bagaimana “menyusup” ke dalam konten yang dibawakan
- Kalau metodenya mengirim tangkapan layar halaman ke GPT, bukankah itu berarti iklan juga ikut terlihat?
Banyak perusahaan di Belanda membayar gaji seperti ini. 1) menerima slip gaji dari akuntan, 2) memulai transfer bank secara manual ke tiap karyawan sesuai nominal pada slip tersebut, dan 3) juga memulai transfer bank secara manual ke otoritas pajak untuk pajak gaji yang dipotong
Ini pekerjaan manual yang benar-benar tidak berguna, dan tidak ada alasan proses ini harus manual. Namun otomatisasi hampir mustahil. Portal akuntansi tidak punya API, atau kalau ada, datanya justru harus diunduh sebagai PDF, atau biaya API-nya cukup mahal. Bank juga tidak punya API, atau meminta pendaftaran akun pengembang seolah-olah kita mau merilis aplikasi publik, padahal tujuannya hanya mengotomatisasi proses internal. Jadi cara termudah untuk membayar gaji dan pajak masih dengan mempekerjakan seseorang untuk menanganinya secara manual. Saya tidak akan percaya AI untuk benar-benar memulai transfer bank, tetapi mungkin saja AI menyiapkan transaksinya lalu manusia tinggal menyetujui pengirimannya
- Ini tampaknya tidak terlalu berkaitan dengan AI. Di Inggris sudah ada solusi seperti Pento, yang mengotomatisasi pembayaran ke pengguna dan otoritas pajak melalui open banking serta mengirim pelaporan pajak secara otomatis: https://www.pento.io/la/payroll-software
- Itu cuma masalah perbankan. Payroll perusahaan besar tidak berjalan seperti itu. Bank biasanya mengizinkan unggah file XML yang mendefinisikan kumpulan pembayaran SWIFT, dan payroll perusahaan kecil juga diproses seperti itu. Akuntan juga menyediakan file XML, mungkin karena mereka punya aplikasi pembuatnya
- Di negara kami juga mirip, hanya saja sebagian data harus diunggah ke situs lembaga pemerintah. Sepertinya awal tahun ini ada pengumuman bahwa orang yang memakai perangkat lunak untuk melakukan tindakan di situs web bisa diblokir
- Tujuan https://github.com/OpenAdaptAI/OpenAdapt adalah mengotomatisasi alur kerja GUI yang berulang
Apakah ini sangat mirip dengan konsep Adept? Hanya saja produknya tampaknya belum siap: https://www.adept.ai/
- Agak gila bahwa sesuatu yang kabarnya sudah dikerjakan Adept selama bertahun-tahun dengan pendanaan lebih dari 300 juta dolar sekarang bisa dibuat dalam sehari dengan OpenAI API
  Memang tampaknya Adept sempat berbelok arah di tengah jalan, tetapi konsep awalnya sangat mirip dengan ini
- https://www.adept.ai/blog/experiments :)
- Benar. Ini terinspirasi oleh Adept dan beberapa startup lain
- Ini persis demo yang terlintas di kepala saya

Menjelajah Web dengan GPT-4 Vision dan Vimium

Bacaan terkait

1 komentar

Komentar Hacker News