- Alat yang menggunakan LLM dan computer vision untuk mengotomatiskan workflow berbasis browser
- Solusi otomatisasi yang ada sebelumnya bergantung pada parsing DOM dan interaksi berbasis XPath yang mudah rusak saat tata letak situs web berubah, tetapi Skyvern melakukannya dengan menganalisis item di viewport secara real-time dan menyusun rencana interaksi
- Kelebihan:
- Dapat bekerja bahkan pada situs web baru, dan dapat memetakan elemen visual ke tindakan yang dibutuhkan untuk tugas tanpa kode kustom.
- Tahan terhadap perubahan tata letak situs web, dan tidak menggunakan XPath atau selector yang sudah ditentukan sebelumnya.
- Satu workflow dapat diterapkan ke beberapa situs web, dan dapat menyelesaikan masalah melalui interaksi bahkan dalam situasi yang kompleks.
Cara kerja
- Sistem agen: Skyvern menggunakan beberapa agen untuk memahami situs web serta merencanakan dan mengeksekusi tugas.
- Agen elemen yang dapat diinteraksikan: Menganalisis HTML situs web dan mengekstrak elemen yang dapat diinteraksikan.
- Agen navigasi: Merencanakan navigasi untuk menyelesaikan tugas.
- Agen ekstraksi data: Mengekstrak data dari situs web.
- Agen kata sandi: Mengisi formulir kata sandi.
- Agen 2FA: Mengisi formulir 2FA.
- Agen pelengkapan otomatis dinamis: Mengisi formulir pelengkapan otomatis dinamis.
Skyvern Cloud
- Versi cloud: Versi cloud terkelola Skyvern memungkinkan otomatisasi workflow dalam skala besar dengan menjalankan beberapa instance Skyvern secara paralel tanpa harus mengelola infrastruktur. Selain itu, versi ini mencakup mekanisme anti-deteksi bot, jaringan proxy, dan fitur pemecahan CAPTCHA.
Tugas dan workflow Skyvern
- Tugas: Blok pembangun dasar Skyvern, yang menginstruksikan penelusuran situs web untuk mencapai tujuan tertentu.
- Workflow: Menghubungkan beberapa tugas menjadi satu unit kerja. Sebagai contoh, workflow dapat mengotomatiskan proses pembelian produk secara otomatis di toko e-commerce.
1 komentar
Opini Hacker News
Ada ketertarikan pada pengumuman fitur "computer use" milik Claude dari Anthropic, serta pertanyaan tentang apa yang membedakan Skyvern
Disebutkan bahwa belakangan ini banyak bermunculan AI wrapper yang memanfaatkan Playwright
Kekhawatiran disampaikan terkait banyaknya penulisan prompt dan penggunaan data plaintext dalam video contoh Skyvern
Ada anggapan bahwa frekuensi redesain situs web dibesar-besarkan
Disebutkan adanya risiko startup yang bergantung pada LLM pihak ketiga
Ada ucapan selamat atas Skyvern yang di-open-source-kan dengan AGPL, serta pertanyaan tentang rencana integrasi dengan LangChain
Dijelaskan konsep "otomatisasi browser"
Muncul pertanyaan tentang use case alat otomatisasi workflow berbasis LLM dan dampak jangka panjangnya
Ada kekhawatiran apakah Skyvern hanya menambahkan kompleksitas lain di atas proses yang sudah kompleks
Ada pertanyaan apakah Skyvern pernah dijalankan di modal.com
Ada pertanyaan tentang performa di WebArena dan VisualWebArena
Ada pertanyaan apakah Cloudflare kemungkinan akan memblokir Skyvern
Ada pertanyaan apakah ada pengalaman menjalankan Skyvern di situs web maskapai