Claude Computer Use - Apakah Vision adalah API pamungkas?

xguru · 2024-10-28T09:41:01+09:00

Setelah mencoba Computer Use API dari Anthropic, hasilnya: lambat, tidak andal, dan mudah mengambil alih komputer, tetapi "sangat menarik" Claude Computer memberi pengalaman 'agent' yang nyata karena vision adalah API yang menyatukan segalanya, sehingga selalu ada sesuatu yang bisa dilakukan Bagaimana cara kerjanya? Claude Computer Use pada dasarnya tampak seperti Claude 3.5 yang di-fine-tune dengan data interaksi komputer Ia jauh lebih baik daripada model lain dalam memahami tangkapan layar komputer dan isi di dalamnya [Yang dilakukan dengan baik] Membaca dan menavigasi layar (secara relatif) Saya hampir tidak pernah melihat Claude salah membaca isi tangkapan layar Dibanding AI lain, ia cukup piawai mengetahui koordinat seperti (500,250) 위치의 입력창을 클릭하세요 (meski bisa sedikit meleset tergantung ukuran layar) Function calling Saya terbiasa menganggap function calling jelas lebih buruk daripada output terstruktur, tetapi Claude Computer menggunakannya dengan baik Misalnya, jika diberi fungsi tool browser yang bisa langsung membuka situs web, ia lebih memilih fungsi itu daripada mengklik ikon browser Berpikir langkah demi langkah Jika diminta memecah tugas, Claude biasanya cukup piawai memahami langkah-langkah yang perlu dilakukan lalu mulai mengerjakannya [Yang dilakukan dengan buruk] Mengetahui kapan harus membaca layar Mengambil tangkapan layar itu mahal, sehingga AI cenderung berasumsi manipulasinya berhasil Misalnya, ia mengetik ke sebuah field tetapi field itu tidak fokus, lalu nanti akan sangat sulit mendeteksinya. OS function call harus menjelaskan dengan sangat akurat apakah hasil yang dimaksud benar-benar terjadi Ini adalah cara Claude paling sering tersendat. Saat akhirnya mengambil tangkapan layar baru, ia tidak lagi tahu progresnya sendiri Mengambil lebih banyak data Jika diminta mencari 3 kedai shawarma terdekat, Claude akan mengetik 'shawarma' di Google Maps lalu memilih 3 hasil teratas Jika harus mengklik, ia hampir tidak pernah lebih dulu memilih 'urutkan berdasarkan jarak' dari menu Ini mungkin bisa diatasi dengan struktur prompt yang lebih baik Mengingat status Dalam Computer Use, lebih banyak bagian dari status program disimpan dalam gambar, dan tampaknya lebih rentan saat harus mengingatnya Ini juga berlaku untuk hal-hal yang sudah dilakukan sebelumnya, seperti tab yang dibuka atau aplikasi yang diubah Sebaiknya buat Claude mengeluarkan status terkait dalam bentuk teks sebanyak mungkin dan sediakan status sistem lewat tool Menavigasi modal dan popup Claude paling sering bingung dengan modal dan popup, tidak tahu cara keluar darinya dengan mengklik, atau gagal mengenali bahwa statusnya tidak benar [Apa yang dibutuhkan?] Sediakan status sistem sebanyak mungkin Idealnya, kita ingin Claude Computer menggunakan vision hanya saat benar-benar perlu Jika diberi tool yang bisa memahami status dengan mudah tanpa vision, ia bisa bergerak lebih cepat dan berpikir lebih jernih Sangat membantu jika menyediakan hal-hal seperti: daftar aplikasi yang terbuka aplikasi mana yang sedang mendapat fokus aktif apa yang sedang mendapat fokus di dalam aplikasi tersebut sebanyak mungkin function call untuk menavigasi aplikasi itu secara khusus tool browser sangat penting terutama untuk hal seperti membuka URL tertentu atau melakukan pencarian Cara menangani ketidakpastian Ini adalah masalah tak terpecahkan terbesar dalam pengembangan agent Hal terpenting tentang agent adalah kepercayaan, dan kepercayaan membutuhkan input serta umpan balik Selama pengujian, ada beberapa kali jelas terlihat Claude tidak tahu harus berbuat apa, tetapi alih-alih berhenti atau bertanya, ia tetap memaksakan jalan Saya menghabiskan cukup banyak waktu membuat tool pertanyaan agar AI bertanya atau menalar saat buntu. Namun, hampir tidak pernah digunakan Ini masuk akal. Function calling paling baik ketika ia tahu bahwa ia membutuhkan informasi dan hanya perlu mengambilnya Namun, mengetahui kapan sedang tidak pasti adalah masalah yang berbeda. Pengembang agent harus bisa mempercayai AI untuk melaporkan ketidakpastiannya sendiri [Jalan ke depan] Claude Computer Use adalah langkah pertama menuju perilaku agent yang sesungguhnya Sangat mungkin kita masih belum memanfaatkan kemampuan model saat ini secara maksimal Namun, jelas bahwa untuk menciptakan pengalaman agent yang sesungguhnya, kita akan membutuhkan lebih dari sekadar LLM function calling

(thariq.io)

4 poin oleh xguru 2024-10-28 | Belum ada komentar. | Bagikan ke WhatsApp

Setelah mencoba Computer Use API dari Anthropic, hasilnya:
- lambat, tidak andal, dan mudah mengambil alih komputer, tetapi "sangat menarik"
Claude Computer memberi pengalaman 'agent' yang nyata karena vision adalah API yang menyatukan segalanya, sehingga selalu ada sesuatu yang bisa dilakukan

Bagaimana cara kerjanya?

Claude Computer Use pada dasarnya tampak seperti Claude 3.5 yang di-fine-tune dengan data interaksi komputer
Ia jauh lebih baik daripada model lain dalam memahami tangkapan layar komputer dan isi di dalamnya

[Yang dilakukan dengan baik]

Membaca dan menavigasi layar (secara relatif)

Saya hampir tidak pernah melihat Claude salah membaca isi tangkapan layar
Dibanding AI lain, ia cukup piawai mengetahui koordinat seperti (500,250) 위치의 입력창을 클릭하세요 (meski bisa sedikit meleset tergantung ukuran layar)

Function calling

Saya terbiasa menganggap function calling jelas lebih buruk daripada output terstruktur, tetapi Claude Computer menggunakannya dengan baik
Misalnya, jika diberi fungsi tool browser yang bisa langsung membuka situs web, ia lebih memilih fungsi itu daripada mengklik ikon browser

Berpikir langkah demi langkah

Jika diminta memecah tugas, Claude biasanya cukup piawai memahami langkah-langkah yang perlu dilakukan lalu mulai mengerjakannya

[Yang dilakukan dengan buruk]

Mengetahui kapan harus membaca layar

Mengambil tangkapan layar itu mahal, sehingga AI cenderung berasumsi manipulasinya berhasil
Misalnya, ia mengetik ke sebuah field tetapi field itu tidak fokus, lalu nanti akan sangat sulit mendeteksinya. OS function call harus menjelaskan dengan sangat akurat apakah hasil yang dimaksud benar-benar terjadi
Ini adalah cara Claude paling sering tersendat. Saat akhirnya mengambil tangkapan layar baru, ia tidak lagi tahu progresnya sendiri

Mengambil lebih banyak data

Jika diminta mencari 3 kedai shawarma terdekat, Claude akan mengetik 'shawarma' di Google Maps lalu memilih 3 hasil teratas
Jika harus mengklik, ia hampir tidak pernah lebih dulu memilih 'urutkan berdasarkan jarak' dari menu
Ini mungkin bisa diatasi dengan struktur prompt yang lebih baik

Mengingat status

Dalam Computer Use, lebih banyak bagian dari status program disimpan dalam gambar, dan tampaknya lebih rentan saat harus mengingatnya
Ini juga berlaku untuk hal-hal yang sudah dilakukan sebelumnya, seperti tab yang dibuka atau aplikasi yang diubah
Sebaiknya buat Claude mengeluarkan status terkait dalam bentuk teks sebanyak mungkin dan sediakan status sistem lewat tool

Menavigasi modal dan popup

Claude paling sering bingung dengan modal dan popup, tidak tahu cara keluar darinya dengan mengklik, atau gagal mengenali bahwa statusnya tidak benar

[Apa yang dibutuhkan?]

Sediakan status sistem sebanyak mungkin

Idealnya, kita ingin Claude Computer menggunakan vision hanya saat benar-benar perlu
Jika diberi tool yang bisa memahami status dengan mudah tanpa vision, ia bisa bergerak lebih cepat dan berpikir lebih jernih
Sangat membantu jika menyediakan hal-hal seperti:
- daftar aplikasi yang terbuka
- aplikasi mana yang sedang mendapat fokus aktif
- apa yang sedang mendapat fokus di dalam aplikasi tersebut
- sebanyak mungkin function call untuk menavigasi aplikasi itu secara khusus
  - tool browser sangat penting terutama untuk hal seperti membuka URL tertentu atau melakukan pencarian

Cara menangani ketidakpastian

Ini adalah masalah tak terpecahkan terbesar dalam pengembangan agent
Hal terpenting tentang agent adalah kepercayaan, dan kepercayaan membutuhkan input serta umpan balik
Selama pengujian, ada beberapa kali jelas terlihat Claude tidak tahu harus berbuat apa, tetapi alih-alih berhenti atau bertanya, ia tetap memaksakan jalan
Saya menghabiskan cukup banyak waktu membuat tool pertanyaan agar AI bertanya atau menalar saat buntu. Namun, hampir tidak pernah digunakan
Ini masuk akal. Function calling paling baik ketika ia tahu bahwa ia membutuhkan informasi dan hanya perlu mengambilnya
Namun, mengetahui kapan sedang tidak pasti adalah masalah yang berbeda. Pengembang agent harus bisa mempercayai AI untuk melaporkan ketidakpastiannya sendiri

[Jalan ke depan]

Claude Computer Use adalah langkah pertama menuju perilaku agent yang sesungguhnya
Sangat mungkin kita masih belum memanfaatkan kemampuan model saat ini secara maksimal
Namun, jelas bahwa untuk menciptakan pengalaman agent yang sesungguhnya, kita akan membutuhkan lebih dari sekadar LLM function calling