- Setelah mencoba Computer Use API dari Anthropic, hasilnya:
- lambat, tidak andal, dan mudah mengambil alih komputer, tetapi "sangat menarik"
- Claude Computer memberi pengalaman 'agent' yang nyata karena vision adalah API yang menyatukan segalanya, sehingga selalu ada sesuatu yang bisa dilakukan
Bagaimana cara kerjanya?
- Claude Computer Use pada dasarnya tampak seperti Claude 3.5 yang di-fine-tune dengan data interaksi komputer
- Ia jauh lebih baik daripada model lain dalam memahami tangkapan layar komputer dan isi di dalamnya
[Yang dilakukan dengan baik]
Membaca dan menavigasi layar (secara relatif)
- Saya hampir tidak pernah melihat Claude salah membaca isi tangkapan layar
- Dibanding AI lain, ia cukup piawai mengetahui koordinat seperti
(500,250) 위치의 입력창을 클릭하세요 (meski bisa sedikit meleset tergantung ukuran layar)
Function calling
- Saya terbiasa menganggap function calling jelas lebih buruk daripada output terstruktur, tetapi Claude Computer menggunakannya dengan baik
- Misalnya, jika diberi fungsi tool browser yang bisa langsung membuka situs web, ia lebih memilih fungsi itu daripada mengklik ikon browser
Berpikir langkah demi langkah
- Jika diminta memecah tugas, Claude biasanya cukup piawai memahami langkah-langkah yang perlu dilakukan lalu mulai mengerjakannya
[Yang dilakukan dengan buruk]
Mengetahui kapan harus membaca layar
- Mengambil tangkapan layar itu mahal, sehingga AI cenderung berasumsi manipulasinya berhasil
- Misalnya, ia mengetik ke sebuah field tetapi field itu tidak fokus, lalu nanti akan sangat sulit mendeteksinya. OS function call harus menjelaskan dengan sangat akurat apakah hasil yang dimaksud benar-benar terjadi
- Ini adalah cara Claude paling sering tersendat. Saat akhirnya mengambil tangkapan layar baru, ia tidak lagi tahu progresnya sendiri
Mengambil lebih banyak data
- Jika diminta mencari 3 kedai shawarma terdekat, Claude akan mengetik 'shawarma' di Google Maps lalu memilih 3 hasil teratas
- Jika harus mengklik, ia hampir tidak pernah lebih dulu memilih 'urutkan berdasarkan jarak' dari menu
- Ini mungkin bisa diatasi dengan struktur prompt yang lebih baik
Mengingat status
- Dalam Computer Use, lebih banyak bagian dari status program disimpan dalam gambar, dan tampaknya lebih rentan saat harus mengingatnya
- Ini juga berlaku untuk hal-hal yang sudah dilakukan sebelumnya, seperti tab yang dibuka atau aplikasi yang diubah
- Sebaiknya buat Claude mengeluarkan status terkait dalam bentuk teks sebanyak mungkin dan sediakan status sistem lewat tool
Menavigasi modal dan popup
- Claude paling sering bingung dengan modal dan popup, tidak tahu cara keluar darinya dengan mengklik, atau gagal mengenali bahwa statusnya tidak benar
[Apa yang dibutuhkan?]
Sediakan status sistem sebanyak mungkin
- Idealnya, kita ingin Claude Computer menggunakan vision hanya saat benar-benar perlu
- Jika diberi tool yang bisa memahami status dengan mudah tanpa vision, ia bisa bergerak lebih cepat dan berpikir lebih jernih
- Sangat membantu jika menyediakan hal-hal seperti:
- daftar aplikasi yang terbuka
- aplikasi mana yang sedang mendapat fokus aktif
- apa yang sedang mendapat fokus di dalam aplikasi tersebut
- sebanyak mungkin function call untuk menavigasi aplikasi itu secara khusus
- tool browser sangat penting terutama untuk hal seperti membuka URL tertentu atau melakukan pencarian
Cara menangani ketidakpastian
- Ini adalah masalah tak terpecahkan terbesar dalam pengembangan agent
- Hal terpenting tentang agent adalah kepercayaan, dan kepercayaan membutuhkan input serta umpan balik
- Selama pengujian, ada beberapa kali jelas terlihat Claude tidak tahu harus berbuat apa, tetapi alih-alih berhenti atau bertanya, ia tetap memaksakan jalan
- Saya menghabiskan cukup banyak waktu membuat tool pertanyaan agar AI bertanya atau menalar saat buntu. Namun, hampir tidak pernah digunakan
- Ini masuk akal. Function calling paling baik ketika ia tahu bahwa ia membutuhkan informasi dan hanya perlu mengambilnya
- Namun, mengetahui kapan sedang tidak pasti adalah masalah yang berbeda. Pengembang agent harus bisa mempercayai AI untuk melaporkan ketidakpastiannya sendiri
[Jalan ke depan]
- Claude Computer Use adalah langkah pertama menuju perilaku agent yang sesungguhnya
- Sangat mungkin kita masih belum memanfaatkan kemampuan model saat ini secara maksimal
- Namun, jelas bahwa untuk menciptakan pengalaman agent yang sesungguhnya, kita akan membutuhkan lebih dari sekadar LLM function calling
Belum ada komentar.