4 poin oleh xguru 2024-10-28 | Belum ada komentar. | Bagikan ke WhatsApp
  • Setelah mencoba Computer Use API dari Anthropic, hasilnya:
    • lambat, tidak andal, dan mudah mengambil alih komputer, tetapi "sangat menarik"
  • Claude Computer memberi pengalaman 'agent' yang nyata karena vision adalah API yang menyatukan segalanya, sehingga selalu ada sesuatu yang bisa dilakukan

Bagaimana cara kerjanya?

  • Claude Computer Use pada dasarnya tampak seperti Claude 3.5 yang di-fine-tune dengan data interaksi komputer
  • Ia jauh lebih baik daripada model lain dalam memahami tangkapan layar komputer dan isi di dalamnya

[Yang dilakukan dengan baik]

Membaca dan menavigasi layar (secara relatif)

  • Saya hampir tidak pernah melihat Claude salah membaca isi tangkapan layar
  • Dibanding AI lain, ia cukup piawai mengetahui koordinat seperti (500,250) 위치의 입력창을 클릭하세요 (meski bisa sedikit meleset tergantung ukuran layar)

Function calling

  • Saya terbiasa menganggap function calling jelas lebih buruk daripada output terstruktur, tetapi Claude Computer menggunakannya dengan baik
  • Misalnya, jika diberi fungsi tool browser yang bisa langsung membuka situs web, ia lebih memilih fungsi itu daripada mengklik ikon browser

Berpikir langkah demi langkah

  • Jika diminta memecah tugas, Claude biasanya cukup piawai memahami langkah-langkah yang perlu dilakukan lalu mulai mengerjakannya

[Yang dilakukan dengan buruk]

Mengetahui kapan harus membaca layar

  • Mengambil tangkapan layar itu mahal, sehingga AI cenderung berasumsi manipulasinya berhasil
  • Misalnya, ia mengetik ke sebuah field tetapi field itu tidak fokus, lalu nanti akan sangat sulit mendeteksinya. OS function call harus menjelaskan dengan sangat akurat apakah hasil yang dimaksud benar-benar terjadi
  • Ini adalah cara Claude paling sering tersendat. Saat akhirnya mengambil tangkapan layar baru, ia tidak lagi tahu progresnya sendiri

Mengambil lebih banyak data

  • Jika diminta mencari 3 kedai shawarma terdekat, Claude akan mengetik 'shawarma' di Google Maps lalu memilih 3 hasil teratas
  • Jika harus mengklik, ia hampir tidak pernah lebih dulu memilih 'urutkan berdasarkan jarak' dari menu
  • Ini mungkin bisa diatasi dengan struktur prompt yang lebih baik

Mengingat status

  • Dalam Computer Use, lebih banyak bagian dari status program disimpan dalam gambar, dan tampaknya lebih rentan saat harus mengingatnya
  • Ini juga berlaku untuk hal-hal yang sudah dilakukan sebelumnya, seperti tab yang dibuka atau aplikasi yang diubah
  • Sebaiknya buat Claude mengeluarkan status terkait dalam bentuk teks sebanyak mungkin dan sediakan status sistem lewat tool

Menavigasi modal dan popup

  • Claude paling sering bingung dengan modal dan popup, tidak tahu cara keluar darinya dengan mengklik, atau gagal mengenali bahwa statusnya tidak benar

[Apa yang dibutuhkan?]

Sediakan status sistem sebanyak mungkin

  • Idealnya, kita ingin Claude Computer menggunakan vision hanya saat benar-benar perlu
  • Jika diberi tool yang bisa memahami status dengan mudah tanpa vision, ia bisa bergerak lebih cepat dan berpikir lebih jernih
  • Sangat membantu jika menyediakan hal-hal seperti:
    • daftar aplikasi yang terbuka
    • aplikasi mana yang sedang mendapat fokus aktif
    • apa yang sedang mendapat fokus di dalam aplikasi tersebut
    • sebanyak mungkin function call untuk menavigasi aplikasi itu secara khusus
      • tool browser sangat penting terutama untuk hal seperti membuka URL tertentu atau melakukan pencarian

Cara menangani ketidakpastian

  • Ini adalah masalah tak terpecahkan terbesar dalam pengembangan agent
  • Hal terpenting tentang agent adalah kepercayaan, dan kepercayaan membutuhkan input serta umpan balik
  • Selama pengujian, ada beberapa kali jelas terlihat Claude tidak tahu harus berbuat apa, tetapi alih-alih berhenti atau bertanya, ia tetap memaksakan jalan
  • Saya menghabiskan cukup banyak waktu membuat tool pertanyaan agar AI bertanya atau menalar saat buntu. Namun, hampir tidak pernah digunakan
  • Ini masuk akal. Function calling paling baik ketika ia tahu bahwa ia membutuhkan informasi dan hanya perlu mengambilnya
  • Namun, mengetahui kapan sedang tidak pasti adalah masalah yang berbeda. Pengembang agent harus bisa mempercayai AI untuk melaporkan ketidakpastiannya sendiri

[Jalan ke depan]

  • Claude Computer Use adalah langkah pertama menuju perilaku agent yang sesungguhnya
  • Sangat mungkin kita masih belum memanfaatkan kemampuan model saat ini secara maksimal
  • Namun, jelas bahwa untuk menciptakan pengalaman agent yang sesungguhnya, kita akan membutuhkan lebih dari sekadar LLM function calling

Belum ada komentar.

Belum ada komentar.