4 poin oleh GN⁺ 2025-10-08 | 2 komentar | Bagikan ke WhatsApp
  • Google merilis model Computer Use berbasis Gemini 2.5 Pro, yang mendukung pengembang membangun agen yang langsung mengoperasikan antarmuka pengguna
  • Pada benchmark kontrol web dan mobile, model ini menunjukkan kinerja yang lebih cepat dan akurat dibanding model pesaing, dan tersedia dalam pratinjau di Google AI Studio dan Vertex AI
  • Model menerima tangkapan layar, permintaan pengguna, dan riwayat aksi sebagai input, lalu secara otomatis menghasilkan perintah pengoperasian UI seperti klik, input, dan scroll
  • Untuk memastikan keamanan, model ini mencakup Per-step Safety Service dan prosedur konfirmasi pengguna untuk mencegah penyalahgunaan dan ancaman keamanan
  • Model ini sudah diterapkan pada Project Mariner, Firebase Testing Agent, AI Mode in Search, dan lainnya, membuktikan otomatisasi tingkat produksi serta peningkatan efisiensi pengujian

Gambaran umum

  • Google DeepMind meluncurkan model Gemini 2.5 Computer Use
    • Berdasarkan kemampuan pemahaman visual dan penalaran dari Gemini 2.5 Pro, ini adalah model untuk agen yang dapat langsung mengendalikan UI web dan mobile
    • Melangkah lebih jauh dari otomatisasi berbasis API yang sudah ada, model ini dapat melakukan interaksi antarmuka grafis seperti mengisi formulir, scroll, dan menangani login
    • Tersedia dalam bentuk pratinjau melalui Google AI Studio dan Vertex AI

Cara kerja

  • Bekerja dalam struktur loop berulang melalui alat computer_use yang baru
    • Input: permintaan pengguna, screenshot UI saat ini, riwayat aksi terbaru
    • Output: pemanggilan fungsi aksi UI seperti klik, input, dan drag
    • Beberapa tugas berisiko tinggi tertentu (misalnya pembayaran) memerlukan prosedur konfirmasi pengguna
  • Setelah setiap aksi, screenshot dan URL baru dikirim kembali ke model untuk menjalankan langkah berikutnya
  • Utamanya dioptimalkan untuk lingkungan browser web, tetapi juga menunjukkan performa tinggi dalam kontrol UI mobile

Performa

  • Dalam evaluasi oleh Browserbase dan Google sendiri, model ini mencatat akurasi dan latensi kelas teratas di industri
    • Pada benchmark seperti Online-Mind2Web, model ini menunjukkan respons lebih dari 50% lebih cepat dibanding model pesaing
    • Akurasi dalam memahami konteks pada layar yang kompleks juga meningkat, dengan peningkatan performa 18% dilaporkan
  • Termasuk juga kemampuan untuk memulihkan secara otomatis dari kegagalan saat tugas kontrol UI berjalan, sehingga berguna untuk otomatisasi pengujian

Desain keamanan

  • Untuk mencegah penyalahgunaan agen, model ini mencakup fitur keamanan bawaan
    • Per-step Safety Service: memverifikasi aksi yang diusulkan model sebelum dieksekusi
    • System Instructions: memungkinkan pengaturan aturan konfirmasi pengguna atau penolakan untuk tugas tertentu (keamanan, medis, CAPTCHA, dan sebagainya)
  • Panduan untuk pengembang juga menyediakan rekomendasi keamanan tambahan, dan menyarankan pengujian menyeluruh sebelum diterapkan ke layanan produksi

Contoh penerapan awal

  • Tim internal Google mengadopsinya untuk otomatisasi pengujian UI, menurunkan tingkat kegagalan sebesar 25%
  • Sudah digunakan di lingkungan produksi nyata seperti Project Mariner, Firebase Testing Agent, dan AI Mode in Search
  • Dalam evaluasi pengguna awal dari pihak eksternal juga dilaporkan adanya peningkatan keandalan parsing data dan kecepatan eksekusi
    • Contoh: Autotab meningkatkan akurasi pemrosesan konteks kompleks sebesar 18%
    • Platform pembayaran Google memulihkan 60% pengujian yang gagal secara otomatis

Memulai

2 komentar

 
GN⁺ 2025-10-08
Opini Hacker News
  • Dulu saat menunggu di jalan dua lajur yang ada lampu lalu lintasnya, saya pernah berpikir kalau tidak ada mobil di jalan utama, seharusnya sistem kamera computer vision bisa mempercepat pergantian lampu
    Tapi waktu itu computer vision belum cukup matang, dan saya lalu tahu bahwa keberadaan mobil bisa dideteksi dengan sensor magnetik
    Itu masalah yang sebenarnya bisa diselesaikan dengan jauh lebih mudah memakai hardware dan software yang lebih sederhana, dan pendekatan yang saya pikirkan terlalu rumit serta mahal
    Saat menggunakan komputer pun saya percaya ML/AI seharusnya dioptimalkan untuk data terstruktur
    Tapi dunia menjadi lebih kompleks dan kecepatan komputer juga meningkat, jadi sekarang AI yang melihat layar lalu menggerakkan mouse dan mengklik terasa lebih realistis

    • Sekarang kamera computer vision sudah umum digunakan
      Sensor magnetik tidak terlalu baik dalam mendeteksi pesepeda, jadi belakangan kamera lebih disukai
      Dari sudut pandang petugas lalu lintas kota, kamera juga bisa dimanfaatkan sebagai alat pemantauan kemacetan, jadi makin populer

    • Di daerah saya, pada malam hari diterapkan sistem yang memasang sensor cahaya sederhana pada lampu lalu lintas sehingga jika saat mendekat Anda menyalakan lampu jauh, lampunya akan berubah
      Kalau tidak, jalan utama akan terus mendapat lampu hijau sepanjang malam
      Jadi saat mobil mencapai persimpangan, lampu hanya berubah berdasarkan sinyal lampu jauh atau fluks magnetik

    • Saya cukup sering bersepeda, dan saat di luar ruangan sangat berguna bisa mendengarkan podcast lalu berkata, "Hey Google, putar kembali 30 detik," untuk mendengar ulang atau melewati iklan
      Di dalam ruangan saya biasanya menonton acara TV atau video YouTube lewat casting
      Kadang saya ingin mengganti video YouTube, tapi perintah suara untuk YouTube nyaris hanya berfungsi seadanya dan hasilnya buruk
      Untuk layanan lain, perintah suara hampir mustahil
      Di dunia yang ideal, saya berharap Google menyediakan API yang hebat untuk integrasi seperti ini, dan semua aplikasi mengadopsinya dengan baik
      Jika langkah itu bisa dilewati tetapi hasilnya tetap hebat, bagi saya itu akan sangat bernilai
      Mungkin ini hanya skenario yang relevan untuk saya sendiri, tapi ini bagian yang benar-benar saya nantikan

    • Penggunaan komputer adalah benchmark terpenting saat memprediksi dampak AI terhadap pasar tenaga kerja
      Ada banyak cara yang lebih baik agar ML/AI bisa mengerjakan beragam tugas di komputer secara efisien
      Namun semua cara itu harus dirancang satu per satu sesuai tugas masing-masing
      Pendekatan yang tergeneralisasi justru lebih mudah diskalakan

    • Sebagai referensi, kamera lalu lintas jenis ini memang sudah umum digunakan
      https://www.milesight.com/company/blog/types-of-traffic-cameras

  • Sudah lama saya fokus pada pendekatan "mari jadikan segala sesuatu di dunia sebagai objek database" untuk mengotomatisasi pekerjaan manual yang berulang
    Saya melihat komputer bisa melakukan sangat banyak hal hanya dengan intervensi manusia yang minimal
    Saya juga menghabiskan banyak usaha pada machine learning
    Tapi ternyata saya tidak pernah benar-benar memikirkan bahwa komputer bisa dibuat bekerja seperti manusia dengan mouse dan keyboard, menggunakan langsung data dunia manusia yang semi-terstruktur seperti screen buffer
    Tentu saja saya sangat mendukung gagasan ini
    Dalam 10 tahun, mungkin kita akan masuk ke era di mana komputer bisa membuka Chrome, berbicara dalam panggilan video, menyelesaikan pekerjaan, dan lawan bicara sama sekali tidak menyadari bahwa itu komputer

    • Alasan AI lebih sukses daripada cara-cara yang 'secara teoretis lebih baik' adalah karena ia menyelesaikan masalah 'sosial' yang mendasar
      Ekosistem komputasi lebih bersifat kompetitif dan defensif daripada kolaboratif
      Struktur yang memang dirancang agar sebagian besar pekerjaan manual yang membosankan tidak bisa diotomatisasi adalah inti dari cara internet menghasilkan uang
      Jika pengguna bisa menghindari dorongan pembelian atau paparan iklan lewat otomatisasi, pendapatan akan turun

    • Di robotika juga pernah ada perdebatan serupa
      "Mengapa harus membuat robot berbentuk manusia, bukankah bentuk yang lebih efisien mungkin saja ada?" adalah pertanyaan yang sering muncul
      Namun pada akhirnya, agar alat diadopsi secara luas, ia harus dirancang agar cocok dengan lingkungan yang berpusat pada manusia, meski tidak efisien
      Aplikasi yang berfokus pada performa memang membutuhkan desain khusus dan optimasi, tetapi untuk adopsi massal perlu pendekatan yang menyesuaikan diri dengan manusia

    • Pagi ini saya sempat memikirkan aplikasi kencan lalu teringat bagian terakhir itu
      Jika "chatgpt saya" bisa mewakili saya dengan cukup baik, saya rasa aplikasi kencan bisa melakukan pencocokan dengan semacam pertemuan pendahuluan antara chatgpt pihak satu dan pihak lain
      Belakangan saya mendengar pembahasan tentang "digital twin" dalam keynote enterprise, dan rasanya ini masuk ke konsep itu
      Masih terlalu dini untuk menilai bagian ini, tapi saya penasaran sejauh mana perkembangannya

    • Saya penasaran apakah benar hasil seperti komputer yang langsung membuka Chrome, melakukan panggilan video, lalu menyelesaikan tugas seperti manusia sampai lawan bicara tidak sadar itu komputer benar-benar dianggap hasil yang baik
      Secara teknis itu pencapaian yang luar biasa dan mengesankan, tapi rasanya agak mengganggu

  • Saya sudah berhasil melakukan otomasi browser dari Gemini CLI dengan Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)
    Jadi saya rasa model kali ini mungkin akan menunjukkan performa yang lebih baik

    • Saya penasaran tugas otomatisasi seperti apa yang berhasil Anda lakukan dengan MCP

    • Pendekatan ini sama sekali tidak berhubungan dengan model yang dibutuhkan untuk penggunaan komputer
      Ini hanya memakai tool yang sudah didefinisikan Google di server MCP, jadi bukan model generik yang bisa diterapkan ke software apa pun

  • Kalau ada yang punya use case nyata yang lebih cepat daripada UX, saya ingin tahu
    Saya belum benar-benar punya gambaran bagaimana ini seharusnya dipakai
    Melihat begitu banyak investasi masuk, rasanya jelas ada sesuatu yang saya lewatkan
    Teknologi dan fiturnya sendiri mengesankan, tapi saya penasaran contoh penggunaan yang konkret

  • Jika browser bot diminta menyelesaikan Wordle hari ini, bisa terjadi situasi di mana ia tidak mampu menebak jawabannya karena tidak bisa melihat umpan balik warna huruf (hijau, kuning, abu-abu)
    Katanya, kata-katanya bisa dimasukkan, tetapi umpan baliknya tidak bisa diinterpretasikan

    • Saya jadi penasaran, apakah dia menjelajah web dengan layar hitam-putih
  • Gemini berhasil melewati captcha di https://www.google.com/recaptcha/api2/demo

    • Koreksi postingan: ternyata saya salah lihat, dan yang menyelesaikan Google CAPTCHA bukan Gemini melainkan Browserbase
      Detailnya dirangkum di sini

    • Otomasi berjalan di Browserbase, dan Browserbase memang memiliki captcha solver
      Tidak jelas apakah itu otomatis atau manusia

    • Mungkin itu bisa lolos karena percobaannya dilakukan dari IP di jaringan milik Google sendiri

  • (Saya hanya mencoba demo Browserbase)
    Mengetahui bahwa sesuatu mungkin dilakukan secara teori dan benar-benar melihatnya login ke situs, melakukan scroll, dan meninggalkan komentar setelah diberi instruksi singkat adalah pengalaman yang sama sekali berbeda
    Hari ini di Wordle saya juga membuat kesalahan yang sama pada percobaan kedua hingga berakhir seri
    Agak disayangkan karena kita tidak bisa bercakap-cakap dengannya di tengah tugas

  • Fitur seperti ini mutlak membutuhkan hal seperti hook/callback untuk governance di sistem enterprise
    Di sistem berbasis UI, penanganan hook/event agen jauh lebih sulit
    Untuk referensi, lihat dokumentasi hook Claude Code, dokumentasi callback Google ADK

    • Mengetahui seberapa sering Claude Code mengabaikan hook, menyelesaikan komputasi, lalu tidak memanfaatkan hasilnya, saya merasa konsep 'governance' nyaris mustahil
      LLM jauh lebih tidak bisa diprediksi dan jauh lebih sulit dikendalikan daripada yang orang kira
      Saya pernah melihatnya tetap maju begitu saja meski kegagalan test sudah dengan jelas menandai "jangan lanjutkan"
      Pada akhirnya, satu-satunya hal yang benar-benar bisa menghentikannya hanyalah hook 'claude-killing' teoretis yang benar-benar keras

    • Saya menangani produk identitas di Browserbase
      Belakangan ini saya memikirkan cara menerapkan RBAC (role-based access control) ke seluruh web
      Saya penasaran apakah callback bisa membantu untuk pendekatan ini

  • Saat melihat kalimat "kontrol level OS masih belum dioptimalkan", saya jadi merasa AGI memang belum tiba
    Jika tingkat kontrol OS seperti ini bisa dicapai, dan biaya penggunaan LLM cukup masuk akal, saya rasa kita bisa mulai mendekati sesuatu yang mirip AGI

    • Menariknya, kebanyakan orang juga sebenarnya tidak terlalu bisa mengoperasikan komputer dengan baik
      Rasanya definisi 'kecerdasan' benar-benar mustahil ditetapkan

    • Saya penasaran mengapa Anda menganggap kontrol penuh atas OS menjadi pemicu untuk melangkah ke tahap AGI (kecerdasan buatan umum)

  • Ironisnya, sebagian besar perusahaan teknologi menghasilkan uang dengan memaksa pengguna melewati informasi yang tidak perlu
    Misalnya, jika kita bisa menjelajah internet secara bebas tanpa iklan, atau di Twitter bisa hanya melihat konten yang memang ingin dilihat tanpa algoritma yang tidak berguna, siapa yang tidak mau memakainya

 
[Komentar ini disembunyikan.]