Model Gemini 2.5 Computer Use Dirilis - AI untuk Agen yang Langsung Mengoperasikan UI

(blog.google)

4 poin oleh GN⁺ 2025-10-08 | 2 komentar | Bagikan ke WhatsApp

Google merilis model Computer Use berbasis Gemini 2.5 Pro, yang mendukung pengembang membangun agen yang langsung mengoperasikan antarmuka pengguna
Pada benchmark kontrol web dan mobile, model ini menunjukkan kinerja yang lebih cepat dan akurat dibanding model pesaing, dan tersedia dalam pratinjau di Google AI Studio dan Vertex AI
Model menerima tangkapan layar, permintaan pengguna, dan riwayat aksi sebagai input, lalu secara otomatis menghasilkan perintah pengoperasian UI seperti klik, input, dan scroll
Untuk memastikan keamanan, model ini mencakup Per-step Safety Service dan prosedur konfirmasi pengguna untuk mencegah penyalahgunaan dan ancaman keamanan
Model ini sudah diterapkan pada Project Mariner, Firebase Testing Agent, AI Mode in Search, dan lainnya, membuktikan otomatisasi tingkat produksi serta peningkatan efisiensi pengujian

Gambaran umum

Google DeepMind meluncurkan model Gemini 2.5 Computer Use
- Berdasarkan kemampuan pemahaman visual dan penalaran dari Gemini 2.5 Pro, ini adalah model untuk agen yang dapat langsung mengendalikan UI web dan mobile
- Melangkah lebih jauh dari otomatisasi berbasis API yang sudah ada, model ini dapat melakukan interaksi antarmuka grafis seperti mengisi formulir, scroll, dan menangani login
- Tersedia dalam bentuk pratinjau melalui Google AI Studio dan Vertex AI

Cara kerja

Bekerja dalam struktur loop berulang melalui alat computer_use yang baru
- Input: permintaan pengguna, screenshot UI saat ini, riwayat aksi terbaru
- Output: pemanggilan fungsi aksi UI seperti klik, input, dan drag
- Beberapa tugas berisiko tinggi tertentu (misalnya pembayaran) memerlukan prosedur konfirmasi pengguna
Setelah setiap aksi, screenshot dan URL baru dikirim kembali ke model untuk menjalankan langkah berikutnya
Utamanya dioptimalkan untuk lingkungan browser web, tetapi juga menunjukkan performa tinggi dalam kontrol UI mobile

Performa

Dalam evaluasi oleh Browserbase dan Google sendiri, model ini mencatat akurasi dan latensi kelas teratas di industri
- Pada benchmark seperti Online-Mind2Web, model ini menunjukkan respons lebih dari 50% lebih cepat dibanding model pesaing
- Akurasi dalam memahami konteks pada layar yang kompleks juga meningkat, dengan peningkatan performa 18% dilaporkan
Termasuk juga kemampuan untuk memulihkan secara otomatis dari kegagalan saat tugas kontrol UI berjalan, sehingga berguna untuk otomatisasi pengujian

Desain keamanan

Untuk mencegah penyalahgunaan agen, model ini mencakup fitur keamanan bawaan
- Per-step Safety Service: memverifikasi aksi yang diusulkan model sebelum dieksekusi
- System Instructions: memungkinkan pengaturan aturan konfirmasi pengguna atau penolakan untuk tugas tertentu (keamanan, medis, CAPTCHA, dan sebagainya)
Panduan untuk pengembang juga menyediakan rekomendasi keamanan tambahan, dan menyarankan pengujian menyeluruh sebelum diterapkan ke layanan produksi

Contoh penerapan awal

Tim internal Google mengadopsinya untuk otomatisasi pengujian UI, menurunkan tingkat kegagalan sebesar 25%
Sudah digunakan di lingkungan produksi nyata seperti Project Mariner, Firebase Testing Agent, dan AI Mode in Search
Dalam evaluasi pengguna awal dari pihak eksternal juga dilaporkan adanya peningkatan keandalan parsing data dan kecepatan eksekusi
- Contoh: Autotab meningkatkan akurasi pemrosesan konteks kompleks sebesar 18%
- Platform pembayaran Google memulihkan 60% pengujian yang gagal secara otomatis

Memulai

Model ini tersedia sebagai pratinjau publik dan dapat diakses melalui kanal berikut
- Google AI Studio
- Vertex AI
- Pengujian real-time tersedia di lingkungan demo Browserbase
Pengembang dapat menggunakan referensi GitHub dan dokumentasi untuk menyusun loop agen di lingkungan Playwright atau cloud VM
Masukan sedang dikumpulkan melalui Developer Forum

2 komentar

GN⁺ 2025-10-08

Opini Hacker News

Dulu saat menunggu di jalan dua lajur yang ada lampu lalu lintasnya, saya pernah berpikir kalau tidak ada mobil di jalan utama, seharusnya sistem kamera computer vision bisa mempercepat pergantian lampu
Tapi waktu itu computer vision belum cukup matang, dan saya lalu tahu bahwa keberadaan mobil bisa dideteksi dengan sensor magnetik
Itu masalah yang sebenarnya bisa diselesaikan dengan jauh lebih mudah memakai hardware dan software yang lebih sederhana, dan pendekatan yang saya pikirkan terlalu rumit serta mahal
Saat menggunakan komputer pun saya percaya ML/AI seharusnya dioptimalkan untuk data terstruktur
Tapi dunia menjadi lebih kompleks dan kecepatan komputer juga meningkat, jadi sekarang AI yang melihat layar lalu menggerakkan mouse dan mengklik terasa lebih realistis
- Sekarang kamera computer vision sudah umum digunakan
  Sensor magnetik tidak terlalu baik dalam mendeteksi pesepeda, jadi belakangan kamera lebih disukai
  Dari sudut pandang petugas lalu lintas kota, kamera juga bisa dimanfaatkan sebagai alat pemantauan kemacetan, jadi makin populer
- Di daerah saya, pada malam hari diterapkan sistem yang memasang sensor cahaya sederhana pada lampu lalu lintas sehingga jika saat mendekat Anda menyalakan lampu jauh, lampunya akan berubah
  Kalau tidak, jalan utama akan terus mendapat lampu hijau sepanjang malam
  Jadi saat mobil mencapai persimpangan, lampu hanya berubah berdasarkan sinyal lampu jauh atau fluks magnetik
- Saya cukup sering bersepeda, dan saat di luar ruangan sangat berguna bisa mendengarkan podcast lalu berkata, "Hey Google, putar kembali 30 detik," untuk mendengar ulang atau melewati iklan
  Di dalam ruangan saya biasanya menonton acara TV atau video YouTube lewat casting
  Kadang saya ingin mengganti video YouTube, tapi perintah suara untuk YouTube nyaris hanya berfungsi seadanya dan hasilnya buruk
  Untuk layanan lain, perintah suara hampir mustahil
  Di dunia yang ideal, saya berharap Google menyediakan API yang hebat untuk integrasi seperti ini, dan semua aplikasi mengadopsinya dengan baik
  Jika langkah itu bisa dilewati tetapi hasilnya tetap hebat, bagi saya itu akan sangat bernilai
  Mungkin ini hanya skenario yang relevan untuk saya sendiri, tapi ini bagian yang benar-benar saya nantikan
- Penggunaan komputer adalah benchmark terpenting saat memprediksi dampak AI terhadap pasar tenaga kerja
  Ada banyak cara yang lebih baik agar ML/AI bisa mengerjakan beragam tugas di komputer secara efisien
  Namun semua cara itu harus dirancang satu per satu sesuai tugas masing-masing
  Pendekatan yang tergeneralisasi justru lebih mudah diskalakan
- Sebagai referensi, kamera lalu lintas jenis ini memang sudah umum digunakan
  https://www.milesight.com/company/blog/types-of-traffic-cameras
Sudah lama saya fokus pada pendekatan "mari jadikan segala sesuatu di dunia sebagai objek database" untuk mengotomatisasi pekerjaan manual yang berulang
Saya melihat komputer bisa melakukan sangat banyak hal hanya dengan intervensi manusia yang minimal
Saya juga menghabiskan banyak usaha pada machine learning
Tapi ternyata saya tidak pernah benar-benar memikirkan bahwa komputer bisa dibuat bekerja seperti manusia dengan mouse dan keyboard, menggunakan langsung data dunia manusia yang semi-terstruktur seperti screen buffer
Tentu saja saya sangat mendukung gagasan ini
Dalam 10 tahun, mungkin kita akan masuk ke era di mana komputer bisa membuka Chrome, berbicara dalam panggilan video, menyelesaikan pekerjaan, dan lawan bicara sama sekali tidak menyadari bahwa itu komputer
- Alasan AI lebih sukses daripada cara-cara yang 'secara teoretis lebih baik' adalah karena ia menyelesaikan masalah 'sosial' yang mendasar
  Ekosistem komputasi lebih bersifat kompetitif dan defensif daripada kolaboratif
  Struktur yang memang dirancang agar sebagian besar pekerjaan manual yang membosankan tidak bisa diotomatisasi adalah inti dari cara internet menghasilkan uang
  Jika pengguna bisa menghindari dorongan pembelian atau paparan iklan lewat otomatisasi, pendapatan akan turun
- Di robotika juga pernah ada perdebatan serupa
  "Mengapa harus membuat robot berbentuk manusia, bukankah bentuk yang lebih efisien mungkin saja ada?" adalah pertanyaan yang sering muncul
  Namun pada akhirnya, agar alat diadopsi secara luas, ia harus dirancang agar cocok dengan lingkungan yang berpusat pada manusia, meski tidak efisien
  Aplikasi yang berfokus pada performa memang membutuhkan desain khusus dan optimasi, tetapi untuk adopsi massal perlu pendekatan yang menyesuaikan diri dengan manusia
- Pagi ini saya sempat memikirkan aplikasi kencan lalu teringat bagian terakhir itu
  Jika "chatgpt saya" bisa mewakili saya dengan cukup baik, saya rasa aplikasi kencan bisa melakukan pencocokan dengan semacam pertemuan pendahuluan antara chatgpt pihak satu dan pihak lain
  Belakangan saya mendengar pembahasan tentang "digital twin" dalam keynote enterprise, dan rasanya ini masuk ke konsep itu
  Masih terlalu dini untuk menilai bagian ini, tapi saya penasaran sejauh mana perkembangannya
- Saya penasaran apakah benar hasil seperti komputer yang langsung membuka Chrome, melakukan panggilan video, lalu menyelesaikan tugas seperti manusia sampai lawan bicara tidak sadar itu komputer benar-benar dianggap hasil yang baik
  Secara teknis itu pencapaian yang luar biasa dan mengesankan, tapi rasanya agak mengganggu
Saya sudah berhasil melakukan otomasi browser dari Gemini CLI dengan Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)
Jadi saya rasa model kali ini mungkin akan menunjukkan performa yang lebih baik
- Saya penasaran tugas otomatisasi seperti apa yang berhasil Anda lakukan dengan MCP
- Pendekatan ini sama sekali tidak berhubungan dengan model yang dibutuhkan untuk penggunaan komputer
  Ini hanya memakai tool yang sudah didefinisikan Google di server MCP, jadi bukan model generik yang bisa diterapkan ke software apa pun
Kalau ada yang punya use case nyata yang lebih cepat daripada UX, saya ingin tahu
Saya belum benar-benar punya gambaran bagaimana ini seharusnya dipakai
Melihat begitu banyak investasi masuk, rasanya jelas ada sesuatu yang saya lewatkan
Teknologi dan fiturnya sendiri mengesankan, tapi saya penasaran contoh penggunaan yang konkret
Jika browser bot diminta menyelesaikan Wordle hari ini, bisa terjadi situasi di mana ia tidak mampu menebak jawabannya karena tidak bisa melihat umpan balik warna huruf (hijau, kuning, abu-abu)
Katanya, kata-katanya bisa dimasukkan, tetapi umpan baliknya tidak bisa diinterpretasikan
- Saya jadi penasaran, apakah dia menjelajah web dengan layar hitam-putih
Gemini berhasil melewati captcha di https://www.google.com/recaptcha/api2/demo
- Koreksi postingan: ternyata saya salah lihat, dan yang menyelesaikan Google CAPTCHA bukan Gemini melainkan Browserbase
  Detailnya dirangkum di sini
- Otomasi berjalan di Browserbase, dan Browserbase memang memiliki captcha solver
  Tidak jelas apakah itu otomatis atau manusia
- Mungkin itu bisa lolos karena percobaannya dilakukan dari IP di jaringan milik Google sendiri
(Saya hanya mencoba demo Browserbase)
Mengetahui bahwa sesuatu mungkin dilakukan secara teori dan benar-benar melihatnya login ke situs, melakukan scroll, dan meninggalkan komentar setelah diberi instruksi singkat adalah pengalaman yang sama sekali berbeda
Hari ini di Wordle saya juga membuat kesalahan yang sama pada percobaan kedua hingga berakhir seri
Agak disayangkan karena kita tidak bisa bercakap-cakap dengannya di tengah tugas
Fitur seperti ini mutlak membutuhkan hal seperti hook/callback untuk governance di sistem enterprise
Di sistem berbasis UI, penanganan hook/event agen jauh lebih sulit
Untuk referensi, lihat dokumentasi hook Claude Code, dokumentasi callback Google ADK
- Mengetahui seberapa sering Claude Code mengabaikan hook, menyelesaikan komputasi, lalu tidak memanfaatkan hasilnya, saya merasa konsep 'governance' nyaris mustahil
  LLM jauh lebih tidak bisa diprediksi dan jauh lebih sulit dikendalikan daripada yang orang kira
  Saya pernah melihatnya tetap maju begitu saja meski kegagalan test sudah dengan jelas menandai "jangan lanjutkan"
  Pada akhirnya, satu-satunya hal yang benar-benar bisa menghentikannya hanyalah hook 'claude-killing' teoretis yang benar-benar keras
- Saya menangani produk identitas di Browserbase
  Belakangan ini saya memikirkan cara menerapkan RBAC (role-based access control) ke seluruh web
  Saya penasaran apakah callback bisa membantu untuk pendekatan ini
Saat melihat kalimat "kontrol level OS masih belum dioptimalkan", saya jadi merasa AGI memang belum tiba
Jika tingkat kontrol OS seperti ini bisa dicapai, dan biaya penggunaan LLM cukup masuk akal, saya rasa kita bisa mulai mendekati sesuatu yang mirip AGI
- Menariknya, kebanyakan orang juga sebenarnya tidak terlalu bisa mengoperasikan komputer dengan baik
  Rasanya definisi 'kecerdasan' benar-benar mustahil ditetapkan
- Saya penasaran mengapa Anda menganggap kontrol penuh atas OS menjadi pemicu untuk melangkah ke tahap AGI (kecerdasan buatan umum)
Ironisnya, sebagian besar perusahaan teknologi menghasilkan uang dengan memaksa pengguna melewati informasi yang tidak perlu
Misalnya, jika kita bisa menjelajah internet secara bebas tanpa iklan, atau di Twitter bisa hanya melihat konten yang memang ingin dilihat tanpa algoritma yang tidak berguna, siapa yang tidak mau memakainya

2025-10-09

[Komentar ini disembunyikan.]

Model Gemini 2.5 Computer Use Dirilis - AI untuk Agen yang Langsung Mengoperasikan UI

Gambaran umum

Cara kerja

Performa

Desain keamanan

Contoh penerapan awal

Memulai

Bacaan terkait

2 komentar

Opini Hacker News