OpenAI memperkenalkan layanan agen "Operator"

(openai.com)

6 poin oleh GN⁺ 2025-01-24 | 1 komentar | Bagikan ke WhatsApp

Operator yang baru diperkenalkan OpenAI adalah agen AI yang dapat menjelajah web dan mengerjakan tugas secara mandiri
- Menggunakan browser miliknya sendiri untuk melihat halaman web dan berinteraksi melalui input, klik, dan scroll
Masih berada pada tahap research preview sehingga masih ada keterbatasan, dan akan dikembangkan melalui umpan balik pengguna
Sebagai AI yang dapat menjalankan tugas secara mandiri, ini merupakan salah satu agen pertama yang mengeksekusi tugas setelah pengguna memberi instruksi
Menangani tugas browser yang berulang (misalnya mengisi formulir, memesan bahan makanan, membuat meme, dan lain-lain) untuk menghemat waktu
Saat ini dirilis lebih dulu untuk pengguna Pro yang tinggal di AS, dan ke depannya berpotensi hadir untuk versi Plus, Team, Enterprise serta terintegrasi di ChatGPT

Cara kerja Operator

Berbasis model baru bernama Computer-Using Agent (CUA)
Menggabungkan kemampuan vision GPT-4o dengan metode penalaran lanjutan berbasis reinforcement learning untuk memungkinkan interaksi GUI (tombol, menu, kolom teks, dan lain-lain)
Dapat “melihat” layar browser melalui screenshot, lalu menjalankan tugas dengan mengoperasikannya memakai mouse dan keyboard
Jika menemui kesalahan atau hambatan saat bekerja, sistem ini menggunakan penalaran koreksi diri atau memilih pendekatan kolaboratif dengan menyerahkan kontrol kepada pengguna bila diperlukan
Menunjukkan performa tinggi pada benchmark penggunaan browser seperti WebArena dan WebVoyager, dan detail lebih lanjut dapat dilihat di blog riset

Cara menggunakan

Cukup jelaskan tugas yang diinginkan, lalu Operator akan menjalankannya secara otomatis
Pengguna dapat mengambil alih kontrol browser secara langsung kapan saja di tengah proses
Pada tahap sensitif seperti login, memasukkan informasi pembayaran, atau menyelesaikan CAPTCHA, Operator tidak akan menanganinya sendiri dan pengguna harus melakukannya secara langsung
Preferensi pengguna dapat diterapkan melalui pengaturan untuk situs tertentu atau seluruh situs
Prompt yang sering digunakan dapat disimpan agar tugas yang rutin dilakukan (misalnya memesan ulang bahan makanan di Instacart) bisa dijalankan dengan cepat
Dapat menangani beberapa tugas sekaligus seperti banyak tab, dan sesi percakapan dapat dipisahkan untuk menjalankan pekerjaan yang berbeda secara paralel

Ekosistem dan pengguna

Operator mengembangkan AI dari sekadar alat menjadi partisipan aktif dalam ekosistem digital
Bekerja sama dengan DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber, dan lainnya untuk mencerminkan kebutuhan pengguna nyata serta standar industri
Di sektor publik juga sedang ditinjau kemungkinan penerapannya untuk meningkatkan efisiensi kerja dan aksesibilitas, misalnya bersama City of Stockton untuk mengeksplorasi pemanfaatan dalam layanan administrasi kota
Daniel Danker, Chief Product Officer di Instacart, menyampaikan penilaian positif terhadap proses pemesanan yang mudah melalui Operator

Keamanan dan privasi

Operator menempatkan keamanan sebagai prioritas utama dan menyiapkan tiga lapisan pengaman
- Kontrol yang dipimpin pengguna: saat memasukkan informasi sensitif (login, pembayaran, dan lain-lain), Operator akan meminta takeover agar pengguna memasukkan data secara langsung
- Konfirmasi sebelum tindakan penting: sebelum tindakan penting seperti mengirim pesanan atau mengirim email, persetujuan pengguna akan diminta terlebih dahulu
- Pembatasan tugas: Operator dilatih untuk menolak tugas dengan sensitivitas tinggi seperti urusan perbankan atau keputusan terkait pekerjaan
- Saat mengakses situs sensitif, pengguna dapat memantau langsung tindakan Operator melalui mode Watch
Menyediakan fitur pengelolaan privasi data
- Jika ‘Improve the model for everyone’ dinonaktifkan, data Operator juga tidak akan digunakan untuk pelatihan model
- Di bagian Privacy pada pengaturan, pengguna dapat dengan mudah menghapus data browsing, logout dari semua situs, atau menghapus riwayat percakapan
Sistem pertahanan untuk melindungi Operator dari situs web berbahaya juga diterapkan
- Dirancang untuk mendeteksi dan mengabaikan prompt tersembunyi, kode berbahaya, dan upaya phishing
- Model pemantau khusus mengawasi perilaku mencurigakan secara real-time dan dapat menghentikan tugas bila perlu
- Melalui otomatisasi dan peninjauan manusia, pengaman dapat diperbarui dengan cepat saat ancaman baru ditemukan
Untuk mencegah penyalahgunaan teknologi untuk tujuan berbahaya, Operator akan menolak permintaan tertentu, dan jika pelanggaran kebijakan berulang, peringatan atau pemblokiran akses dapat diterapkan
Karena masih berada pada tahap research preview, sistem ini belum sempurna dan akan terus ditingkatkan melalui umpan balik dari penggunaan di dunia nyata

Keterbatasan

Operator saat ini masih berada pada tahap awal dan dapat mengalami kesulitan pada tugas antarmuka yang kompleks seperti membuat slideshow atau mengelola kalender
Umpan balik pengguna akan dimanfaatkan sebagai sumber penting untuk meningkatkan akurasi, stabilitas, dan keamanan

Rencana ke depan

API untuk CUA akan disediakan, dengan rencana membangun fondasi agar pengembang dapat membuat agen mereka sendiri
Kemampuan menangani tugas berdurasi panjang dan workflow yang kompleks akan diperkuat untuk meningkatkan fungsi Operator
Selain pengguna Pro, jangkauan akan diperluas secara bertahap ke Plus, Team, Enterprise, dan dalam jangka panjang fitur ini akan diintegrasikan ke ChatGPT untuk mendukung eksekusi tugas real-time maupun asinkron

1 komentar

GN⁺ 2025-01-24

Pendapat Hacker News

Banyak orang berpikir perusahaan seperti OpenAI tidak menghabiskan uang untuk menyediakan asisten pribadi, melainkan melatih AI sekarang agar nantinya bisa mengurangi biaya tenaga kerja
- Saat AI benar-benar berguna sebagai asisten pribadi, fitur itu kemungkinan akan dirilis dengan harga yang tidak terjangkau oleh orang rata-rata
Tanggapan terhadap peluncuran OpenAI Operator bercampur
- Ada pandangan skeptis terkait kemampuan saat ini, biaya, dan potensi ekspansi berlebihan, tetapi juga ada pandangan positif tentang otomatisasi tugas dan kemungkinan peningkatan seiring waktu
- Masalah etika, privasi, dan dampaknya terhadap industri juga dibahas
- Secara keseluruhan, ada optimisme yang hati-hati sambil tetap mengakui tantangan dan potensi perbaikan
Operator mirip dengan demo Computer Use dari Claude beberapa bulan lalu, dengan arsitektur yang mengharuskan menjalankan VM dan kecenderungan yang kurang akurat
- Implementasi Computer Use milik Claude tidak menimbulkan dampak besar di industri agen AI setelah pengumumannya
Dalam slide tentang risiko keselamatan dan mitigasi Operator, terdapat ungkapan "pengguna tidak selaras"
- Ada pendapat yang ingin melihat lebih banyak contoh tentang kondisi ketika OpenAI menganggap pengguna sebagai "tidak selaras"
Ada pandangan kritis terhadap investasi sebesar 50 miliar dolar untuk tugas seperti membuat meme
- Diungkapkan penyesalan karena uang itu tidak diinvestasikan untuk menjadikan bumi tempat yang layak huni bagi generasi berikutnya
CogAgent: alternatif open source dari Tiongkok
- Disediakan tautan ke makalah, kode, dan model
Ada harapan bahwa di masa depan, ketika produk dan model sudah jauh lebih baik, orang bisa berbicara dengan ChatGPT untuk menangani pekerjaan membosankan di web seperti memesan makan malam, memesan penerbangan, dan membeli bahan makanan
- Fitur seperti ini sangat dinantikan
Ada pendapat bahwa perusahaan seperti Instacart atau Doordash bisa membuka arah UI baru melalui optimasi pemasaran untuk LLM
- Misalnya, jika diberi instruksi untuk mencari telur yang bergizi, agen dapat merujuk label nutrisi untuk mengambil keputusan
Ada pendapat bahwa pendekatan "agen" yang melihat piksel sambil menggunakan mouse dan keyboard terasa canggung
- Dibayangkan adanya standar yang mengekspos sekumpulan tindakan yang telah disetujui sebelumnya agar aplikasi dan layanan dapat menjalankannya atas nama pengguna
- Diusulkan konsep "app store" yang menyediakan kemampuan untuk menambah atau mencabut izin pengguna
Ada keyakinan kuat bahwa penggunaan Open APIs diperlukan untuk agen
- Diklaim bahwa OpenAPI adalah standar spesifikasi yang sempurna untuk memungkinkan dunia terbuka dan internet bagi agen
- Saat pertama kali merilis GPT, OpenAI berbasis pada Open APIs, tetapi kini semakin menjauh darinya
- Hal ini terlihat sebagai upaya untuk mengendalikan pasar dan menghindari fondasi pada standar terbuka
- Ini sangat disayangkan

OpenAI memperkenalkan layanan agen "Operator"

Cara kerja Operator

Cara menggunakan

Ekosistem dan pengguna

Keamanan dan privasi

Keterbatasan

Rencana ke depan

Bacaan terkait

1 komentar

Pendapat Hacker News