- Operator yang baru diperkenalkan OpenAI adalah agen AI yang dapat menjelajah web dan mengerjakan tugas secara mandiri
- Menggunakan browser miliknya sendiri untuk melihat halaman web dan berinteraksi melalui input, klik, dan scroll
- Masih berada pada tahap research preview sehingga masih ada keterbatasan, dan akan dikembangkan melalui umpan balik pengguna
- Sebagai AI yang dapat menjalankan tugas secara mandiri, ini merupakan salah satu agen pertama yang mengeksekusi tugas setelah pengguna memberi instruksi
- Menangani tugas browser yang berulang (misalnya mengisi formulir, memesan bahan makanan, membuat meme, dan lain-lain) untuk menghemat waktu
- Saat ini dirilis lebih dulu untuk pengguna Pro yang tinggal di AS, dan ke depannya berpotensi hadir untuk versi Plus, Team, Enterprise serta terintegrasi di ChatGPT
Cara kerja Operator
- Berbasis model baru bernama Computer-Using Agent (CUA)
- Menggabungkan kemampuan vision GPT-4o dengan metode penalaran lanjutan berbasis reinforcement learning untuk memungkinkan interaksi GUI (tombol, menu, kolom teks, dan lain-lain)
- Dapat “melihat” layar browser melalui screenshot, lalu menjalankan tugas dengan mengoperasikannya memakai mouse dan keyboard
- Jika menemui kesalahan atau hambatan saat bekerja, sistem ini menggunakan penalaran koreksi diri atau memilih pendekatan kolaboratif dengan menyerahkan kontrol kepada pengguna bila diperlukan
- Menunjukkan performa tinggi pada benchmark penggunaan browser seperti WebArena dan WebVoyager, dan detail lebih lanjut dapat dilihat di blog riset
Cara menggunakan
- Cukup jelaskan tugas yang diinginkan, lalu Operator akan menjalankannya secara otomatis
- Pengguna dapat mengambil alih kontrol browser secara langsung kapan saja di tengah proses
- Pada tahap sensitif seperti login, memasukkan informasi pembayaran, atau menyelesaikan CAPTCHA, Operator tidak akan menanganinya sendiri dan pengguna harus melakukannya secara langsung
- Preferensi pengguna dapat diterapkan melalui pengaturan untuk situs tertentu atau seluruh situs
- Prompt yang sering digunakan dapat disimpan agar tugas yang rutin dilakukan (misalnya memesan ulang bahan makanan di Instacart) bisa dijalankan dengan cepat
- Dapat menangani beberapa tugas sekaligus seperti banyak tab, dan sesi percakapan dapat dipisahkan untuk menjalankan pekerjaan yang berbeda secara paralel
Ekosistem dan pengguna
- Operator mengembangkan AI dari sekadar alat menjadi partisipan aktif dalam ekosistem digital
- Bekerja sama dengan DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber, dan lainnya untuk mencerminkan kebutuhan pengguna nyata serta standar industri
- Di sektor publik juga sedang ditinjau kemungkinan penerapannya untuk meningkatkan efisiensi kerja dan aksesibilitas, misalnya bersama City of Stockton untuk mengeksplorasi pemanfaatan dalam layanan administrasi kota
- Daniel Danker, Chief Product Officer di Instacart, menyampaikan penilaian positif terhadap proses pemesanan yang mudah melalui Operator
Keamanan dan privasi
- Operator menempatkan keamanan sebagai prioritas utama dan menyiapkan tiga lapisan pengaman
- Kontrol yang dipimpin pengguna: saat memasukkan informasi sensitif (login, pembayaran, dan lain-lain), Operator akan meminta takeover agar pengguna memasukkan data secara langsung
- Konfirmasi sebelum tindakan penting: sebelum tindakan penting seperti mengirim pesanan atau mengirim email, persetujuan pengguna akan diminta terlebih dahulu
- Pembatasan tugas: Operator dilatih untuk menolak tugas dengan sensitivitas tinggi seperti urusan perbankan atau keputusan terkait pekerjaan
- Saat mengakses situs sensitif, pengguna dapat memantau langsung tindakan Operator melalui mode Watch
- Menyediakan fitur pengelolaan privasi data
- Jika ‘Improve the model for everyone’ dinonaktifkan, data Operator juga tidak akan digunakan untuk pelatihan model
- Di bagian Privacy pada pengaturan, pengguna dapat dengan mudah menghapus data browsing, logout dari semua situs, atau menghapus riwayat percakapan
- Sistem pertahanan untuk melindungi Operator dari situs web berbahaya juga diterapkan
- Dirancang untuk mendeteksi dan mengabaikan prompt tersembunyi, kode berbahaya, dan upaya phishing
- Model pemantau khusus mengawasi perilaku mencurigakan secara real-time dan dapat menghentikan tugas bila perlu
- Melalui otomatisasi dan peninjauan manusia, pengaman dapat diperbarui dengan cepat saat ancaman baru ditemukan
- Untuk mencegah penyalahgunaan teknologi untuk tujuan berbahaya, Operator akan menolak permintaan tertentu, dan jika pelanggaran kebijakan berulang, peringatan atau pemblokiran akses dapat diterapkan
- Karena masih berada pada tahap research preview, sistem ini belum sempurna dan akan terus ditingkatkan melalui umpan balik dari penggunaan di dunia nyata
Keterbatasan
- Operator saat ini masih berada pada tahap awal dan dapat mengalami kesulitan pada tugas antarmuka yang kompleks seperti membuat slideshow atau mengelola kalender
- Umpan balik pengguna akan dimanfaatkan sebagai sumber penting untuk meningkatkan akurasi, stabilitas, dan keamanan
Rencana ke depan
- API untuk CUA akan disediakan, dengan rencana membangun fondasi agar pengembang dapat membuat agen mereka sendiri
- Kemampuan menangani tugas berdurasi panjang dan workflow yang kompleks akan diperkuat untuk meningkatkan fungsi Operator
- Selain pengguna Pro, jangkauan akan diperluas secara bertahap ke Plus, Team, Enterprise, dan dalam jangka panjang fitur ini akan diintegrasikan ke ChatGPT untuk mendukung eksekusi tugas real-time maupun asinkron
1 komentar
Pendapat Hacker News
Banyak orang berpikir perusahaan seperti OpenAI tidak menghabiskan uang untuk menyediakan asisten pribadi, melainkan melatih AI sekarang agar nantinya bisa mengurangi biaya tenaga kerja
Tanggapan terhadap peluncuran OpenAI Operator bercampur
Operator mirip dengan demo Computer Use dari Claude beberapa bulan lalu, dengan arsitektur yang mengharuskan menjalankan VM dan kecenderungan yang kurang akurat
Dalam slide tentang risiko keselamatan dan mitigasi Operator, terdapat ungkapan "pengguna tidak selaras"
Ada pandangan kritis terhadap investasi sebesar 50 miliar dolar untuk tugas seperti membuat meme
CogAgent: alternatif open source dari Tiongkok
Ada harapan bahwa di masa depan, ketika produk dan model sudah jauh lebih baik, orang bisa berbicara dengan ChatGPT untuk menangani pekerjaan membosankan di web seperti memesan makan malam, memesan penerbangan, dan membeli bahan makanan
Ada pendapat bahwa perusahaan seperti Instacart atau Doordash bisa membuka arah UI baru melalui optimasi pemasaran untuk LLM
Ada pendapat bahwa pendekatan "agen" yang melihat piksel sambil menggunakan mouse dan keyboard terasa canggung
Ada keyakinan kuat bahwa penggunaan Open APIs diperlukan untuk agen