- ChatGPT Agent memanfaatkan komputer virtualnya sendiri untuk menangani tugas kompleks pengguna dari awal hingga akhir
- Sistem agentic baru ini menggabungkan kemampuan interaksi situs web dari Operator dengan performa analisis informasi dari deep research, sehingga dapat melakukan klik, input, hingga menjalankan kode dengan fleksibel
- Pengguna dapat memerintahkan agen untuk melakukan tugas seperti mengirim formulir, melakukan reservasi, dan membuat file atas nama mereka, serta dapat turun tangan kapan saja
- Di berbagai benchmark dunia nyata seperti SpreadsheetBench, DSBench, dan BrowseComp, sistem ini membuktikan performa yang lebih unggul dibanding model sebelumnya
- Pengguna Pro, Plus, dan Team dapat mulai menggunakannya hari ini, dan fitur kontrol data pengguna serta keamanan juga dirancang dengan sangat ketat
ChatGPT Agent, menghubungkan riset dan aksi
Pengenalan kemampuan agen
- ChatGPT diperluas agar dapat menjalankan tugas kompleks atas nama pengguna melalui komputer virtualnya sendiri
- ChatGPT Agent mengintegrasikan kemampuan analisis dari Operator (interaksi berbasis browser jarak jauh) dan deep research (alat penalaran web multi-langkah) ke dalam satu model agen
- Operator unggul dalam manipulasi di web (scrolling, klik, pengisian formulir), tetapi memiliki keterbatasan dalam analisis mendalam atau penulisan laporan
- Sebaliknya, deep research unggul dalam analisis dan peringkasan, tetapi tidak dapat berinteraksi dengan situs secara real-time atau mengakses konten yang memerlukan autentikasi
- Dengan menggabungkan keunggulan saling melengkapi dari kedua alat ini, sistem ini memberikan efisiensi tinggi dalam satu lingkungan untuk klik, pemfilteran, hingga pengumpulan data
- Sistem ini memungkinkan perpindahan yang fleksibel antara percakapan dan permintaan di dalam antarmuka chat
- Contoh:
- “Analisis tiga pesaing dan buatkan slideshow”
- “Rangkum rapat berikutnya berdasarkan berita terbaru”
Cara kerja dan interaksi
- ChatGPT Agent dilengkapi beragam alat akses web seperti browser visual berbasis GUI, browser berbasis teks, dan koneksi API langsung
- Saat menjalankan tugas, sistem secara dinamis memilih jalur paling optimal dengan mengombinasikan browser, API, dan penalaran teks sesuai situasi
- Sistem ini dapat menjalankan tugas end-to-end seperti mengklik situs web, memfilter, memandu login, menjalankan kode, merangkum hasil, hingga membuat slide
- Pengguna dapat turun tangan kapan saja selama tugas berlangsung, dan dapat mengambil alih kendali browser secara langsung
- Pengguna bisa menambahkan instruksi, mengubah arah tugas, menghentikan proses, atau meminta hasil saat ini kapan saja
- Tugas yang sedang berjalan dapat dihentikan lalu dimulai ulang kapan saja, dan berbagi konteks menjaga konsistensi
- Jika ada ketidakpastian, ChatGPT akan secara aktif meminta informasi tambahan
- Melalui proses autentikasi login pengguna, data perusahaan maupun pribadi juga dapat diakses dengan aman
Performa unggul dan contoh penggunaan
- Mendapatkan skor yang sangat baik dibanding model sebelumnya pada benchmark terkemuka
- Humanity’s Last Exam: mencatat skor 43.1 pada pertanyaan tingkat pakar
- DSBench: jauh mengungguli model sebelumnya dalam tugas data science
- SpreadsheetBench:
- mencatat 45.5% dalam pengeditan spreadsheet
.xlsx secara langsung, jauh melampaui GPT‑4o (13.38%) dan Excel Copilot (20%)
- WebArena: mengungguli model Operator sebelumnya juga dalam tugas interaksi web nyata
- BrowseComp: mencatat skor tertinggi 68.9 dalam kemampuan mengumpulkan informasi web yang sulit ditemukan
- Dalam pekerjaan analis bank investasi dan analisis data kompleks, sistem ini menghasilkan hasil yang lebih akurat dan lebih luas dibanding alat sebelumnya
- Menawarkan kegunaan tinggi untuk otomatisasi pekerjaan nyata maupun aktivitas sehari-hari
- Pekerjaan:
- pembuatan presentasi otomatis
- penyesuaian jadwal rapat
- pembaruan spreadsheet berbasis data keuangan
- Aktivitas sehari-hari:
- perencanaan dan reservasi perjalanan
- perencanaan acara dan menghubungkan dengan konsultasi ahli
Aktivasi, contoh penggunaan, dan keterbatasan
- Setelah memilih ‘mode agen’, cukup masukkan penjelasan tugas apa pun dalam bahasa Korea atau Inggris, maka eksekusi otomatis akan dimulai
- Tersedia narasi layar selama proses berlangsung, dan kontrol manual dapat digunakan bila diperlukan
- Diperkenalkan sistem kredit yang fleksibel, termasuk penjadwalan otomatis untuk tugas berulang dan batas jumlah tugas bulanan
- Pengguna Operator/deep research yang ada akan menggunakan versi sementara kurang dari 30 hari sebelum beralih dan diintegrasikan ke agen
- Beberapa fitur baru seperti pembuatan slideshow masih berstatus beta, dan kualitas serta tingkat kematangan output akan ditingkatkan di masa mendatang
Keamanan, perlindungan privasi, dan pencegahan tindakan berbahaya
- Sebelum melakukan tugas yang mengubah dunia nyata, sistem selalu meminta konfirmasi identitas nominal pengguna serta izin tindakan
- Untuk tugas sensitif yang memerlukan pengawasan aktif, persetujuan bertahap diwajibkan, dan transaksi berisiko tinggi serta interaksi hukum akan ditolak
- Sistem deteksi dan pertahanan terhadap serangan berbahaya pihak ketiga seperti prompt injection telah dirancang; bila situasi tidak jelas, sistem akan memberi peringatan risiko dan opsi, lalu berjalan setelah konfirmasi akhir dari pengguna
- Untuk mencegah penyalahgunaan, kebijakan keselamatan ChatGPT yang ada diterapkan secara lebih mendalam, dan ketentuan penggunaan serta kebijakan OpenAI diberlakukan secara wajib
- Untuk memperkuat perlindungan privasi, data browser jarak jauh tidak disimpan di server internal
- Data penelusuran pengguna dan kendali sesi sepenuhnya berada di tangan pengguna, sehingga penghapusan langsung atau logout dapat dilakukan kapan saja
- Dalam mode kendali langsung, ChatGPT tidak dapat melihat informasi input pribadi
Distribusi agen, kebijakan, dan panduan penggunaan
- Pelanggan Pro, Plus, dan Team dapat langsung menggunakannya, dan perluasan untuk pengguna enterprise/edukasi dijadwalkan pada bulan Juli
- Pro hampir tanpa batas, sementara paket lainnya dapat menggunakan sistem 50 kali per bulan + kredit tambahan
- Dengan menghubungkan workflow dan konektor milik masing-masing pengguna, sistem ini dapat dimanfaatkan untuk berbagai kebutuhan seperti ringkasan informasi baca-saja dan analisis jadwal
- Research Preview Operator akan berakhir setelah 30 hari, sedangkan deep research dapat diaktifkan secara terpisah bila diperlukan
- ChatGPT Agent terus ditingkatkan, dan kecerdasan workflow yang mendalam serta fleksibel/kualitas output akan meningkat secara bertahap
Fitur slideshow dan arah ke depan
- Pembuatan slideshow saat ini masih dalam tahap beta; jika dokumen yang ada tidak disertakan, kualitas akhir dan formatnya bisa kurang matang
- Elemen seperti teks, grafik, dan gambar disusun sebagai vektor yang mudah diedit untuk memperkuat struktur dan fleksibilitas
- Fitur unggah dapat diterapkan pada spreadsheet, tetapi untuk slideshow akan disediakan kemudian
- Ke depan, peningkatan kemampuan otomatisasi diharapkan hadir melalui dukungan fitur dan format yang lebih beragam, serta output yang lebih rapi
Perbandingan performa dan tolok ukur lainnya
| Model |
Berbasis sel |
Berbasis sheet |
Skor keseluruhan |
| GPT‑4o |
15.86% |
18.33% |
16.81% |
| OpenAI o3 |
22.40% |
24.60% |
23.25% |
| ChatGPT Agent |
38.27% |
30.48% |
35.27% |
| ChatGPT (.xlsx) |
50.56% |
37.51% |
45.54% |
| Manusia |
75.56% |
65.00% |
71.33% |
- Berdasarkan tabel benchmark performa, meskipun ChatGPT Agent dalam pemrosesan lingkungan .xlsx dan evaluasi LibreOffice masih belum mencapai skor manusia, levelnya jauh paling tinggi di antara model AI
- Karena perbedaan lingkungan evaluasi, beberapa angka bisa sedikit berbeda, tetapi kemampuan menyeluruhnya telah dibuktikan dalam total 912 soal evaluasi spreadsheet
1 komentar
Komentar Hacker News
Menurut saya video contoh "spreadsheet" itu menarik. Biasanya membuat laporan yang kompleks dan penuh data butuh 4–8 jam, tapi sekarang katanya cukup minta ke agent lalu pergi jalan sebentar, dan datanya sudah siap saat kembali. Katanya 98% sudah tercermin dengan tepat, tinggal copy-paste beberapa bagian saja. Saya rasa ini bisa menghemat 90–95% waktu. Tapi saya juga merasa waktu yang sebenarnya bisa habis untuk menemukan 2% kesalahan itu. Terutama untuk pekerjaan kompleks atau yang melibatkan uang, "hampir benar" bisa jadi masalah besar. Kalau 2% kesalahan halus itu tersembunyi di beberapa tahap, itu benar-benar bisa jadi masalah besar
Ancaman keamanannya terasa sangat menakutkan. Misalnya kalau diberi akses ke email dan kalender, ia jadi bisa mengetahui semua rahasia saya. Bahkan artikelnya sendiri mengakui risiko prompt injection. Jika halaman web berbahaya menyembunyikan prompt di elemen tak terlihat atau metadata, dan agent gagal mendeteksinya, data pribadi bisa bocor ke penyerang. Menurut saya situs jahat bisa mencuri rahasia saya. Satu hal yang saya penasaran, artikel itu bilang tindakan penting akan selalu dikonfirmasi ke pengguna terlebih dahulu, tapi saya penasaran bagaimana AI menentukan apa yang termasuk 'tindakan penting'. Bukankah bisa saja terjadi pembayaran dilakukan tanpa konfirmasi pengguna karena kesalahan?
Riset terkait Agentic misalignment
Dianalisis bahwa ini bisa beroperasi dalam bentuk yang mirip ancaman orang dalam, yaitu rekan tepercaya yang tiba-tiba bergerak berlawanan dengan kebijakan perusahaan
Mungkin karena saya sendiri sedang membangun bisnis agent, saya bisa melihat dengan jelas bahwa lompatan dari 90% ke 99% adalah masalah last mile yang sangat sulit di ranah LLM. Semakin tinggi sifat general-purpose-nya, semakin besar pula kegagalan atau kekecewaannya. Kenyataannya, yang dioptimalkan hanya bagian yang terlihat mudah dalam demo, sementara realitas yang tidak nyaman disembunyikan. Tapi itu bukan berarti agent tidak bernilai; hanya saja kita perlu membedakan potensi dampak dan ekspektasi yang dibesar-besarkan
Tapi saya rasa "agent" hanyalah istilah pemasaran, dan tidak punya fondasi yang bisa dipakai segeneral LLM. Data terkait pun hampir tidak ada
Pada agent CLI yang lama, masalah besar ada pada sesi yang tidak bisa dipertahankan, dan kali ini bagian itu tampaknya sudah ditangani dengan baik. Dulu saat menjalankan claude code di terminal lokal, konteks yang diperlukan bisa dimasukkan dengan mudah, tapi begitu laptop ditutup dan koneksi terputus, semuanya berhenti.
Sebagai solusi sementara, saya memakai Amphetamine di MacOS agar proses tetap berjalan meski perangkat ditutup, tapi ada masalah panas dan pemborosan baterai. Cara lain adalah menggandakan repo ke instance cloud lalu masuk lewat tmux untuk menjalankan claude. Namun dari sisi UX, kesulitan memuat konteks tetap selalu ada. Berkat sandboxing, kita juga bisa berharap ada tingkat keamanan tertentu, dan ada cara untuk menjalankannya dengan izin akun tertentu.
Menarik melihat OpenAI tampaknya memikirkan UX Agent yang juga bisa dipakai non-developer
Saya sudah lama memakai OpenAI operator, tapi akhir-akhir ini diblokir oleh LinkedIn dan Amazon. Padahal dua situs itu adalah penggunaan inti untuk lamaran kerja dan belanja. Operator dipakai dengan relatif tidak mencolok, tapi kalau Agent jadi terkenal, saya rasa akan makin banyak situs yang memblokirnya. Pada akhirnya tampaknya perlu mendukung konfigurasi proxy
agenttutor.com
Dalam prediksi tim AI 2027: pertengahan 2025 akan muncul ‘agent yang sempoyongan’. AI agent pertama akan dibuka ke publik.
Iklan agent asisten pribadi yang menggunakan komputer untuk kita akan membanjir. Penggunaan prompt seperti "tolong pesan burrito di DoorDash" atau "beri tahu total bulan ini dari spreadsheet anggaran" akan ditekankan. Meski lebih maju daripada operator sebelumnya, diprediksi tetap akan sulit menyebar ke publik secara luas
Sampai sekarang pun fungsi sederhana yang saya inginkan, yaitu fitur mengedit dokumen di dalam proyek, masih belum tersedia. Saya mengerjakan banyak dokumen per proyek (artikel, riset, skrip, dan lain-lain). Saya ingin melanjutkan pekerjaan sambil menerima bantuan ChatGPT per kalimat. Saya bahkan membayangkan kerja suara-ke-dokumen saat sedang jalan kaki, seperti "sampai mana dokumen yang barusan dikerjakan? Bacakan dua paragraf terakhir.... Dari sini saya akan lanjut menulis agak panjang." Dukungan coding berkembang pesat, tapi untuk menulis rasanya masih berhenti di pola copy-paste, dan itu disayangkan
Sudah banyak upaya memberi VPS ke LLM, tapi implementasi OpenAI kali ini terasa sangat kuat dari sisi UI. Berkat text overlay, mouse yang mudah dibaca, dan UI kustom, pengguna bisa langsung memahami progres dan alasannya dalam sekali lihat. Saya rasa tim UI OpenAI sangat bagus dalam perancangannya. Menarik bahwa mereka memberi informasi visual baru pada cara memakai LLM, dan sebagian ingin saya jadikan referensi untuk proyek pribadi.
Dari sisi fungsi, saya tidak merasakan perbedaan besar dengan Claude+XFCE, tapi dari sisi kematangan visual, OpenAI terasa lebih nyaman. Sebaliknya, implementasi yang ada sebelumnya sangat melelahkan dari segi keterbacaan
Sulit membayangkan agent di level sekarang benar-benar berguna dalam kehidupan nyata saya. Untuk merencanakan kencan malam dengan istri, perlu memeriksa kalender, merekomendasikan restoran sesuai selera, memesan babysitter, dan masih banyak hal lain yang harus dilakukan dengan benar, dan itu membutuhkan kepercayaan yang besar. Saya bersemangat melihat teknologi ini terus berkembang, tapi untuk saat ini rasanya masih hanya terlihat meyakinkan di demo. Untuk benar-benar diterapkan dibutuhkan integrasi sistem yang sangat besar, dan jika Apple atau Microsoft yang punya posisi dengan kemampuan integrasi seperti itu, saya rasa mereka bisa membuat agent yang benar-benar berguna
Menurut saya tugas seperti merencanakan pesta ulang tahun anak perempuan tidak akan terselesaikan lebih dulu daripada memecahkan masalah matematika yang sulit
Menurut saya model "eksekusi sekali jalan" dari agent justru keliru secara UX. Daripada menyuruhnya bolak-balik antar aplikasi, inti agar benar-benar menyatu ke hidup adalah bertukar hal-hal yang diperlukan secara sederhana dan asinkron seperti chat
Yang benar-benar mengesankan adalah penekanan besar pada risiko ketika akses ke informasi akun nyata dan data sensitif diizinkan