3 poin oleh GN⁺ 2025-07-18 | 1 komentar | Bagikan ke WhatsApp
  • ChatGPT Agent memanfaatkan komputer virtualnya sendiri untuk menangani tugas kompleks pengguna dari awal hingga akhir
  • Sistem agentic baru ini menggabungkan kemampuan interaksi situs web dari Operator dengan performa analisis informasi dari deep research, sehingga dapat melakukan klik, input, hingga menjalankan kode dengan fleksibel
  • Pengguna dapat memerintahkan agen untuk melakukan tugas seperti mengirim formulir, melakukan reservasi, dan membuat file atas nama mereka, serta dapat turun tangan kapan saja
  • Di berbagai benchmark dunia nyata seperti SpreadsheetBench, DSBench, dan BrowseComp, sistem ini membuktikan performa yang lebih unggul dibanding model sebelumnya
  • Pengguna Pro, Plus, dan Team dapat mulai menggunakannya hari ini, dan fitur kontrol data pengguna serta keamanan juga dirancang dengan sangat ketat

ChatGPT Agent, menghubungkan riset dan aksi

Pengenalan kemampuan agen

  • ChatGPT diperluas agar dapat menjalankan tugas kompleks atas nama pengguna melalui komputer virtualnya sendiri
  • ChatGPT Agent mengintegrasikan kemampuan analisis dari Operator (interaksi berbasis browser jarak jauh) dan deep research (alat penalaran web multi-langkah) ke dalam satu model agen
    • Operator unggul dalam manipulasi di web (scrolling, klik, pengisian formulir), tetapi memiliki keterbatasan dalam analisis mendalam atau penulisan laporan
    • Sebaliknya, deep research unggul dalam analisis dan peringkasan, tetapi tidak dapat berinteraksi dengan situs secara real-time atau mengakses konten yang memerlukan autentikasi
  • Dengan menggabungkan keunggulan saling melengkapi dari kedua alat ini, sistem ini memberikan efisiensi tinggi dalam satu lingkungan untuk klik, pemfilteran, hingga pengumpulan data
  • Sistem ini memungkinkan perpindahan yang fleksibel antara percakapan dan permintaan di dalam antarmuka chat
  • Contoh:
    • “Analisis tiga pesaing dan buatkan slideshow”
    • “Rangkum rapat berikutnya berdasarkan berita terbaru”

Cara kerja dan interaksi

  • ChatGPT Agent dilengkapi beragam alat akses web seperti browser visual berbasis GUI, browser berbasis teks, dan koneksi API langsung
  • Saat menjalankan tugas, sistem secara dinamis memilih jalur paling optimal dengan mengombinasikan browser, API, dan penalaran teks sesuai situasi
  • Sistem ini dapat menjalankan tugas end-to-end seperti mengklik situs web, memfilter, memandu login, menjalankan kode, merangkum hasil, hingga membuat slide
  • Pengguna dapat turun tangan kapan saja selama tugas berlangsung, dan dapat mengambil alih kendali browser secara langsung
    • Pengguna bisa menambahkan instruksi, mengubah arah tugas, menghentikan proses, atau meminta hasil saat ini kapan saja
    • Tugas yang sedang berjalan dapat dihentikan lalu dimulai ulang kapan saja, dan berbagi konteks menjaga konsistensi
    • Jika ada ketidakpastian, ChatGPT akan secara aktif meminta informasi tambahan
  • Melalui proses autentikasi login pengguna, data perusahaan maupun pribadi juga dapat diakses dengan aman

Performa unggul dan contoh penggunaan

  • Mendapatkan skor yang sangat baik dibanding model sebelumnya pada benchmark terkemuka
    • Humanity’s Last Exam: mencatat skor 43.1 pada pertanyaan tingkat pakar
    • DSBench: jauh mengungguli model sebelumnya dalam tugas data science
    • SpreadsheetBench:
      • mencatat 45.5% dalam pengeditan spreadsheet .xlsx secara langsung, jauh melampaui GPT‑4o (13.38%) dan Excel Copilot (20%)
    • WebArena: mengungguli model Operator sebelumnya juga dalam tugas interaksi web nyata
    • BrowseComp: mencatat skor tertinggi 68.9 dalam kemampuan mengumpulkan informasi web yang sulit ditemukan
  • Dalam pekerjaan analis bank investasi dan analisis data kompleks, sistem ini menghasilkan hasil yang lebih akurat dan lebih luas dibanding alat sebelumnya
  • Menawarkan kegunaan tinggi untuk otomatisasi pekerjaan nyata maupun aktivitas sehari-hari
    • Pekerjaan:
      • pembuatan presentasi otomatis
      • penyesuaian jadwal rapat
      • pembaruan spreadsheet berbasis data keuangan
    • Aktivitas sehari-hari:
      • perencanaan dan reservasi perjalanan
      • perencanaan acara dan menghubungkan dengan konsultasi ahli

Aktivasi, contoh penggunaan, dan keterbatasan

  • Setelah memilih ‘mode agen’, cukup masukkan penjelasan tugas apa pun dalam bahasa Korea atau Inggris, maka eksekusi otomatis akan dimulai
  • Tersedia narasi layar selama proses berlangsung, dan kontrol manual dapat digunakan bila diperlukan
  • Diperkenalkan sistem kredit yang fleksibel, termasuk penjadwalan otomatis untuk tugas berulang dan batas jumlah tugas bulanan
  • Pengguna Operator/deep research yang ada akan menggunakan versi sementara kurang dari 30 hari sebelum beralih dan diintegrasikan ke agen
  • Beberapa fitur baru seperti pembuatan slideshow masih berstatus beta, dan kualitas serta tingkat kematangan output akan ditingkatkan di masa mendatang

Keamanan, perlindungan privasi, dan pencegahan tindakan berbahaya

  • Sebelum melakukan tugas yang mengubah dunia nyata, sistem selalu meminta konfirmasi identitas nominal pengguna serta izin tindakan
  • Untuk tugas sensitif yang memerlukan pengawasan aktif, persetujuan bertahap diwajibkan, dan transaksi berisiko tinggi serta interaksi hukum akan ditolak
  • Sistem deteksi dan pertahanan terhadap serangan berbahaya pihak ketiga seperti prompt injection telah dirancang; bila situasi tidak jelas, sistem akan memberi peringatan risiko dan opsi, lalu berjalan setelah konfirmasi akhir dari pengguna
  • Untuk mencegah penyalahgunaan, kebijakan keselamatan ChatGPT yang ada diterapkan secara lebih mendalam, dan ketentuan penggunaan serta kebijakan OpenAI diberlakukan secara wajib
  • Untuk memperkuat perlindungan privasi, data browser jarak jauh tidak disimpan di server internal
  • Data penelusuran pengguna dan kendali sesi sepenuhnya berada di tangan pengguna, sehingga penghapusan langsung atau logout dapat dilakukan kapan saja
  • Dalam mode kendali langsung, ChatGPT tidak dapat melihat informasi input pribadi

Distribusi agen, kebijakan, dan panduan penggunaan

  • Pelanggan Pro, Plus, dan Team dapat langsung menggunakannya, dan perluasan untuk pengguna enterprise/edukasi dijadwalkan pada bulan Juli
  • Pro hampir tanpa batas, sementara paket lainnya dapat menggunakan sistem 50 kali per bulan + kredit tambahan
  • Dengan menghubungkan workflow dan konektor milik masing-masing pengguna, sistem ini dapat dimanfaatkan untuk berbagai kebutuhan seperti ringkasan informasi baca-saja dan analisis jadwal
  • Research Preview Operator akan berakhir setelah 30 hari, sedangkan deep research dapat diaktifkan secara terpisah bila diperlukan
  • ChatGPT Agent terus ditingkatkan, dan kecerdasan workflow yang mendalam serta fleksibel/kualitas output akan meningkat secara bertahap

Fitur slideshow dan arah ke depan

  • Pembuatan slideshow saat ini masih dalam tahap beta; jika dokumen yang ada tidak disertakan, kualitas akhir dan formatnya bisa kurang matang
  • Elemen seperti teks, grafik, dan gambar disusun sebagai vektor yang mudah diedit untuk memperkuat struktur dan fleksibilitas
  • Fitur unggah dapat diterapkan pada spreadsheet, tetapi untuk slideshow akan disediakan kemudian
  • Ke depan, peningkatan kemampuan otomatisasi diharapkan hadir melalui dukungan fitur dan format yang lebih beragam, serta output yang lebih rapi

Perbandingan performa dan tolok ukur lainnya

Model Berbasis sel Berbasis sheet Skor keseluruhan
GPT‑4o 15.86% 18.33% 16.81%
OpenAI o3 22.40% 24.60% 23.25%
ChatGPT Agent 38.27% 30.48% 35.27%
ChatGPT (.xlsx) 50.56% 37.51% 45.54%
Manusia 75.56% 65.00% 71.33%
  • Berdasarkan tabel benchmark performa, meskipun ChatGPT Agent dalam pemrosesan lingkungan .xlsx dan evaluasi LibreOffice masih belum mencapai skor manusia, levelnya jauh paling tinggi di antara model AI
  • Karena perbedaan lingkungan evaluasi, beberapa angka bisa sedikit berbeda, tetapi kemampuan menyeluruhnya telah dibuktikan dalam total 912 soal evaluasi spreadsheet

1 komentar

 
GN⁺ 2025-07-18
Komentar Hacker News
  • Menurut saya video contoh "spreadsheet" itu menarik. Biasanya membuat laporan yang kompleks dan penuh data butuh 4–8 jam, tapi sekarang katanya cukup minta ke agent lalu pergi jalan sebentar, dan datanya sudah siap saat kembali. Katanya 98% sudah tercermin dengan tepat, tinggal copy-paste beberapa bagian saja. Saya rasa ini bisa menghemat 90–95% waktu. Tapi saya juga merasa waktu yang sebenarnya bisa habis untuk menemukan 2% kesalahan itu. Terutama untuk pekerjaan kompleks atau yang melibatkan uang, "hampir benar" bisa jadi masalah besar. Kalau 2% kesalahan halus itu tersembunyi di beberapa tahap, itu benar-benar bisa jadi masalah besar

    • Menurut saya ini justru contoh jebakan ekspektasi berlebihan terhadap AI. Mengotomatisasi pengumpulan dan verifikasi data adalah penggunaan yang bagus. Tapi orang jadi berpikir berlebihan seolah AI akan menggantikan semua pekerjaan. Saat mendengar angka 98% benar, orang yang berpengalaman dengan spreadsheet seharusnya waspada. Karena sulit tahu 2% mana yang salah sebelum memeriksa semuanya sendiri. Hal yang sama berlaku untuk kode: orang yang memakai bantuan AI dengan tepat lalu tetap meninjau sendiri biasanya mendapat hasil lebih baik. Sebaliknya, pendekatan yang hanya mengulang prompt sampai lolos tes lalu langsung mengirim PR menurut saya bisa menimbulkan masalah serius
    • Di dunia AI, cara berpikir yang menganggap 2% itu sepele sendiri terasa seperti hipnosis massal. Misalnya seperti analogi 'menekan tombol: 1 dolar, tahu tombol yang mana: 9.999 dolar', perbaikan 2% ini bisa memiliki nilai yang sebenarnya sangat besar. Mencarinya pun bisa memakan waktu sebanyak 98% sisanya
    • Menurut saya hukum Pareto bekerja dalam fenomena seperti ini. Di bidang yang berdekatan seperti mobil swakemudi, 20% terakhir juga belum bisa dilewati selama bertahun-tahun. Dulu mobil swakemudi selalu jadi pusat perdebatan, dan sekarang hampir tak ada yang membicarakannya lagi, itu terasa aneh
    • Ini masalah yang sama saat LLM dipakai untuk pekerjaan yang menuntut presisi. Seperti pipeline data bertahap, dari luar terlihat sempurna, tapi ketika data nyata divalidasi ternyata ada yang meleset. Akhirnya kita menghabiskan waktu dan tenaga sebanyak menulis dari awal, hanya untuk membongkar kode yang terlalu panjang dan menemukan beberapa masalah kecil tapi penting
  • Ancaman keamanannya terasa sangat menakutkan. Misalnya kalau diberi akses ke email dan kalender, ia jadi bisa mengetahui semua rahasia saya. Bahkan artikelnya sendiri mengakui risiko prompt injection. Jika halaman web berbahaya menyembunyikan prompt di elemen tak terlihat atau metadata, dan agent gagal mendeteksinya, data pribadi bisa bocor ke penyerang. Menurut saya situs jahat bisa mencuri rahasia saya. Satu hal yang saya penasaran, artikel itu bilang tindakan penting akan selalu dikonfirmasi ke pengguna terlebih dahulu, tapi saya penasaran bagaimana AI menentukan apa yang termasuk 'tindakan penting'. Bukankah bisa saja terjadi pembayaran dilakukan tanpa konfirmasi pengguna karena kesalahan?

    • Saya rasa serangan prompt injection lewat undangan kalender hampir pasti akan muncul. Undangan kalender sudah berisi banyak kalimat yang dibuat otomatis dan hampir tidak ada yang membaca semuanya, jadi sangat mudah menyelipkan kode serangan. Kalau begitu, kalender korban dan data pribadi lainnya bisa direbut sekaligus
    • Di IT sudah banyak orang yang membedakan komputasi private dan public, tapi ke depan rasanya kita butuh tahap di antaranya. Misalnya membagi data menjadi risiko menengah seperti kalender anonim yang tidak sensitif, jurnal yang aman, atau catatan riset. Saya tidak menggunakan ChatGPT untuk konsultasi medis atau konsultasi sensitif lainnya. Saya dengar banyak orang melakukannya, tapi saya masih merasa tidak tenang
    • Hampir siapa pun bisa mengirim undangan ke kalender orang lain juga (meski tentu tidak semua orang akan menerimanya). Kalau agent seperti ini menyebar luas, para peretas akan mulai menyebarkan undangan phishing yang berisi prompt yang mereka inginkan dengan sangat jelas
    • Saya sulit membayangkan memberi akses ke data saya sambil sekaligus merasa "takut". Mungkin khawatir, ya, tapi bukan sampai takut
    • Tingkat pemerasan tersimulasi GPT-4.1 yang diukur Anthropic adalah 0,8%
      Riset terkait Agentic misalignment
      Dianalisis bahwa ini bisa beroperasi dalam bentuk yang mirip ancaman orang dalam, yaitu rekan tepercaya yang tiba-tiba bergerak berlawanan dengan kebijakan perusahaan
  • Mungkin karena saya sendiri sedang membangun bisnis agent, saya bisa melihat dengan jelas bahwa lompatan dari 90% ke 99% adalah masalah last mile yang sangat sulit di ranah LLM. Semakin tinggi sifat general-purpose-nya, semakin besar pula kegagalan atau kekecewaannya. Kenyataannya, yang dioptimalkan hanya bagian yang terlihat mudah dalam demo, sementara realitas yang tidak nyaman disembunyikan. Tapi itu bukan berarti agent tidak bernilai; hanya saja kita perlu membedakan potensi dampak dan ekspektasi yang dibesar-besarkan

    • "Terobosan" AI belakangan ini lahir dari hasil ilmiah dan riset yang solid
      • AlphaGo/AlphaZero(MCTS)
      • OpenAI Five(PPO)
      • GPT 1/2/3(Transformers)
      • Dall-e, Stable Diffusion(CLIP, Diffusion)
      • ChatGPT(RLHF)
      • SORA(Diffusion Transformers)
        Tapi saya rasa "agent" hanyalah istilah pemasaran, dan tidak punya fondasi yang bisa dipakai segeneral LLM. Data terkait pun hampir tidak ada
    • Rasanya masalah yang terjadi sama seperti outsourcing. 90% selesai dengan cepat, tapi 10% sisanya benar-benar sulit, dan sangat bergantung pada bagaimana 90% sebelumnya dikerjakan
    • Saya rasa banyak perusahaan hanya menunjukkan happy path dalam demo dan menyembunyikan kenyataan yang sebenarnya. Hampir semua perusahaan AI sekarang seperti itu
    • Akhir-akhir ini saya merasa akurasi bisa ditingkatkan jika RL dilatih dengan cukup banyak data penggunaan nyata. Hanya mengandalkan prompt ada batasnya, jadi kalau diajari tugas spesifik hasilnya akan jauh lebih baik. Metode lain yang mungkin adalah generasi paralel lalu voting mayoritas, atau LLM menilai hasil LLM lain. Tapi pada akhirnya hype sangat berperan di Silicon Valley. Karena hype mendorong pertumbuhan perusahaan, saya rasa suasana ini tidak akan berubah dalam waktu dekat
    • Kualitas demonya sendiri juga tidak terlalu bagus. Bahkan dalam video chat live yang diikuti Sam Altman, planner tur stadion baseball itu menggambar garis secara ngawur, sepenuhnya mengabaikan East Coast dan malah lompat ke Teluk Meksiko. Padahal itu tayangan rekaman yang diputar seolah live, dan kualitasnya tetap segitu
  • Pada agent CLI yang lama, masalah besar ada pada sesi yang tidak bisa dipertahankan, dan kali ini bagian itu tampaknya sudah ditangani dengan baik. Dulu saat menjalankan claude code di terminal lokal, konteks yang diperlukan bisa dimasukkan dengan mudah, tapi begitu laptop ditutup dan koneksi terputus, semuanya berhenti.
    Sebagai solusi sementara, saya memakai Amphetamine di MacOS agar proses tetap berjalan meski perangkat ditutup, tapi ada masalah panas dan pemborosan baterai. Cara lain adalah menggandakan repo ke instance cloud lalu masuk lewat tmux untuk menjalankan claude. Namun dari sisi UX, kesulitan memuat konteks tetap selalu ada. Berkat sandboxing, kita juga bisa berharap ada tingkat keamanan tertentu, dan ada cara untuk menjalankannya dengan izin akun tertentu.
    Menarik melihat OpenAI tampaknya memikirkan UX Agent yang juga bisa dipakai non-developer

    • Lightning.ai menyediakan development box gratis berbasis CPU-only, jadi saya menjalankan Claude code di sana
    • Saya menjalankan tugas-tugas yang berlangsung lebih dari beberapa menit tanpa intervensi di tengah jalan
    • Lebih baik saja melakukan pekerjaan dev di server yang tidak akan terputus
  • Saya sudah lama memakai OpenAI operator, tapi akhir-akhir ini diblokir oleh LinkedIn dan Amazon. Padahal dua situs itu adalah penggunaan inti untuk lamaran kerja dan belanja. Operator dipakai dengan relatif tidak mencolok, tapi kalau Agent jadi terkenal, saya rasa akan makin banyak situs yang memblokirnya. Pada akhirnya tampaknya perlu mendukung konfigurasi proxy

    • Menurut saya ini memang masalah inti. Saya tadinya mengira akan ada cara untuk menjalankannya langsung secara lokal atau setidaknya menyiapkan proxy, tapi tidak ada penyebutan soal itu. Dari pengalaman dengan distil Deepseek R1 juga terlihat pengungkapan hasil antara atau know-how dilakukan dengan hati-hati, dan mungkin itu berpengaruh. Bahkan pada operator awal pun sudah banyak situs yang memblokir akses dari IP data center, dan meski sempat dites dengan proxy hack manual, pada akhirnya pembatasan makin ketat sementara performa tidak membaik. Sekarang rasanya hampir tidak berguna lagi. Pada akhirnya, kecuali bermitra dengan tempat seperti eastdakota, mencoba browsing web langsung dari server tampaknya tidak terlalu berarti. Penggunaan "komputer" secara umum justru jauh lebih nyaman dengan file/perangkat lunak lokal, dan ironisnya pekerjaan agent jarak jauh pun pada akhirnya berbasis CLI
    • Ini strategi khas Silicon Valley: lempar dulu ke pasar lalu kumpulkan efek lanjutannya. Saya berharap OpenAI segera menjalin kemitraan dengan LinkedIn dan Amazon. Bahkan bisa jadi LinkedIn justru menambahkan tier berbayar baru untuk akses lewat OpenAI
    • Kalau orang benar-benar memesan barang fisik lewat Agent atau operator, saya rasa alasan situs seperti Amazon untuk terus memblokir akan hilang
    • Saya pernah membuat alat serupa, dan dengan menjalankan desktop lewat proxy residensial, sebagian besar pembatasan bisa dilewati.
      agenttutor.com
    • Kebiasaan agents mematuhi robots.txt sepertinya akan segera berakhir. Pengguna tampaknya akan bergerak ke arah memasang ekstensi browser atau browser penuh yang berjalan dengan cookie dan IP mereka sendiri
  • Dalam prediksi tim AI 2027: pertengahan 2025 akan muncul ‘agent yang sempoyongan’. AI agent pertama akan dibuka ke publik.
    Iklan agent asisten pribadi yang menggunakan komputer untuk kita akan membanjir. Penggunaan prompt seperti "tolong pesan burrito di DoorDash" atau "beri tahu total bulan ini dari spreadsheet anggaran" akan ditekankan. Meski lebih maju daripada operator sebelumnya, diprediksi tetap akan sulit menyebar ke publik secara luas

    • Memprediksi sesuatu yang hanya berjarak 4 bulan ke depan bukan hal yang terlalu hebat
    • Inti AI 2027 adalah prediksi percepatan eksponensial pertumbuhan teknologi. "Agent" saya lihat hanya teknologi OpenAI yang sudah ada dengan front-end baru. Mungkin baru bisa dinilai dengan benar saat memasuki awal 2026
    • Saat laporan itu ditulis, sudah jadi rahasia umum bahwa perusahaan-perusahaan besar sedang mengembangkan produk agent. Ini lebih masuk akal sebagai prediksi yang wajar daripada sesuatu yang inovatif
  • Sampai sekarang pun fungsi sederhana yang saya inginkan, yaitu fitur mengedit dokumen di dalam proyek, masih belum tersedia. Saya mengerjakan banyak dokumen per proyek (artikel, riset, skrip, dan lain-lain). Saya ingin melanjutkan pekerjaan sambil menerima bantuan ChatGPT per kalimat. Saya bahkan membayangkan kerja suara-ke-dokumen saat sedang jalan kaki, seperti "sampai mana dokumen yang barusan dikerjakan? Bacakan dua paragraf terakhir.... Dari sini saya akan lanjut menulis agak panjang." Dukungan coding berkembang pesat, tapi untuk menulis rasanya masih berhenti di pola copy-paste, dan itu disayangkan

    • Sering kali mengulang copy ke clipboard itu merepotkan. Karena itu, bahkan membuka ChatGPT saja terasa merepotkan sehingga saya ragu memakainya. Kalau sudah terbiasa dengan NLE, plugin, atau pekerjaan berbasis timecode, workflow malah terputus dan terasa tidak nyaman
    • Aider justru sudah lama bisa melakukan pekerjaan seperti ini dengan model gratis. Tapi di layanan besar bahkan versi berbayar pun tidak menyediakannya. Kadang saya terpikir membuat layanannya sendiri, tapi lalu saya menyerah karena merasa perusahaan besar akan segera menyediakannya juga, jadi takut hanya buang tenaga
  • Sudah banyak upaya memberi VPS ke LLM, tapi implementasi OpenAI kali ini terasa sangat kuat dari sisi UI. Berkat text overlay, mouse yang mudah dibaca, dan UI kustom, pengguna bisa langsung memahami progres dan alasannya dalam sekali lihat. Saya rasa tim UI OpenAI sangat bagus dalam perancangannya. Menarik bahwa mereka memberi informasi visual baru pada cara memakai LLM, dan sebagian ingin saya jadikan referensi untuk proyek pribadi.
    Dari sisi fungsi, saya tidak merasakan perbedaan besar dengan Claude+XFCE, tapi dari sisi kematangan visual, OpenAI terasa lebih nyaman. Sebaliknya, implementasi yang ada sebelumnya sangat melelahkan dari segi keterbacaan

  • Sulit membayangkan agent di level sekarang benar-benar berguna dalam kehidupan nyata saya. Untuk merencanakan kencan malam dengan istri, perlu memeriksa kalender, merekomendasikan restoran sesuai selera, memesan babysitter, dan masih banyak hal lain yang harus dilakukan dengan benar, dan itu membutuhkan kepercayaan yang besar. Saya bersemangat melihat teknologi ini terus berkembang, tapi untuk saat ini rasanya masih hanya terlihat meyakinkan di demo. Untuk benar-benar diterapkan dibutuhkan integrasi sistem yang sangat besar, dan jika Apple atau Microsoft yang punya posisi dengan kemampuan integrasi seperti itu, saya rasa mereka bisa membuat agent yang benar-benar berguna

    • Mungkin "pelajaran mendasar tentang keputusan eksekusi" adalah bahwa tugas hidup yang sulit sebenarnya bukan sulit karena pemrosesan informasi, melainkan karena nilai-nilai dan hubungan antar manusia yang kompleks. Misalnya, memesan restoran itu mudah, tapi memilih restoran mana pada hari itu adalah masalah yang benar-benar sulit. Apakah LLM mengingat tempat kencan pertama kami, apakah ia tahu istri saya pernah keracunan makanan saat makan sushi terakhir, dan hal-hal hiperpersonal seperti itu tidak bisa diikutinya. Bahkan bagi concierge manusia pun itu sulit.
      Menurut saya tugas seperti merencanakan pesta ulang tahun anak perempuan tidak akan terselesaikan lebih dulu daripada memecahkan masalah matematika yang sulit
    • Kelebihan agent seperti ini pada dasarnya sama seperti orang sibuk memakai asisten pribadi, hanya saja jauh lebih murah. Seperti asisten yang berkata, "bagaimana kalau babysitter ini atau restoran ini? Mau saya pesan?", meminta sesuatu lewat satu antarmuka secara natural terasa jauh lebih ringan secara mental. Cukup bilang, "ya, tolong pesan," selesai.
      Menurut saya model "eksekusi sekali jalan" dari agent justru keliru secara UX. Daripada menyuruhnya bolak-balik antar aplikasi, inti agar benar-benar menyatu ke hidup adalah bertukar hal-hal yang diperlukan secara sederhana dan asinkron seperti chat
    • Sebenarnya agents itu hanyalah model chat inti + system prompt + parsing respons dan eksekusi aksi + memasukkan hasil ke prompt berikutnya + memberi tahu model daftar aksi yang tersedia. Ini bukan inovasi mendasar, dan membuatnya sendiri juga sederhana. Menurut saya inti sebenarnya ada pada wrapper dan desain system instruction. Misalnya, kalau dibuat chat panduan yang mengintegrasikan kalender, riwayat lokasi, sampai pemesanan babysitter, otomatisasi bisa dilakukan
    • Menurut saya bentuk "agent pribadi" yang ideal memang persis seperti ini. Karena itulah saya makin kecewa dengan apa yang dijanjikan Apple di WWDC tahun lalu. Bahkan setelah mencoba Gemini di Pixel 9 pro, tingkat integrasi seperti ini masih jauh sekali. Yang paling penting, kepercayaan masih menjadi hambatan besar. LLM terlalu percaya diri saat memberi jawaban yang salah, jadi saya cemas membiarkannya mengirim pesan atas nama saya atau menambahkan seseorang ke kalender tanpa benar-benar tahu apa yang dilakukannya, dan itu membuat saya enggan menyerahkan semuanya secara sepenuhnya otonom
    • Khususnya di bidang perjalanan, ini berguna untuk memperoleh dan membandingkan informasi, tetapi percakapan yang benar-benar dipersonalisasi secara real-time terkait lokasi saya saat ini, waktu, cuaca, reservasi/pembayaran, dan lain-lain masih terasa tidak nyaman. Kalau nantinya berkembang menjadi asisten perjalanan yang benar-benar personal (atau untuk grup), itu akan keren
  • Yang benar-benar mengesankan adalah penekanan besar pada risiko ketika akses ke informasi akun nyata dan data sensitif diizinkan

    • Saya juga heran komentar ini cuma muncul jauh di bawah. Mungkin karena saya tinggal di luar Amerika Serikat, sudut pandang saya jadi berbeda