13 poin oleh xguru 2025-02-03 | 3 komentar | Bagikan ke WhatsApp
  • Fitur agentik baru yang diperkenalkan OpenAI ke ChatGPT, "Deep research"
  • Berperan mengumpulkan, menganalisis, dan menyintesis informasi dalam jumlah besar dari internet untuk menyelesaikan tugas kompleks secara otomatis dalam hitungan puluhan menit
  • Sebagai tahap kunci menuju pencapaian AGI di masa depan, kemampuan "sintesis pengetahuan" yang dapat menciptakan pengetahuan baru merupakan hal yang esensial

Alasan membuat Deep research

  • Dikembangkan untuk pengguna yang membutuhkan hasil riset yang mendalam dan dapat dipercaya, mulai dari kerja pengetahuan tingkat tinggi (keuangan, sains, kebijakan, engineering, dan lain-lain) hingga riset pembelian barang konsumsi bernilai besar
  • Dapat dengan cepat menemukan dan mendokumentasikan informasi niche yang tidak mudah terlihat atau fakta yang tidak intuitif dari berbagai sumber online
  • Memungkinkan otomatisasi riset setingkat profesional untuk meningkatkan produktivitas kerja secara signifikan

Cara menggunakan Deep research

  • Pilih mode Deep research di kolom input pesan ChatGPT
  • Dapat melampirkan file atau spreadsheet yang diperlukan bersama permintaan (misalnya analisis pesaing, rekomendasi produk yang dipersonalisasi, dan lain-lain)
  • Deep research menjelajahi internet selama 5 menit hingga maksimal 30 menit untuk menyusun laporan terperinci
  • Selama proses berlangsung, pengguna dapat memeriksa tahapan melalui sidebar yang menampilkan ringkasan per langkah dan sumber referensi
  • Hasil akhir disediakan dalam bentuk laporan lengkap dengan kutipan yang luas, dan ke depannya juga akan mencakup gambar serta visualisasi data

Cara kerja

  • Menggunakan model generasi berikutnya (berbasis OpenAI o3) yang memperluas kemampuan penalaran OpenAI o1 untuk menangani tugas browsing dan analisis yang kompleks
  • Secara mandiri melakukan perencanaan multi-tahap, pengumpulan informasi, dan penerapan umpan balik di tengah proses
  • Juga dapat mengakses file yang diunggah pengguna dan melakukan analisis seperti membuat grafik menggunakan alat Python
  • Meningkatkan akurasi dan transparansi dengan mengutip sumber pada tingkat kalimat tertentu

Evaluasi Humanity’s Last Exam

  • Dalam Humanity’s Last Exam, evaluasi luas yang baru-baru ini dipublikasikan, model ini mencatat tingkat jawaban benar 26.6%, menunjukkan performa unggul dibanding model sebelumnya
    • Evaluasi ini menyajikan lebih dari 3.000 soal tingkat ahli yang mencakup berbagai bidang ilmu
  • Menunjukkan peningkatan besar dibanding model sebelumnya di bidang kimia, humaniora dan ilmu sosial, serta matematika
  • Model pembanding mencakup GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking, OpenAI o1, dan lainnya, dengan model Deep research mencatat akurasi tertinggi sebesar 26.6%
    • GPT-4o sekitar 3.3%, Claude 3.5 Sonnet 4.3%, dan OpenAI o1 9.1%

Benchmark GAIA

  • GAIA adalah tolok ukur yang mengevaluasi pertanyaan dunia nyata yang menuntut kemampuan browsing web, pemrosesan multimodal, dan penggunaan alat sekaligus
  • Model Deep research memperbarui rekor performa terbaik sebelumnya pada benchmark tersebut
  • Soal GAIA dibagi ke tingkat kesulitan level 1 hingga 3, dan Deep research mencatat skor lebih tinggi dari rekor terbaik sebelumnya di semua tingkat kesulitan
  • Secara spesifik, dibanding rekor sebelumnya terdapat peningkatan sekitar 6~8% di tiap level, sehingga rata-rata keseluruhan juga naik

Tugas tingkat ahli

  • Dalam evaluasi internal, menunjukkan tingkat otomatisasi yang cukup tinggi untuk menggantikan riset manual yang biasanya memakan waktu berjam-jam
  • Karena performa meningkat seiring model menjelajah lebih banyak materi dan berpikir lebih lama, memberi waktu komputasi yang cukup menjadi hal penting

Keterbatasan

  • Masih mungkin terjadi beberapa kesalahan fakta atau penalaran yang keliru (hallucination)
  • Mengalami kesulitan membedakan rumor dan sumber yang sangat tepercaya, serta ekspresi ketidakpastian mungkin tidak selalu akurat
  • Pada tahap awal peluncuran, format laporan atau kutipan mungkin belum sepenuhnya mulus, dan waktu eksekusi bisa lebih lama dalam beberapa kasus

Akses dan penggunaan

  • Saat ini Deep research diprioritaskan untuk pengguna Pro karena biaya komputasinya tinggi, dengan batas hingga 100 kali per bulan
  • Segera akan dibuka secara bertahap juga untuk pengguna Plus dan Team
  • Dukungan untuk pengguna di Inggris, Swiss, dan Wilayah Ekonomi Eropa (EEA) direncanakan akan diperluas kemudian
  • Ke depannya, batas permintaan untuk semua akun berbayar akan meningkat signifikan melalui versi model kecil yang lebih cepat dan efisien

Rencana ke depan

  • Deep research untuk tahap awal tersedia di ChatGPT versi web, dan akan segera hadir juga di aplikasi mobile dan desktop
  • Ke depannya juga direncanakan terhubung ke data berlangganan atau resource internal untuk memberikan hasil yang lebih dipersonalisasi
  • Dengan menggabungkan Deep research dan Operator, diharapkan dapat membangun pengalaman agen yang lebih canggih yang bahkan mampu menjalankan tugas nyata offline/online secara otomatis

3 komentar

 
GN⁺ 2025-02-04

Opini Hacker News

  • Seorang pengguna menyebut ia mencoba membuat laporan tentang dirinya sendiri, tetapi muncul beberapa kesalahan. Misalnya, reputasinya di Stack Overflow dikenali secara keliru, dan kutipan wawancara juga diambil dari orang yang salah.

  • Pengguna lain menyoroti bahwa sekitar 10% kasus, model bahasa gagal memberikan jawaban yang sepenuhnya akurat, dan hal ini dapat menurunkan kepercayaan. Ia juga menekankan bahwa waktu yang dibutuhkan untuk memverifikasi keakuratan jawaban merupakan faktor penting.

  • Seorang pengguna menyebut ini mirip dengan proyek pembuatan laporan yang baru-baru ini dirilis oleh Standard.

  • Disebutkan bahwa Gemini sudah menyediakan fitur ini sejak beberapa bulan lalu dengan nama "Deep Research". Ia mempertanyakan fenomena tumpang tindih nama di dunia AI.

  • Seorang pengguna mengakui adanya masalah error dan halusinasi, tetapi khawatir banyak orang akan mengabaikannya dan langsung memasukkan hasilnya ke PowerPoint mereka. Ia memperingatkan bahwa semakin kuat alat seperti ini, semakin parah pula distorsi informasi yang bisa terjadi.

  • Disebutkan bahwa model o3 yang belum dirilis mendukung fitur ini, dan itu adalah model yang sangat mengesankan. Ia menekankan bahwa ini adalah model terdepan dari Google, DeepSeek, dan Perplexity.

  • Disebutkan bahwa ini alat yang menarik bagi orang-orang yang bekerja di akademia, dan ia ingin mencobanya tetapi merasa biayanya memberatkan. Ia meminta orang lain untuk mengujinya dengan prompt tertentu.

  • Ia mempertanyakan kemampuan ini sebagai prasyarat bagi AGI dan ASI. Ia skeptis terhadap pentingnya riset, dan khawatir pada ketergantungan terhadap jawaban alih-alih hasil eksekusi.

  • Disebutkan bahwa dalam pengujian internal, tingkat kelulusannya hanya mencapai 20%, dan meninjau teks tidak akurat dalam jumlah besar memakan banyak waktu. Ia berpendapat bahwa diperlukan proses yang lebih iteratif.

  • Ia mempertanyakan apakah para pakar terkenal atau orang-orang yang ingin mendapat eksposur akan terus menulis di blog. Ia khawatir pembacanya pada akhirnya semuanya akan menjadi bot.

 
devil1032 2025-02-03

Saya sangat menantikannya.. Ternyata ini bukan one-more-thing..
Apakah isu DeepSeek akan tertutupi oleh ini