Masalah pada OpenAI Deep Research

(ben-evans.com)

23 poin oleh xguru 2025-02-20 | Belum ada komentar. | Bagikan ke WhatsApp

"Deep Research dari OpenAI dibuat untuk saya, tetapi saya tidak bisa menggunakannya. Ini tampak seperti demo yang keren, tetapi pada akhirnya masalah tetap muncul seperti biasa. Dan cara masalah itu muncul cukup menarik." - Benedict Evans

Pekerjaan yang terutama saya lakukan adalah riset dan analisis
- Mencari data yang diinginkan, menyusunnya, lalu membuat grafik, mendapatkan insight darinya, dan mengekspresikannya dalam teks dan grafik
- Proses ini berlanjut dengan berdiskusi dengan orang lain berdasarkan hasil yang dibuat tersebut
Deep Research dari OpenAI tampak seperti solusi yang mengotomatiskan 'pekerjaan riset' semacam ini
- Saya penasaran apakah alat ini benar-benar cocok, jadi saya mencoba mengujinya
- Kebetulan topik sample report yang disediakan Deep Research adalah 'pasar smartphone', bidang yang sangat saya pahami
Tabel yang disajikan dalam sample report tampak sangat baik di permukaan
- Namun pertanyaan mendasar 'data ini berasal dari mana' perlu diajukan terlebih dahulu
- Deep Research menyebut 'Statista' dan 'Statcounter' sebagai sumber, tetapi keduanya sama-sama punya masalah
  - Statcounter adalah statistik berbasis traffic, sehingga ada kecenderungan platform tertentu terwakili berlebihan atau kurang karena perbedaan penggunaan perangkat
  - Statista memanfaatkan optimasi SEO untuk mengolah ulang sumber lain, dan sumber sebenarnya berada di tempat lain
    - Ini tidak jauh berbeda dari mengatakan bahwa “sumbernya adalah hasil pencarian Google”
Sebagai contoh, jika melihat angka pangsa iOS/Android di pasar Jepang, Deep Research menyajikan “iOS 69%, Android 31%”
- Statcounter sendiri juga tidak pernah mengeluarkan angka 69% dalam satu tahun terakhir
- Sumber sebenarnya di balik Statista adalah Kantar Worldpanel, tetapi angka yang diberikan Kantar justru hampir kebalikannya (sekitar Android 63%, iOS 36%)
- Sementara itu, data lembaga pemerintah Jepang (tautan, halaman 25) menyebut “sekitar 53% Android, 47% iOS”
- Selain itu, angka Kantar kadang berubah hingga 20 poin persentase dari bulan ke bulan, sehingga sulit dianggap sebagai data yang menunjukkan 'rasio instalasi hardware aktual'
Untuk memeriksa semua perbedaan ini, pada akhirnya kita harus memverifikasi ulang semua angka di tabel tersebut
- Dalam kasus ini, alasan utama memakai alat tersebut, yaitu 'penghematan waktu', menjadi jauh berkurang
- Akhirnya, menjadi sulit untuk begitu saja mempercayai data yang dimasukkan Deep Research ke dalam tabel
Masalah utamanya di sini adalah "LLM bukan database"
- LLM unggul dalam memahami maksud pertanyaan secara probabilistik, tetapi lemah dalam pekerjaan “deterministik” seperti mengekstrak angka yang tepat dari sumber tertentu
- Deep Research seharusnya memahami dengan benar “arti pangsa pasar seperti apa yang diinginkan”, lalu mengambil angka yang benar dari sumber yang dapat dipercaya, tetapi itu tidak berhasil dilakukan
Ini menunjukkan fenomena bahwa "LLM pandai pada hal yang komputer kurang kuasai (memahami konteks), tetapi kurang pandai pada hal yang komputer kuasai (mengekstrak informasi secara akurat)"
- OpenAI mencoba memberikan dua peran sekaligus: menafsirkan niat pengguna dan mengumpulkan informasi akurat, tetapi dalam kondisi saat ini terjadi ketidaksesuaian
- Terlebih lagi, error muncul bahkan pada sample yang disajikan OpenAI sendiri untuk keperluan promosi
Sebagian orang mungkin berkata "model akan terus membaik, jadi nanti akan lebih baik"
- Namun meski tabelnya benar 85%, jika 15% sisanya salah, tingkat kepercayaan keseluruhan tetap rendah
- Riset yang sepenuhnya otomatis baru mungkin jika akurasinya mendekati 100%, dan saya skeptis apakah titik itu benar-benar bisa dicapai
Meski begitu, ini bukan berarti teknologi ini sama sekali tidak berguna
- Jika topiknya adalah sesuatu yang benar-benar Anda pahami, Anda bisa menghemat waktu dengan cepat membuat laporan 20 halaman lalu memperbaiki sendiri error-nya
- Saya menyebut LLM sebagai "intern tanpa batas", dan ini mirip dengan situasi di mana draft yang dibawa intern tetap perlu dikoreksi
- Mengutip ucapan Steve Jobs tentang komputer sebagai sepeda bagi pikiran, teknologi ini bisa dimanfaatkan sebagai alat yang membantu kemampuan manusia
Namun secara mendasar ada dua masalah
- Tidak jelas apakah produk harus dibuat dengan asumsi bahwa model bisa salah, atau justru dengan asumsi bahwa model itu sendiri pada akhirnya akan bisa dipercaya
- Perusahaan seperti OpenAI, selain modal besar, belum memiliki hambatan masuk khusus atau kapabilitas produk yang menonjol (di luar bidang coding dan marketing)
  - Agar upaya seperti Deep Research benar-benar menjadi 'produk' yang lebih dari sekadar textbox + API, pengelolaan error dan konteks penggunaan harus diselesaikan
  - Pesaing seperti Perplexity juga mulai muncul, dan pada akhirnya skenario yang paling mungkin adalah software lain mengelola tingkat error di atas API yang mengabstraksikan LLM
Kesimpulannya, Deep Research adalah percobaan yang menarik, tetapi masih sulit menjamin keandalannya, dan belum jelas ke arah mana industri ini akan berkembang

Masalah pada OpenAI Deep Research

Bacaan terkait

Belum ada komentar.