Penalaran GPT-5 ChatGPT (Research Goblin) sangat kuat untuk pencarian

(simonwillison.net)

6 poin oleh GN⁺ 2025-09-08 | 1 komentar | Bagikan ke WhatsApp

ChatGPT berbasis GPT-5 (dijuluki Research Goblin) menunjukkan tingkat akurasi dan kegunaan yang sangat tinggi dalam penelusuran web
Dari pertanyaan remeh yang umum hingga investigasi informasi yang kompleks, ia menampilkan kemampuan pencarian dan penalaran yang kuat di berbagai topik
Dalam contoh nyata, ia memberikan jawaban dan materi yang dapat dipercaya melalui proses pencarian yang sangat luas dan penalaran berantai
Bahkan di lingkungan mobile, pengguna bisa merasakan kegunaan yang unggul dan alur kerja yang berkelanjutan
Berkat integrasi tool calling dan chain-of-thought, dari sudut pandang pengembang ini menghadirkan standar baru untuk pencarian berbasis LLM

Penalaran GPT-5 (Research Goblin) dan inovasi pencarian

Paradigma pencarian yang berubah

Dulu, saran arus utama adalah “jangan gunakan chatbot seperti mesin pencari”, tetapi pada ChatGPT berbasis GPT-5 terbaru, rumus itu mulai runtuh
Model berbasis GPT-5 melampaui sekadar integrasi dengan mesin pencari seperti Bing, dan secara nyata telah mencapai tingkat yang dapat menggantikan atau melampaui riset internet
Alasan munculnya julukan “Research Goblin” adalah karena ketika diberi pertanyaan apa pun atau tugas yang rumit, ia menyelidikinya dengan kegigihan yang nyaris tidak normal untuk menghasilkan jawaban terbaik

Contoh pencarian nyata dan hasilnya

Travelator yang menarik

Saat ditanya kapan sabuk travelator berbahan karet di Bandara Heathrow diganti menjadi logam, model ini memperkirakan antara 2014–2018 dan bahkan menemukan artikel menarik terkait dari tahun 2024

Identifikasi bangunan

Ketika ditanya tentang bangunan eksotis yang terlihat dari jendela kereta, dalam 1 menit 4 detik ia dengan tepat mengonfirmasi bahwa itu adalah ‘The Blade (Reading)’, lengkap dengan tautan sumber

Investigasi cake pop Starbucks UK

Ia melakukan penelusuran mendalam tentang mengapa cake pop tidak tersedia di gerai Starbucks di Inggris, dan menemukan bahwa produk itu diperkenalkan pada 2023 tetapi tidak dijual di toko tertentu (terutama toko di lokasi perjalanan)
Bukti pendukung juga dirangkum dari PDF panduan nutrisi dan alergen, diskusi Reddit, dan lainnya

Hubungan Wikipedia dan Britannica

Ia menganalisis secara mendalam kebenaran dan konteks klaim online bahwa Wikipedia pada masa awal menggunakan sebagian sumber dari Britannica edisi 1911 sebagai data awal, lalu menelusuri dan menyajikan dokumen proyek serta penjelasan terkait

Nama resmi University of Cambridge

Ia menyajikan nama hukum resmi University of Cambridge — (The Chancellor, Masters, and Scholars of the University of Cambridge) — beserta sumber pendukungnya
Proses penalarannya dijabarkan secara transparan sehingga keandalan jawaban juga bisa diverifikasi

Riwayat gua dan restoran di Exeter Quay

Untuk struktur interior restoran yang dipahat di tebing di kawasan Exeter Quay dan sejarahnya, model ini melakukan beberapa tahap pencarian dan analisis PDF untuk mengungkap bahwa tempat itu dibuat pada tebing batu pasir merah pada 1820-an hingga 1830-an
Ia juga menunjukkan pola pencarian yang proaktif dengan mencari laporan/gambar teknik berbahasa Inggris, dan bahkan menyusun draf email permintaan ketika informasi tidak dapat dijangkau

Perbandingan Aldi dan Lidl

Ia menganalisis panjang lebar lokasi Aldi dan Lidl di Inggris, citra merek, peringkat pasar, termasuk pangsa pasar dan penilaian konsumen
Atas permintaan pengguna, ia juga menyusun ulang peringkat berdasarkan kriteria “fanciness” (kesan mewah)

Pemindaian buku oleh laboratorium AI

Selain kasus Anthropic yang memindai buku dalam jumlah besar untuk membuat data pelatihan, ia tidak dapat memastikan apakah laboratorium AI lain melakukan hal serupa, tetapi tetap mencatat eksplorasi kemungkinan tersebut secara rinci

Keunggulan nyata pencarian GPT-5

Dalam pencarian ChatGPT berbasis GPT-5, pengumpulan dan evaluasi informasi yang lebih cepat, sistematis, dan luas dimungkinkan dibanding pekerjaan manual
Khususnya di lingkungan mobile, kegunaannya meningkat drastis, sehingga pemenuhan rasa ingin tahu sehari-hari atau tugas riset rutin bisa dilakukan kapan saja dan di mana saja
Ia memiliki kemampuan memberikan hasil yang cepat sekaligus kaya hingga dapat menggantikan fitur Deep Research milik OpenAI

Makna dari sudut pandang pengembangan LLM

Berkat kombinasi tool calling dan chain-of-thought, pencarian, penalaran berantai, dan penelusuran tambahan dapat tersambung secara alami dalam satu tahap “berpikir”
Teknologi RAG (kombinasi pencarian-generasi) juga dapat dioperasikan jauh lebih kuat melalui pemanggilan tool multi-tahap yang fleksibel dan keterkaitan pencarian yang lebih canggih
Dalam istilah Anthropic, ini disebut interleaved thinking, dan alur serupa juga didukung di OpenAI Responses API

Tips memanfaatkan pencarian secara efektif

Kualitas pencarian dapat ditingkatkan melalui intuisi empiris (misalnya memberi petunjuk seperti “go deep” untuk mendorong investigasi yang lebih menyeluruh)
Bahkan untuk pertanyaan interpretatif yang tidak memiliki jawaban tunggal yang jelas, model ini tetap dapat menghasilkan hasil yang berguna dan menarik
Seperti metafora “goblin”, Research Goblin adalah AI pencarian yang rajin tetapi tidak sepenuhnya dapat dipercaya, berbeda dari manusia, namun sangat bernilai untuk dimanfaatkan

1 komentar

GN⁺ 2025-09-08

Komentar Hacker News

Saya setuju dengan tulisan Simon, tetapi menurut saya “riset” berarti membandingkan berbagai bentuk bukti. Misalnya diterapkan pada banyak bidang seperti efektivitas Obamacare, prediksi putusan hukum, analisis pengaruh animasi, atau cara memanfaatkan pustaka open source. ChatGPT maupun LLM lain kesulitan dalam mengevaluasi bukti atau memahami bias sumber, dan terutama saat menangani banyak statistik, makin banyak penalaran yang tampak masuk akal justru makin banyak halusinasi. Model juga punya kecenderungan ingin mendukung sudut pandang pengguna sehingga berusaha menjawab secara positif bahkan saat tidak diminta. Saya selalu meminta ChatGPT menilai sumber secara langsung, membandingkan argumen pro dan kontra, dan kadang mengajukan sanggahan pada model untuk melihat reaksinya. Pengalaman lebih rinci bisa dibaca di blog
- Saya pernah mencoba memakai Perplexity untuk mencari pengaturan optimal monitor saya, dan ia memberi daftar pengaturan yang ringkas beserta alasannya. Namun setelah saya cek sumbernya, tidak ada informasi resmi atau dasar yang jelas, hanya postingan pengguna di forum Samsung yang saling menebak atau berdiskusi. Akan bagus kalau ada confidence rating berdasarkan keandalan sumber, tetapi itu tampaknya sangat sulit diwujudkan
- ChatGPT dan LLM sering hanya mengulang “akal sehat” yang dangkal. Saya harus berkali-kali bertanya lanjutan untuk memastikan apakah ini benar-benar berdasar, apa sumbernya, meminta kutipan informasinya, dan mengecek lagi apakah itu bukan halusinasi. Cukup sering ternyata jawaban awalnya sepenuhnya salah. Kebanyakan orang sepertinya akan menerima jawaban pertama itu begitu saja
- Misalnya saat ingin membuat keputusan pembelian yang betul-betul terinformasi, saya merasa sangat sulit karena opini bernuansa pemasaran mendominasi dan sinyal yang berlawanan, seperti komentar negatif di Reddit atau komentar YouTube, tidak cukup menyeimbangkan
- GPT-5 (termasuk model o3) adalah salah satu LLM dengan sudut pandang paling kritis. Untuk permintaan akademik dan teknis, ia bisa mengutip sumber informasi dan membandingkan hasil lain tanpa perlu prompt khusus. Versi awal Grok 4 hanya merangkum artikel tanpa analisis, dan Claude Opus 4 juga meleset dari inti, misalnya saat diminta daftar pustaka JS malah mengembalikan dokumen yang berfokus pada tingkat penggunaan. Tentu GPT-5 tidak sempurna, tetapi masih lebih baik daripada manusia rata-rata
- Saya ingin bertanya bagaimana pendapat kalian tentang penggunaan kata “riset” dalam LLM sebagai istilah untuk sekumpulan fitur. Apakah itu cukup mewakili penelitian yang sesungguhnya, atau hanya setara dengan ungkapan “do your research” yang sering dipakai saat musim pemilu di AS
Saya masih menganggap pencarian Google, terutama dengan udm=14 untuk menonaktifkan ringkasan AI, tetap pengalaman yang cukup baik. Misalnya untuk pertanyaan terkait Britannica dan Wikipedia, saya bisa mendapat hasil dari Google dan Wikipedia masing-masing dalam 1–2 detik, lalu dalam sekitar 60 detik sudah bisa menemukan sendiri hal yang saya cari. Sebaliknya, ChatGPT butuh sekitar 3 menit terlepas dari pemrosesannya, dan saya masih harus memeriksa hasilnya sendiri serta mengecek apakah ada halusinasi. Jadi pada akhirnya, walaupun mengesankan bahwa LLM bisa melakukan tugas X, saya merasa proses mencari sendiri lalu merangkum sendiri jauh lebih efisien
- Berdasarkan pengalaman terbaru saya, pandangan saya agak berbeda. Kalau Google AI Overview tidak dimatikan, memang pengalamannya jelas memburuk. Misalnya saat mencari repo GitHub, Google gagal menemukan halaman yang sebenarnya dan hanya memberi tautan yang melenceng. GPT memang lambat, tetapi menurut saya ada kelebihan tergantung cakupan risetnya. Untuk topik yang mendalam seperti pergerakan unit StarCraft2, enak bisa langsung meminta ringkasan/penjelasan/sumber kode sekaligus lewat GPT. Saya juga merasa cukup mampu menyaring kesalahannya sendiri. Ke depannya, saya rasa semua penelusuran internet akan dibantu asisten berbasis LLM
- Saat saya mencari "Rubber bouncy at Heathrow removal" di Google, saya mendapat 3 hasil tautan, sedangkan ChatGPT tampaknya sempat berhalusinasi dalam penyajian buktinya. Untuk pencarian gambar balik atau mencari harga Starbucks Pop pun, saya merasa mencari langsung sendiri lebih efektif. Meski begitu, orang-orang tetap menyukai ChatGPT karena praktis: informasi web dijawab sekaligus dalam satu respons. Walaupun kadang ada halusinasi, tampaknya banyak orang rela menerima biaya itu. Dulu orang juga lebih percaya perpustakaan daripada Wikipedia, jadi evolusi LLM mungkin saja menjadi pergeseran paradigma baru
- Saran saya, saat bereksperimen dengan Google, cobalah memakai contoh yang paling sulit dijawab
- Saya menanyakan pertanyaan sederhana ke GPT-5 mode Auto, dan dalam 2 detik ia mulai menjawab sambil memberi 2 tautan yang akurat dengan kecepatan baca yang nyaman. Di mode Think memang butuh sekitar 2 menit, tetapi ia membandingkan beragam sumber dan memberi dasar pada setiap ringkasan. Saya benar-benar banyak memanfaatkan GPT untuk informasi pemerintah daerah yang sulit ditemukan, analisis PR open source yang rumit, dan sejenisnya. Rasanya sangat berguna karena menggantikan kerja melelahkan membaca banyak usulan sendiri
- Jika orang nantinya tidak lagi mengunjungi web secara langsung dan hanya berinteraksi dengan agen, saya penasaran seperti apa bentuk web akan berubah. Ini akan jadi masa perubahan yang menarik
Saya dulu sering memakai sub Reddit "Tip of My Tongue" untuk mencari informasi lama yang masih saya ingat, meski tidak semuanya berhasil terpecahkan. Dengan fitur Deep Research, saya bisa menyelesaikan 4 isu yang sebelumnya buntu hanya dalam 1 jam, dan untuk yang kelima saya jadi bisa menemukan petunjuk sendiri. Meski masih kurang dalam penalaran logis, kemampuannya mencerna puluhan hasil pencarian dengan cepat dan menarik informasi relevan hanya dari deskripsi yang longgar itu benar-benar kuat. Sekarang saya bisa mendapatkan kekuatan pencarian semacam ini dalam hitungan menit tanpa harus memikirkan bot spam Reddit atau pengguna yang melanggar aturan
- Dalam pencarian informasi ada perbedaan antara tautan dokumen tradisional dan konten generatif berbasis hasil pencarian, dan konten generatif ini memang sangat berguna dan mengagumkan. Tapi saya juga jadi terus ingat bahwa hasil seperti ini sering bisa salah. Kalau respons bisa diberi level confidence, rasanya itu juga akan bermakna dari sisi model bisnis
Saya juga merasa ChatGPT unggul dalam riset, tetapi sesekali ada kasus patologis ketika ia memberi jawaban yang dangkal dan berpotensi salah. Bahkan ketika sumber primer yang objektif tersedia secara online pun ia bisa keliru, jadi saya bagikan blog terkait
- Menurut saya, kasus yang kamu jelaskan sebenarnya berbeda. Pendapatmu berbeda dari makalah-makalah yang ada, lalu kamu merangkumnya dalam blog agar ChatGPT mau menerima sudut pandangmu. Rasanya ada keterbatasan untuk disebut penilaian yang objektif
- Belakangan ini saya merasa ChatGPT jadi tidak stabil. Dalam lebih dari separuh jawaban, ia mengarang dasar, lupa konteks, atau memang salah. Di Aistudio, bahkan jika diberi lebih dari 300 ribu token, Gemini/Aistudio tetap cukup baik menjaga konteks, sedangkan ChatGPT terasa lemah ketika informasi yang diberikan sangat banyak
- Saya juga sering mengalami hal serupa. Kalau diganti ke GPT5 Thinking memang agak membaik, tetapi tetap terasa ada kecenderungan melewatkan sesuatu dibanding o3 atau o1. Misalnya saya pernah bertanya ke GPT5 tentang episode pemandian air panas dalam novel Bocchan, dan ia memberi penjelasan yang agak keliru. Di novel aslinya, tokoh utama berenang di pemandian lalu dipermalukan setelahnya oleh papan larangan, tetapi GPT5 malah hanya fokus pada penjelasan aturan
- Menurut saya tulisanmu menarik dan layak didiskusikan. Jujur saya rasa GPT seharusnya bisa memberi jawaban yang lebih baik, tetapi diskusi tentang di titik mana riset harus dihentikan juga bermakna. Biasanya kalau semua sumber yang kurang tepercaya ikut diterima, perdebatan tidak akan pernah selesai. Pada akhirnya, berhenti pada kesimpulan yang diterima luas tampak seperti trade-off yang masuk akal
Dulu model “heavy” seperti membawa pengetahuan setingkat ensiklopedia di dalamnya, sementara model “lighter” yang lebih baru terasa bergantung pada pencarian web dan hanya menyampaikan informasi dangkal. Saya merindukan kelebihan model yang mengingat begitu banyak dokumen offline
- Saya justru kebalikannya. Pengetahuan bawaan model bisa saja halusinasi, jadi tetap perlu riset verifikasi terpisah. Sebaliknya, kalau LLM sudah melakukan pencarian dan peringkasan lebih dulu, saya tinggal memeriksa sumbernya sehingga jauh lebih praktis. Kagi Assistant cukup bagus menjalankan peran ini
- Saya lama memakai model dengan pencarian dimatikan, tetapi belakangan saya menambahkan mode penggunaan pencarian web/pengetahuan internal ke instruksi kustom. Jika memasukkan xz maka pakai pencarian web, kalau xx berarti hanya pakai pengetahuan internal. Pengaturan ini bisa diganti bebas dalam satu sesi
- Model tanpa pencarian itu berat, sedangkan model berbasis pencarian lebih ringan tetapi bergantung pada data nyata yang terbaru. Saya sempat bolak-balik memakai keduanya, tetapi belakangan lebih suka model ringan berbasis sumber
- Pengetahuan yang sesungguhnya disimpan di luar. Itulah sebabnya perpustakaan penting di universitas. Agen juga tidak cukup jika hanya mengandalkan ingatan
- Saya juga agak merasakan hal itu. Akan menarik jika model pencarian web ringan menyediakan tampilan yang membedakan, untuk tiap halaman, antara informasi yang sudah disebut sebelumnya dan informasi baru, serta bukti yang diklaim pada tiap halaman dan ketidakcocokannya
Penulis memproses “jumlah pekerjaan yang tidak masuk akal” untuk menemukan jawaban di internet, dan saya heran ia tampak begitu antusias menerima pemborosan sumber daya komputasi seperti itu. Apakah memang itu tujuannya, dan apakah “wild goose chase” yang menghabiskan sumber daya besar demi jawaban yang pasti benar memang layak dibenarkan
- Secara historis pun banyak orang menghabiskan seumur hidup dalam pencarian yang sia-sia. Newton dan Einstein juga begitu, bahkan para jenius pun tidak terkecuali
ChatGPT benar-benar mengagumkan, tetapi saya rasa guru SMA dan profesor universitas akan kesulitan karena penggunaan alat seperti ini. Misalnya jika ada tugas “selidiki sedalam mungkin dan cari sebanyak mungkin bukti bahwa The Lord of the Rings dipengaruhi oleh Gormenghast”, para siswa pasti otomatis memakai deep research contoh yang dibagikan
- Saya penasaran apakah kamu benar-benar memverifikasi faktanya sendiri dan mengklik semua tautan untuk memeriksa sumbernya. Saya juga pernah membanggakan bahwa ChatGPT “menyelesaikan” sesuatu, padahal ternyata hanya informasi Wikipedia dan malah salah
- Siswa yang curang di sekolah kebanyakan malas dan tidak peduli status, jadi mereka tidak tertarik pada tugas berkualitas tinggi. Tidak ada alasan bagi mereka memakai mode Thinking yang memakan waktu
- Saya merasa lucu melihat jawaban ChatGPT memakai istilah baru seperti ‘steel-man’
- Di workshop untuk guru, saya terpikir ide untuk mengajarkan metode bertanya ala Socrates dan membantu anak-anak menyusun argumen sendiri dari informasi yang mereka peroleh lewat Google/ChatGPT. Pendekatannya adalah membiarkan mereka mengungkapkan langsung pengetahuan yang diperkuat oleh riset LLM sambil menata tingkat pemahaman mereka saat ini
Respons seperti ini sebenarnya adalah pertanyaan yang bisa diselesaikan dalam hitungan detik jika dimasukkan ke Brave search, tetapi LLM kadang memakan waktu sangat lama sampai mengejutkan
- Saya suka Brave, tetapi hasil pencariannya kurang bagus. Fitur AI-nya juga lumayan, tetapi hampir tidak pernah memberi hasil nyata yang saya inginkan
- Sekarang ini terlalu banyak situs berkualitas rendah hasil optimasi SEO yang menumpuk seperti tembok, jadi saya tidak mudah diyakinkan begitu saja
- Dengan Chat+Search, ada kelebihan berupa bisa langsung mendapat jawaban tanpa khawatir soal iklan, klik, content farm, atau malware
Saya bingung ini sebenarnya fitur ChatGPT yang mana, antara “Web Search”, “Deep Research”, atau “Agent Mode”. Susunan fiturnya memang cukup menarik
- Bukan Deep Search atau Agent Mode. Saya memilih “GPT-5 Thinking” dan hanya mengaktifkan tool pencarian biasa
- Dalam pengalaman saya, hasilnya lebih mirip “mencari di Reddit lalu menambahkan komentar di atasnya”
- Jangan lupa “ChatGPT 5 Pro” juga. Itu agak berbeda dari Deep Research
- Menurut saya ini cuma mode default. Bahkan tanpa menyalakan opsi pencarian web secara khusus pun ia mencari otomatis. Saya penasaran kenapa masih ada opsi terpisah
- Firasa saya, setidaknya ini mode ChatGPT 5 Thinking dengan pencarian web diaktifkan pada level profil. Jika ada informasi terbaru atau permintaan riset, ChatGPT cenderung berpikir lebih dalam sambil melakukan penyelidikan
Saya penasaran dengan pendapatan podcast yang saya dengarkan. Dua komedian dari Phoenix memulainya tanpa pengikut, dan sekarang sudah masuk peringkat atas chart Apple. Dulu saya pernah mencoba mencari tahu tetapi tidak ada jawaban yang jelas, lalu GPT-5 melakukan riset “secara berlebihan”, menyilangverifikasi berbagai sumber, dan memberi saya kisaran yang cukup dapat dipercaya
- Jadi berapa kisarannya
- Belakangan ini GPT tampaknya juga makin menghasilkan jawaban yang bertele-tele. Google Gemini kadang mengeluarkan makalah yang tidak perlu, dan ChatGPT juga cenderung memberi laporan panjang alih-alih jawaban informatif yang ringkas. Mungkin karena orang lebih mempercayai respons panjang berbentuk laporan seperti ini. Selain itu, walaupun dasar rinci atau angka sudah diberikan, ada jawaban yang mudah diverifikasi dan ada yang sulit. Saya khawatir keterampilan riset saya justru menurun kalau terlalu sering memakai LLM. Dan dari percobaan saya dengan MCP, rasanya ia menghabiskan sumber daya yang benar-benar berlebihan. Deep research seperti ini tampaknya disediakan OpenAI dengan harga murah sambil menanggung rugi, jadi kalau nanti kenaikan harganya besar, ketergantungan terhadapnya sendiri bisa jadi berisiko

Penalaran GPT-5 ChatGPT (Research Goblin) sangat kuat untuk pencarian

Penalaran GPT-5 (Research Goblin) dan inovasi pencarian

Paradigma pencarian yang berubah

Contoh pencarian nyata dan hasilnya

Travelator yang menarik

Identifikasi bangunan

Investigasi cake pop Starbucks UK

Hubungan Wikipedia dan Britannica

Nama resmi University of Cambridge

Riwayat gua dan restoran di Exeter Quay

Perbandingan Aldi dan Lidl

Pemindaian buku oleh laboratorium AI

Keunggulan nyata pencarian GPT-5

Makna dari sudut pandang pengembangan LLM

Tips memanfaatkan pencarian secara efektif

Bacaan terkait

1 komentar

Komentar Hacker News