- Peneliti OpenAI yang mengklaim GPT-5 telah menyelesaikan masalah Erdős menarik kembali pengumumannya segera setelah mendapat kritik dari komunitas dan tokoh industri
- Pernyataan tersebut memakai ungkapan yang dapat ditafsirkan sebagai AI menemukan bukti substantif untuk salah satu tantangan matematika yang dianggap belum terpecahkan selama puluhan tahun
- Pada kenyataannya, GPT-5 hanya menunjukkan penemuan kembali penelitian yang sudah ada, dan bukan menghadirkan solusi baru untuk masalah yang benar-benar belum terselesaikan
- Kasus ini menjadi pemicu meningkatnya kekhawatiran industri tentang berkurangnya kredibilitas OpenAI dan risiko publikasi berlebihan terhadap capaian AI yang tidak terverifikasi
- Secara nyata, kekuatan GPT-5 terletak pada peran bantuan sebagai penjelajah kertas penelitian dan pengorganisir literatur
Gambaran Kasus
- Baru-baru ini seorang peneliti OpenAI mengumumkan di X (dulu Twitter) bahwa GPT-5 mencapai terobosan besar dengan menyatakan "menyelesaikan 10 masalah Erdős yang belum terpecahkan" serta kemajuan tambahan pada 11 masalah
- Klaim ini dipahami sebagai upaya bahwa GPT-5 secara mandiri menurunkan bukti untuk masalah teori bilangan yang sulit
- Beberapa peneliti OpenAI mengunggah konten serupa, mengisyaratkan bahwa AI ini dapat mewujudkan penemuan ilmiah yang inovatif
Verifikasi Komunitas dan Kontroversi
- Thomas Bloom, matematikawan pengelola situs Erdosproblems.com, langsung membantah dan menjelaskan bahwa persoalan yang ditandai sebagai "open" di situs itu sebenarnya bukanlah masalah yang belum terpecahkan
- Masalah-masalah tersebut hanyalah kasus di mana Bloom sendiri belum mengetahui jawabannya atau belum sempat memeriksa penelitian sebelumnya
- GPT-5 hanya menemukan hasil riset yang sudah ada, bukan menemukan solusi matematika baru
- Setelah fakta ini diketahui, peneliti OpenAI menghapus unggahan atau mengubah isinya
- Komunitas dan tokoh-tokoh besar, seperti Demis Hassabis, CEO DeepMind, menyebutnya sebagai "kejadian memalukan", sementara Yann LeCun dari Meta AI juga menyoroti bahwa OpenAI terlihat terbuai oleh upaya promosi internal
- Peneliti mengakui kesalahan dan menjelaskan kembali peran nyata GPT-5
Isu Kepercayaan Industri dan Kritik
- Kasus ini memperkuat penilaian bahwa OpenAI bermasalah dalam kredibilitas dan verifikasi fakta
- Terutama, karena antusiasme berlebihan di industri AI dan minat pasar terkait saham membuat kekhawatiran atas pengumuman pencapaian yang tak terverifikasi semakin besar
- Muncul pertanyaan tentang integritas internal organisasi ketika peneliti terkemuka di industri mengumumkan klaim dramatis tanpa verifikasi
Hasil Nyata dan Peran AI di Ranah Matematika
- Secara nyata, GPT-5 bermanfaat sebagai asisten yang membantu menelusuri makalah dan menata literatur untuk masalah matematika yang sulit dengan terminologi sangat beragam
- Matematikawan Terence Tao berharap AI tidak diperlakukan sebagai 'solusi atas masalah tak terselesaikan terbaru', melainkan sebagai alat yang sangat mengurangi beban pencarian literatur yang masif dan pencarian berulang
- Terdapat beberapa kasus kemajuan independen, tetapi saat ini keunggulan utamanya adalah dukungan otomasi pencarian dan pengorganisasian makalah
- Di masa depan, AI generatif berpotensi menyumbang percepatan dan otomatisasi di bidang matematika
- Namun validasi ahli, kurasi, dan integrasi hasil tetap krusial
Kesimpulan
- Peristiwa ini menampilkan secara nyata keterbatasan dan potensi industrialis dari AI generatif, sekaligus risiko publikasi berlebihan hasil penelitian AI
- Pada akhirnya, GPT-5 ditegaskan bukan sebagai terobosan revolusioner untuk masalah matematika yang tak terselesaikan, melainkan sebagai alat bantu berpotensi untuk membantu penyusunan riset
1 komentar
Komentar Hacker News
Demi adil kepada tim OpenAI, kalau melihat konteksnya, menurut saya situasinya tidak seburuk atau semalisius itu.
Tweet yang sudah dihapus itu berbunyi, "GPT-5 memecahkan 10 masalah Erdös (yang sebelumnya belum terpecahkan), dan juga membuat kemajuan pada 11 lainnya, masalah yang tidak terpecahkan selama puluhan tahun."
Kalau tweet ini diposting sendirian, saya akan menganggapnya menyesatkan, tetapi sebenarnya itu adalah quote tweet.
Sumber pertama yang dikutip (https://x.com/MarkSellke/status/1979226538059931886) berisi, "kami sedang mendorong ini lebih jauh."
Lalu di sumber kedua yang dikutip oleh tweet itu (https://x.com/SebastienBubeck/status/1977181716457701775), dijelaskan bahwa GPT-5 sangat unggul dalam pencarian literatur sehingga "sebenarnya menemukan bahwa masalah Erdos #339, yang masih diklasifikasikan sebagai masalah terbuka, telah dipecahkan 20 tahun lalu," sehingga ia "memecahkannya".
Jika membaca thread ini berurutan,
SebastienBubeck: "GPT-5 sangat hebat dalam pencarian literatur, jadi pada dasarnya ia menyelesaikan masalah yang disangka masih terbuka dengan menemukan solusi yang sebenarnya sudah ada"
MarkSellke: "sekarang sudah melakukan 10 lagi"
kevinweil: "lihat hasil keren yang kami capai!"
Pada akhirnya ini masalah format quote tweet; karena kevinweil mengutip beberapa lapis, ia melewatkan persoalan awalnya—bahwa ini sebenarnya hanya menemukan solusi yang sudah ada—dan dari sudut pandang pembaca, strukturnya memang nyaris pasti menimbulkan salah paham.
Kesalahan seperti ini cukup bisa dimengerti, dan menurut saya kontroversinya agak dibesar-besarkan.
Soal kurang mempertimbangkan konteks quote tweet yang diposting Weil, memang ada fakta bahwa Weil sendiri secara langsung menyatakan ia salah memahami postingan Sellke (bisa dilihat di https://x.com/kevinweil/status/1979270343941591525).
Sellke mengatakan "diklasifikasikan sebagai masalah terbuka", sedangkan Weil menyebutnya "masalah yang sebelumnya belum terpecahkan".
Orang pertama berkata, "ia 'memecahkan' masalah itu dengan mengetahui bahwa masalah tersebut sebenarnya sudah dipecahkan 20 tahun lalu," sementara orang kedua berkata, "ia memecahkan 10 masalah Erdös yang sebelumnya belum terpecahkan."
Menurut saya, frasa "sebelumnya belum terpecahkan" tidak sesuai dengan konteks sebenarnya.
Saya jadi bertanya-tanya apakah saya yang salah paham.
Ini mirip dengan saat beberapa bulan lalu DeepMind merilis makalah yang mengklaim “melakukan perkalian matriks lebih baik dari SOTA”.
Saat itu dikatakan Gemini menemukan solusi optimasi baru, tetapi segera setelah pengumuman, para matematikawan langsung menunjukkan bahwa metodenya sudah ada di literatur 30–40 tahun lalu, dan besar kemungkinan materi itu juga ada di data pelatihan Gemini.
Soal klaim bahwa "GPT-5 sangat hebat dalam pencarian literatur" dan "memecahkan" masalah yang sebenarnya sudah punya solusi,
menurut saya ini survivor bias.
Pada praktiknya, GPT-5 juga sering gagal bahkan pada pencarian yang relatif mudah.
Kita harus cukup tahu apakah hasil pencariannya benar, atau memverifikasinya sendiri secara langsung.
Rasanya tidak jauh beda dengan melempar dadu 1000 kali lalu membanggakan setiap kali keluar double six.
Itu tidak berarti saya adalah pelempar dadu terbaik di dunia.
Menyebut sanggahan langsung dari matematikawan Thomas Bloom, yang mengelola erdosproblems.com.
Ia menekankan bahwa yang dimaksud bukan "unsolved", melainkan "open" dalam arti "saya tidak tahu jawabannya".
Menurut saya aneh kalau matematikawan mendefinisikan 'open' seperti itu.
Saya juga tidak menyebut soal di buku teks yang saya belum tahu jawabannya sebagai 'open question'.
Menyanggah klaim bahwa "GPT-5 berguna sebagai alat bantu tinjauan literatur".
Menurut saya, yang dihasilkannya cuma keluaran yang sangat meyakinkan tetapi palsu.
Orang yang puas dengan hasil semacam itu mungkin hidupnya jauh lebih mudah daripada saya.
Saya sampai pernah berjam-jam membongkar bahan seperti makalah matematika rekayasa di perpustakaan, lalu menjadikan chatbot sebagai harapan terakhir.
Namun pada akhirnya hasilnya terasa janggal, saya habiskan banyak waktu untuk mengeceknya lagi, dan yang tersisa cuma rasa kecewa: "tidak mungkin ini benar-benar bisa begitu."
Saya juga merasa pengalaman ini bukan cuma saya yang mengalaminya.
Kalau saya cukup sering melakukan pencarian literatur mendalam, GPT menghasilkan sumber tanpa dasar (halusinasi) dengan probabilitas sekitar 50%.
Pada review tingkat tinggi, halusinasinya sekitar 5%.
Dari 50% sumber yang nyata, separuhnya adalah makalah yang sudah saya kenal, dan separuh lainnya makalah yang belum familiar.
Sisi yang benar-benar bagus adalah kadang ia menemukan makalah yang sebelumnya sulit dicari, termasuk yang tidak bisa saya temukan lewat Google Scholar dan semacamnya.
Terutama, ia bisa membawa saya ke sumber yang sangat beragam, seperti riset terkait dari bidang lain atau makalah abstrak yang jarang disitasi.
Meski 75% dari seluruh hasil tidak berguna atau halusinasi, 25% sisanya memberi nilai yang sangat besar, jadi dalam praktiknya tetap sangat berguna.
Menyimpulkan bahwa ini "sama sekali tidak berguna" sepertinya berlebihan.
GPT bisa menelusuri 500 ribu kata hanya dalam beberapa menit, lalu memberi ringkasan, jawaban rinci, dan juga bukti untuk tiap klaim.
Tentu saja ringkasannya tidak boleh dipercaya mentah-mentah, dan informasi penting wajib diverifikasi dengan membuka sumbernya.
Meski begitu, ini tetap alat pencarian yang sangat hebat dan pendorong produktivitas yang kuat.
Saya lupa namanya, tetapi ada prinsip seperti ini.
Orang membaca artikel koran tentang topik yang mereka pahami dan langsung melihat semua celahnya, sampai berpikir, "bagaimana ini bisa lolos jadi artikel?"
Tetapi untuk topik yang tidak mereka pahami, mereka justru menerimanya begitu saja tanpa kritik.
Saya merasa ada bentuk kepercayaan buta yang serupa terhadap ChatGPT.
Sebenarnya, alih-alih memaksakan chatbot seperti GPT-5 untuk pencarian/tinjauan literatur, mungkin lebih baik memakai mesin pencari semantic yang benar-benar kuat.
Begitu kita meminta chatbot merangkum atau menjawab, halusinasi akan selalu ikut masuk.
Sebaliknya, kalau memakai pencarian dokumen berbasis embedding LLM, hasil pencariannya sendiri sama sekali tidak berisiko halusinasi, dan mungkin justru menjadi cara yang lebih baik untuk menemukan makalah yang tidak bisa ditemukan Google/Bing biasa.
Kalau layanan seperti itu sebenarnya sudah ada dan cuma saya yang tidak tahu, ya itu juga perlu diperhitungkan.
Kalau ada yang tertarik dengan alat literature review, saya perkenalkan platform publik pengorganisasian literatur yang saya buat untuk teman-teman pascasarjana saya.
Caranya adalah memakai model campuran hierarkis untuk merapikan pencarian skala besar dan jaringan sitasi.
Contoh penggunaan: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all
Sangat kontras dan memberi kesan buruk bahwa isu OpenAI ini muncul pada minggu yang sama ketika DeepMind justru menunjukkan terobosan nyata dalam terapi kanker dengan bantuan AI.
Saya jadi teringat ucapan mantan atasan saya: "jangan jadi orang yang membuat kebijakan baru perlu dibuat."
Sepertinya OpenAI perlu mengubah kebijakan komunikasinya ke depan.
Saya rasa para karyawan OpenAI kemungkinan cukup paham kemampuan nyata model mereka sendiri, tetapi bahkan kalau pun tidak, tetap benar bahwa kita harus selalu berhati-hati terhadap semua klaim di internet.
Menurut saya budaya seperti inilah yang pada akhirnya menciptakan lingkungan hype AI seperti sekarang.
Yang terungkap dari insiden ini adalah kenyataan menyedihkan bahwa OpenAI tidak sungguh-sungguh berinvestasi pada masalah matematika yang belum terpecahkan.
Menurut saya itu lompatan logika.
Organisasi besar seperti OpenAI pasti memiliki berbagai tim riset di banyak divisi yang sedang bereksperimen ke banyak arah.
Begitu OpenAI menggeser fokus bisnisnya ke iklan dan konten dewasa, saya merasa mereka sudah "jump the shark".
Pasar masih belum sepenuhnya mencerminkan fakta ini.
Saya tidak akan terlalu cepat menilai keseluruhan organisasi hanya dari satu karyawan yang membuat pengumuman keliru.
Tidak aneh kalau karyawan OpenAI diminta mengumumkan hal seperti ini dengan gaya bahasa pemasaran.
Ini bukan pertama kalinya; sebelumnya juga sudah ada klaim bahwa GPT-5 "memecahkan" sesuatu (lihat https://x.com/SebastienBubeck/status/1970875019803910478).
Semakin banyak contoh bahwa GPT-5 memang bisa menyelesaikan masalah matematika minor yang belum terpecahkan—biasanya setingkat yang bisa diselesaikan mahasiswa PhD dalam satu-dua hari.
Dampaknya masih belum benar-benar dipahami secara luas.
Saya rindu nasihat, "jangan terlalu mempercayai ciptaanmu sendiri."
[Minum urin dua kali]
Ungkapan Yann LeCun, "Hoisted by their own GPTards," cukup membekas.
Yann memang cerdas dan sangat memahami akar bidang ini, tetapi saya juga merasa belakangan ada kecenderungan negatif, dan cukup banyak contoh posisi publiknya yang cepat terbukti keliru.
Dalam sebuah presentasi bersama peneliti muda sebelumnya, ia membuat dua klaim kuat.
Namun hanya dalam setahun, sekarang AI sudah benar-benar mampu menggunakan alat, meraih medali IMO, dan melakukan perencanaan berbasis agen.
Klaim lainnya adalah bahwa makin panjang percakapan dengan LLM, makin menumpuk kesalahan hingga akhirnya menghasilkan omong kosong; tetapi belakangan, kombinasi long context dan RL pada praktiknya juga banyak menunjukkan bahwa hal ini telah diatasi.
Sejenius apa pun seseorang, menurut saya pendapat individu tetap perlu disaring sedikit.
Mungkin saya melewatkan konteks, tetapi agak mengejutkan melihat Yann memakai kata turunan dari 'retard'.
Biasanya saya membayangkan bahasa seperti itu dipakai orang seperti Elon Musk.
Saya penasaran apa konteksnya.
Setelah skandal pembiayaan sirkular bernilai ratusan miliar dolar, saat membaca tulisan soal industri AI atau hype buatan, saya sudah tidak terkejut lagi oleh apa pun.