GPT-5: Terlambat, Terdorong Berlebihan, dan Mengecewakan—Serta Masalah yang Lebih Serius
(garymarcus.substack.com)- Berbeda dari harapan publik, setelah peluncuran nyata, kekecewaan komunitas terhadap GPT-5 meningkat tajam
- GPT-5 pada dasarnya tidak memiliki perbedaan yang besar dibanding model-model sebelumnya, dan pada beberapa benchmark bahkan performanya justru memburuk
- Penelitian terbaru menunjukkan bahwa batas generalisasi dan masalah pergeseran distribusi pada model bahasa besar (LLM) tetap sangat serius
- Karena hilangnya kepemimpinan teknologi OpenAI, kepergian talenta kunci, dan para pesaing yang mengejar, kelangsungan nilai perusahaan menjadi tidak jelas
- Skeptisisme terhadap klaim realisasi AGI makin meningkat, dan di industri makin menyebar kesadaran akan keterbatasan pendekatan ‘scaling murni’
Peluncuran GPT-5 dan Ekspektasi
- Akhirnya terjadi akhirnya OpenAI merilis GPT-5, yang telah lama diprediksi sebelumnya
- CEO Sam Altman memanfaatkan pernyataan yang penuh percaya diri dan citra pemasaran secara intens sebelum dan sesudah peluncuran
- Namun setelah peluncuran GPT-5, mayoritas komunitas didominasi oleh kekecewaan, kecuali beberapa influencer
- Pengguna merasa sangat kecewa terhadap model baru, bahkan terjadi fenomena petisi yang berhasil meminta kembalinya versi lama
- Berbeda dengan pemasaran dan klaim Altman, ulasan nyata setelah digunakan secara nyata cenderung berbalik ke penilaian negatif
Reaksi Komunitas dan Media
- Di komunitas OpenAI Reddit, Hacker News, dan beberapa komunitas lain, poin-poin masalah GPT-5 seperti error dan halusinasi diangkat secara intens
- Dalam benchmark performa utama, GPT-5 bahkan juga menunjukkan posisi di bawah model pesaing seperti Grok 4
- Fitur baru seperti perutean otomatis (auto routing) juga memperlihatkan kekacauan dan kekurangan
- Saat ekspektasi komunitas melonjak tajam, GPT-5 justru menyisakan kekecewaan besar
- Dalam survei Polymarket pada hari peluncuran, kepercayaan terhadap kepemimpinan AI OpenAI anjlok dari 75% menjadi 14% dalam waktu 1 jam
Batasan Struktural: Catur, Pemahaman Visual, dan Masalah Penalaran
- Penulis dan beberapa ahli telah menunjukkan bahwa kesalahan penalaran mendasar dan kegagalan mematuhi aturan catur**** masih terus ada
- Di bidang seperti pembuatan gambar, keterbatasan yang jelas muncul pada hubungan bagian-keseluruhan dan konsistensi visual
- GPT-5 melakukan kesalahan bahkan pada kasus yang tidak akan membuat salah seorang lulusan doktor teknik mesin maupun orang awam melakukan kekeliruan
- Kasus kesalahan banyak juga dilaporkan dalam tugas dasar seperti ringkasan dan pemahaman bacaan
- GPT-5 adalah model perbaikan bertahap yang layak, tetapi tidak terlihat ada inovasi yang mencolok dibanding tahun lalu
Kondisi Saat Ini dan Prospek OpenAI
- GPT-5 berhenti pada level perbaikan bertahap dibanding pendahulunya, sementara kekurangan kritis tetap berulang
- Di pasar dan industri, kepercayaan terhadap kepemimpinan teknologi OpenAI menurun
- Beberapa talenta kunci telah pergi untuk mendirikan pesaing atau beralih, dan Anthropic, Google, Elon Musk mengejar dengan cepat
- Tekanan pemangkasan harga, isu profitabilitas, dan memburuknya hubungan dengan Microsoft membuat risiko struktural membesar
- Kecurigaan terhadap kemungkinan AGI berbasis LLM semakin dalam bersamaan dengan menurunnya kepercayaan pada CEO Sam Altman
Batasan Dasar LLM: Masalah Generalisasi dan Pergeseran Distribusi
- Dalam makalah terbaru dari Arizona State University, terkonfirmasi bahwa penalaran Chain of Thought pun runtuh saat keluar dari distribusi pelatihan
- Struktur yang rentan terhadap pergeseran distribusi (distribution shift) yang sudah diindikasikan oleh Apple dan produsen lain juga ditemukan secara serupa pada model-model terbaru
- Ini menunjukkan bahwa ini adalah penyebab dasar mengapa LLM terus berbenturan dengan batas kualitas, dan tidak dapat diatasi hanya dengan skala parameter yang besar
- Strategi scaling bernilai miliaran dolar terbukti gagal mengatasi masalah yang bersifat fundamental
- Kesadaran bahwa paradigma baru perlu dicari semakin berkembang
Seluruh Industri AI dan Batasan ‘Scaling’
- Pemasaran yang dilebih-lebihkan terkait AGI, otomatisasi berkendara, dan garis waktu yang berlebihan menyebar luas
- Distorsi metrik kinerja, evaluasi berjenis kotak hitam, dan kurangnya transparansi sangat serius
- Banyak orang mulai menyadari bahwa istilah AGI berfungsi sebagai alat untuk menipu investor dan publik
- Optimisme terhadap AI dan dorongan untuk meningkatnya kecepatan pengembangan sama-sama meningkat
- Realitas saat ini adalah pendekatan scaling murni bentrok dengan jalan buntu
Alternatif dan Kesimpulan
- GPT-5 memang bisa menjadi lebih murah, tetapi batasan kualitas pada catur, penalaran, kemampuan visual, dan matematika tetap bertahan
- Model pesaing seperti Grok, Claude, dan Gemini juga mengulangi masalah serupa
- Masalah pergeseran distribusi (distribution shift) tetap belum terpecahkan
- Muncul klaim bahwa kini dibutuhkan pendekatan baru, termasuk neurosymbolic AI serta metode berbasis world model
- Ditekankan bahwa untuk merealisasikan AGI, dibutuhkan inovasi algoritmik yang kompleks, bukan sekadar scaling murni
Prediksi Isu Lanjutan dan Catatan Penutup
- Indikasi bahwa di luar keterbatasan LLM yang ditemukan pekan ini, akan ada isu ilmiah serius lainnya yang terungkap
- Akan ada konten terpisah yang dibagikan dalam postingan lanjutan berikutnya
Ringkasan
- Diskusi luas terjadi seputar ekspektasi dan respons industri serta komunitas menjelang dan setelah peluncuran GPT-5, batas struktural LLM, masa depan OpenAI, dan realitas kerangka AGI
- Seluruh isi menyajikan implikasi penting bagi praktisi startup dan TI terkait LLM, keterbatasan nyata GPT-5, harapan-kekecewaan investasi AI, isu inovasi, serta tren penelitian
5 komentar
Ini sepertinya terlalu pesimis.
Kekhawatiran itu bisa dipahami, tetapi proses perkembangan teknologi tidak harus selalu naik terus-menerus.
Sialnya, orang yang menulis postingan itu adalah Gary Marcus yang selalu membeberkan omong kosong, jadi...
Kalau aja seperti Google yang cuma tenang diam-diam melakukan show&prove, mungkin gak bakal seberat ini. Akhir-akhir ini cuma iseng banget: ada yang bilang ini terlalu menakutkan, itu Death Star, sampai katanya mirip bikin bom nuklir—jadi kelamaan kita menumpuk 'hype' saja. Mungkin ini balasan yang tepat dari kita sendiri karena udah kebanyakan 'hype' berlebih.
Dan saat mempresentasikan benchmark pada saat peluncuran, kesalahan yang benar-benar konyol yang mereka buat juga tampaknya turut berkontribusi membuat kesan secara keseluruhan menjadi buruk.
Komentar Hacker News
Saya masih menganggap GPT-5 pada dasarnya strategi penghematan biaya, karena ini adalah perusahaan yang berorientasi pertumbuhan yang ingin merekrut hingga 1 miliar pengguna untuk produk yang membutuhkan GPU.
Menurut saya, saya tidak punya kesan GPT-5 Pro jauh lebih baik dari o3-pro (bahkan mungkin tidak), justru jauh lebih lambat dan kualitas outputnya serupa.
Saya cek jaringan saya dan tidak ada satu pun yang memakai GPT-5 Pro.
Saya setuju dengan pendapat ini, tapi saya juga melihat niat untuk merilis model yang lebih baik ke publik.
Menurut saya, Pro model tidak bisa dipakai lewat API, benar?
Saya setuju.
Saya memang sering merasa kesal dengan artikel sejenis ini.
Sepertinya artikel AI pada dasarnya kurang rasa ingin tahu dan cenderung lebih fokus pada olok-olok atau merendahkan.
Gary Marcus memang selalu memberi analisis yang dangkal.
Gary Marcus hampir selalu menegaskan bahwa AI sebenarnya tidak berfungsi; ketika dia benar biasanya hampir kebetulan.
Ini adalah posting blog tentang apakah GPT-5 memenuhi overhype dan bagaimana reaksinya.
Saya rasa memang fakta bahwa makin susah menemukan opini yang benar sudah menjadi masalah nyata.
Berdasarkan pengalaman saya, upgrade ini merupakan downgrade besar buat pengguna Plus.
Projects juga kelihatan rusak.
Terlihat sengaja mengarah ke paket gratis, atau menaruh iklan mulai awal tahun depan, atau mendorong ke paket $200.
Hallusinasi (informasi salah) sangat parah.
Komunitas AI butuh lebih banyak ahli independen seperti Marcus.
Dalam arus hype, suara kritis sangat diperlukan.
Saya sangat menentangnya.
Saya tidak mengaitkan sebagian besar keterbatasan AI atau persepsi salah ini dengan Marcus.
Yang paling dibutuhkan GPT sekarang adalah kemampuan untuk berkata, “kalau saya tidak tahu, katakan saya tidak tahu”.
Jangan menganggap ChatGPT tahu apa yang sebenarnya diketahui.
Betul.
Sebenarnya ia tidak “mengetahui” apa pun.
Saya setuju bahwa “berkata tidak tahu kalau tidak tahu” adalah kebutuhan paling penting.
Perbaikan seperti ini memang sedang dilakukan, dan disebut juga dalam dokumen resmi OpenAI.
Saya merasa obsesinya untuk “selalu tepat” membuat fakta yang benar ikut buram.
Sistem neuro-symbolic Aloe mengungguli skor benchmark GAIA deep research milik OpenAI dengan selisih 20 poin.
Di GPT-5 muncul masalah unik yang tidak ada di GPT-4.
Dalam thread percakapan, konteks tiba-tiba putus atau tidak dapat menangkap pertanyaan berikutnya dengan benar.
Seolah ada proses pembersihan konteks yang masuk, terasa seperti percakapan tidak diringkas dulu sebelum pindah.
Kalau begitu, konteks yang benar-benar bisa dipakai bisa jadi jauh lebih kecil, dan gejala ini sering muncul.
Kalau diminta “ulangi dan tinjau konteks percakapan terakhir”, hasilnya agak membaik.
Dalam kasus saya, jawabannya terasa jauh lebih pendek.
“Orang-orang mulai berharap keajaiban, tetapi GPT-5 hanyalah kemajuan inkremental terbaru.”
Sekarang data pelatihan sudah tidak tersisa.
Dari penelitian sebelumnya, kesimpulannya adalah bahwa menggabungkan data nyata yang sengaja ditanam dengan data sintetis menjadi bagian besar efektif untuk melatih frontier LLM.
Saya pernah mengucapkan ini dua tahun lalu di sini.
Apakah ini berarti GPT‑5 sudah mempelajari semua data video di seluruh dunia?
Bukankah data pelatihan baru justru diciptakan setiap hari?
Meskipun OpenAI membuat model terbaik sekalipun, sekadar memberi nama ‘GPT‑5’ membuat komunitas dan OpenAI sendiri sudah menumpuk hype hingga seolah-olah kegagalan sudah ditetapkan.
Fakta bahwa Sam Altman sendiri berperan menciptakan dan mendorong harapan seperti itu juga.