GPT-5: Terlambat, Terdorong Berlebihan, dan Mengecewakan—Serta Masalah yang Lebih Serius

(garymarcus.substack.com)

6 poin oleh GN⁺ 2025-08-11 | 5 komentar | Bagikan ke WhatsApp

Berbeda dari harapan publik, setelah peluncuran nyata, kekecewaan komunitas terhadap GPT-5 meningkat tajam
GPT-5 pada dasarnya tidak memiliki perbedaan yang besar dibanding model-model sebelumnya, dan pada beberapa benchmark bahkan performanya justru memburuk
Penelitian terbaru menunjukkan bahwa batas generalisasi dan masalah pergeseran distribusi pada model bahasa besar (LLM) tetap sangat serius
Karena hilangnya kepemimpinan teknologi OpenAI, kepergian talenta kunci, dan para pesaing yang mengejar, kelangsungan nilai perusahaan menjadi tidak jelas
Skeptisisme terhadap klaim realisasi AGI makin meningkat, dan di industri makin menyebar kesadaran akan keterbatasan pendekatan ‘scaling murni’

Peluncuran GPT-5 dan Ekspektasi

Akhirnya terjadi akhirnya OpenAI merilis GPT-5, yang telah lama diprediksi sebelumnya
CEO Sam Altman memanfaatkan pernyataan yang penuh percaya diri dan citra pemasaran secara intens sebelum dan sesudah peluncuran
Namun setelah peluncuran GPT-5, mayoritas komunitas didominasi oleh kekecewaan, kecuali beberapa influencer
Pengguna merasa sangat kecewa terhadap model baru, bahkan terjadi fenomena petisi yang berhasil meminta kembalinya versi lama
Berbeda dengan pemasaran dan klaim Altman, ulasan nyata setelah digunakan secara nyata cenderung berbalik ke penilaian negatif

Reaksi Komunitas dan Media

Di komunitas OpenAI Reddit, Hacker News, dan beberapa komunitas lain, poin-poin masalah GPT-5 seperti error dan halusinasi diangkat secara intens
Dalam benchmark performa utama, GPT-5 bahkan juga menunjukkan posisi di bawah model pesaing seperti Grok 4
Fitur baru seperti perutean otomatis (auto routing) juga memperlihatkan kekacauan dan kekurangan
Saat ekspektasi komunitas melonjak tajam, GPT-5 justru menyisakan kekecewaan besar
Dalam survei Polymarket pada hari peluncuran, kepercayaan terhadap kepemimpinan AI OpenAI anjlok dari 75% menjadi 14% dalam waktu 1 jam

Batasan Struktural: Catur, Pemahaman Visual, dan Masalah Penalaran

Penulis dan beberapa ahli telah menunjukkan bahwa kesalahan penalaran mendasar dan kegagalan mematuhi aturan catur**** masih terus ada
Di bidang seperti pembuatan gambar, keterbatasan yang jelas muncul pada hubungan bagian-keseluruhan dan konsistensi visual
GPT-5 melakukan kesalahan bahkan pada kasus yang tidak akan membuat salah seorang lulusan doktor teknik mesin maupun orang awam melakukan kekeliruan
Kasus kesalahan banyak juga dilaporkan dalam tugas dasar seperti ringkasan dan pemahaman bacaan
GPT-5 adalah model perbaikan bertahap yang layak, tetapi tidak terlihat ada inovasi yang mencolok dibanding tahun lalu

Kondisi Saat Ini dan Prospek OpenAI

GPT-5 berhenti pada level perbaikan bertahap dibanding pendahulunya, sementara kekurangan kritis tetap berulang
Di pasar dan industri, kepercayaan terhadap kepemimpinan teknologi OpenAI menurun
Beberapa talenta kunci telah pergi untuk mendirikan pesaing atau beralih, dan Anthropic, Google, Elon Musk mengejar dengan cepat
Tekanan pemangkasan harga, isu profitabilitas, dan memburuknya hubungan dengan Microsoft membuat risiko struktural membesar
Kecurigaan terhadap kemungkinan AGI berbasis LLM semakin dalam bersamaan dengan menurunnya kepercayaan pada CEO Sam Altman

Batasan Dasar LLM: Masalah Generalisasi dan Pergeseran Distribusi

Dalam makalah terbaru dari Arizona State University, terkonfirmasi bahwa penalaran Chain of Thought pun runtuh saat keluar dari distribusi pelatihan
Struktur yang rentan terhadap pergeseran distribusi (distribution shift) yang sudah diindikasikan oleh Apple dan produsen lain juga ditemukan secara serupa pada model-model terbaru
Ini menunjukkan bahwa ini adalah penyebab dasar mengapa LLM terus berbenturan dengan batas kualitas, dan tidak dapat diatasi hanya dengan skala parameter yang besar
Strategi scaling bernilai miliaran dolar terbukti gagal mengatasi masalah yang bersifat fundamental
Kesadaran bahwa paradigma baru perlu dicari semakin berkembang

Seluruh Industri AI dan Batasan ‘Scaling’

Pemasaran yang dilebih-lebihkan terkait AGI, otomatisasi berkendara, dan garis waktu yang berlebihan menyebar luas
Distorsi metrik kinerja, evaluasi berjenis kotak hitam, dan kurangnya transparansi sangat serius
Banyak orang mulai menyadari bahwa istilah AGI berfungsi sebagai alat untuk menipu investor dan publik
Optimisme terhadap AI dan dorongan untuk meningkatnya kecepatan pengembangan sama-sama meningkat
Realitas saat ini adalah pendekatan scaling murni bentrok dengan jalan buntu

Alternatif dan Kesimpulan

GPT-5 memang bisa menjadi lebih murah, tetapi batasan kualitas pada catur, penalaran, kemampuan visual, dan matematika tetap bertahan
Model pesaing seperti Grok, Claude, dan Gemini juga mengulangi masalah serupa
Masalah pergeseran distribusi (distribution shift) tetap belum terpecahkan
Muncul klaim bahwa kini dibutuhkan pendekatan baru, termasuk neurosymbolic AI serta metode berbasis world model
Ditekankan bahwa untuk merealisasikan AGI, dibutuhkan inovasi algoritmik yang kompleks, bukan sekadar scaling murni

Prediksi Isu Lanjutan dan Catatan Penutup

Indikasi bahwa di luar keterbatasan LLM yang ditemukan pekan ini, akan ada isu ilmiah serius lainnya yang terungkap
Akan ada konten terpisah yang dibagikan dalam postingan lanjutan berikutnya

Ringkasan

Diskusi luas terjadi seputar ekspektasi dan respons industri serta komunitas menjelang dan setelah peluncuran GPT-5, batas struktural LLM, masa depan OpenAI, dan realitas kerangka AGI
Seluruh isi menyajikan implikasi penting bagi praktisi startup dan TI terkait LLM, keterbatasan nyata GPT-5, harapan-kekecewaan investasi AI, isu inovasi, serta tren penelitian

5 komentar

gnsdl116 2025-08-12

Ini sepertinya terlalu pesimis.
Kekhawatiran itu bisa dipahami, tetapi proses perkembangan teknologi tidak harus selalu naik terus-menerus.

mammal 2025-08-11

Sialnya, orang yang menulis postingan itu adalah Gary Marcus yang selalu membeberkan omong kosong, jadi...

dongho42 2025-08-11

Kalau aja seperti Google yang cuma tenang diam-diam melakukan show&prove, mungkin gak bakal seberat ini. Akhir-akhir ini cuma iseng banget: ada yang bilang ini terlalu menakutkan, itu Death Star, sampai katanya mirip bikin bom nuklir—jadi kelamaan kita menumpuk 'hype' saja. Mungkin ini balasan yang tepat dari kita sendiri karena udah kebanyakan 'hype' berlebih.