6 poin oleh GN⁺ 2025-08-11 | 5 komentar | Bagikan ke WhatsApp
  • Berbeda dari harapan publik, setelah peluncuran nyata, kekecewaan komunitas terhadap GPT-5 meningkat tajam
  • GPT-5 pada dasarnya tidak memiliki perbedaan yang besar dibanding model-model sebelumnya, dan pada beberapa benchmark bahkan performanya justru memburuk
  • Penelitian terbaru menunjukkan bahwa batas generalisasi dan masalah pergeseran distribusi pada model bahasa besar (LLM) tetap sangat serius
  • Karena hilangnya kepemimpinan teknologi OpenAI, kepergian talenta kunci, dan para pesaing yang mengejar, kelangsungan nilai perusahaan menjadi tidak jelas
  • Skeptisisme terhadap klaim realisasi AGI makin meningkat, dan di industri makin menyebar kesadaran akan keterbatasan pendekatan ‘scaling murni’

Peluncuran GPT-5 dan Ekspektasi

  • Akhirnya terjadi akhirnya OpenAI merilis GPT-5, yang telah lama diprediksi sebelumnya
  • CEO Sam Altman memanfaatkan pernyataan yang penuh percaya diri dan citra pemasaran secara intens sebelum dan sesudah peluncuran
  • Namun setelah peluncuran GPT-5, mayoritas komunitas didominasi oleh kekecewaan, kecuali beberapa influencer
  • Pengguna merasa sangat kecewa terhadap model baru, bahkan terjadi fenomena petisi yang berhasil meminta kembalinya versi lama
  • Berbeda dengan pemasaran dan klaim Altman, ulasan nyata setelah digunakan secara nyata cenderung berbalik ke penilaian negatif

Reaksi Komunitas dan Media

  • Di komunitas OpenAI Reddit, Hacker News, dan beberapa komunitas lain, poin-poin masalah GPT-5 seperti error dan halusinasi diangkat secara intens
  • Dalam benchmark performa utama, GPT-5 bahkan juga menunjukkan posisi di bawah model pesaing seperti Grok 4
  • Fitur baru seperti perutean otomatis (auto routing) juga memperlihatkan kekacauan dan kekurangan
  • Saat ekspektasi komunitas melonjak tajam, GPT-5 justru menyisakan kekecewaan besar
  • Dalam survei Polymarket pada hari peluncuran, kepercayaan terhadap kepemimpinan AI OpenAI anjlok dari 75% menjadi 14% dalam waktu 1 jam

Batasan Struktural: Catur, Pemahaman Visual, dan Masalah Penalaran

  • Penulis dan beberapa ahli telah menunjukkan bahwa kesalahan penalaran mendasar dan kegagalan mematuhi aturan catur**** masih terus ada
  • Di bidang seperti pembuatan gambar, keterbatasan yang jelas muncul pada hubungan bagian-keseluruhan dan konsistensi visual
  • GPT-5 melakukan kesalahan bahkan pada kasus yang tidak akan membuat salah seorang lulusan doktor teknik mesin maupun orang awam melakukan kekeliruan
  • Kasus kesalahan banyak juga dilaporkan dalam tugas dasar seperti ringkasan dan pemahaman bacaan
  • GPT-5 adalah model perbaikan bertahap yang layak, tetapi tidak terlihat ada inovasi yang mencolok dibanding tahun lalu

Kondisi Saat Ini dan Prospek OpenAI

  • GPT-5 berhenti pada level perbaikan bertahap dibanding pendahulunya, sementara kekurangan kritis tetap berulang
  • Di pasar dan industri, kepercayaan terhadap kepemimpinan teknologi OpenAI menurun
  • Beberapa talenta kunci telah pergi untuk mendirikan pesaing atau beralih, dan Anthropic, Google, Elon Musk mengejar dengan cepat
  • Tekanan pemangkasan harga, isu profitabilitas, dan memburuknya hubungan dengan Microsoft membuat risiko struktural membesar
  • Kecurigaan terhadap kemungkinan AGI berbasis LLM semakin dalam bersamaan dengan menurunnya kepercayaan pada CEO Sam Altman

Batasan Dasar LLM: Masalah Generalisasi dan Pergeseran Distribusi

  • Dalam makalah terbaru dari Arizona State University, terkonfirmasi bahwa penalaran Chain of Thought pun runtuh saat keluar dari distribusi pelatihan
  • Struktur yang rentan terhadap pergeseran distribusi (distribution shift) yang sudah diindikasikan oleh Apple dan produsen lain juga ditemukan secara serupa pada model-model terbaru
  • Ini menunjukkan bahwa ini adalah penyebab dasar mengapa LLM terus berbenturan dengan batas kualitas, dan tidak dapat diatasi hanya dengan skala parameter yang besar
  • Strategi scaling bernilai miliaran dolar terbukti gagal mengatasi masalah yang bersifat fundamental
  • Kesadaran bahwa paradigma baru perlu dicari semakin berkembang

Seluruh Industri AI dan Batasan ‘Scaling’

  • Pemasaran yang dilebih-lebihkan terkait AGI, otomatisasi berkendara, dan garis waktu yang berlebihan menyebar luas
  • Distorsi metrik kinerja, evaluasi berjenis kotak hitam, dan kurangnya transparansi sangat serius
  • Banyak orang mulai menyadari bahwa istilah AGI berfungsi sebagai alat untuk menipu investor dan publik
  • Optimisme terhadap AI dan dorongan untuk meningkatnya kecepatan pengembangan sama-sama meningkat
  • Realitas saat ini adalah pendekatan scaling murni bentrok dengan jalan buntu

Alternatif dan Kesimpulan

  • GPT-5 memang bisa menjadi lebih murah, tetapi batasan kualitas pada catur, penalaran, kemampuan visual, dan matematika tetap bertahan
  • Model pesaing seperti Grok, Claude, dan Gemini juga mengulangi masalah serupa
  • Masalah pergeseran distribusi (distribution shift) tetap belum terpecahkan
  • Muncul klaim bahwa kini dibutuhkan pendekatan baru, termasuk neurosymbolic AI serta metode berbasis world model
  • Ditekankan bahwa untuk merealisasikan AGI, dibutuhkan inovasi algoritmik yang kompleks, bukan sekadar scaling murni

Prediksi Isu Lanjutan dan Catatan Penutup

  • Indikasi bahwa di luar keterbatasan LLM yang ditemukan pekan ini, akan ada isu ilmiah serius lainnya yang terungkap
  • Akan ada konten terpisah yang dibagikan dalam postingan lanjutan berikutnya

Ringkasan

  • Diskusi luas terjadi seputar ekspektasi dan respons industri serta komunitas menjelang dan setelah peluncuran GPT-5, batas struktural LLM, masa depan OpenAI, dan realitas kerangka AGI
  • Seluruh isi menyajikan implikasi penting bagi praktisi startup dan TI terkait LLM, keterbatasan nyata GPT-5, harapan-kekecewaan investasi AI, isu inovasi, serta tren penelitian

5 komentar

 
gnsdl116 2025-08-12

Ini sepertinya terlalu pesimis.
Kekhawatiran itu bisa dipahami, tetapi proses perkembangan teknologi tidak harus selalu naik terus-menerus.

 
mammal 2025-08-11

Sialnya, orang yang menulis postingan itu adalah Gary Marcus yang selalu membeberkan omong kosong, jadi...

 
dongho42 2025-08-11

Kalau aja seperti Google yang cuma tenang diam-diam melakukan show&prove, mungkin gak bakal seberat ini. Akhir-akhir ini cuma iseng banget: ada yang bilang ini terlalu menakutkan, itu Death Star, sampai katanya mirip bikin bom nuklir—jadi kelamaan kita menumpuk 'hype' saja. Mungkin ini balasan yang tepat dari kita sendiri karena udah kebanyakan 'hype' berlebih.

 
dongho42 2025-08-11

Dan saat mempresentasikan benchmark pada saat peluncuran, kesalahan yang benar-benar konyol yang mereka buat juga tampaknya turut berkontribusi membuat kesan secara keseluruhan menjadi buruk.

 
GN⁺ 2025-08-11
Komentar Hacker News
  • Saya masih menganggap GPT-5 pada dasarnya strategi penghematan biaya, karena ini adalah perusahaan yang berorientasi pertumbuhan yang ingin merekrut hingga 1 miliar pengguna untuk produk yang membutuhkan GPU.

    • Tidak ada yang membahas GPT-5 Pro, tapi saya sudah mengujinya sendiri dan performanya jauh lebih unggul daripada Grok 4 Heavy dan Opus 4.1.
    • Ini benar-benar teknologi terbaru, dan jika menjalankan model pada performa puncaknya, biayanya bisa mencapai ribuan dolar per bulan per orang.
    • Jadi sebenarnya dibatasi penggunaannya; OpenAI bukan menarget segmen pasar ini, melainkan berstrategi mengejar pertumbuhan untuk bersaing dengan Google.
    • Karena model Pro tidak pernah disebut, saya sama sekali tidak percaya opini orang ini.
  • Menurut saya, saya tidak punya kesan GPT-5 Pro jauh lebih baik dari o3-pro (bahkan mungkin tidak), justru jauh lebih lambat dan kualitas outputnya serupa.

    • Masih sering konyol dan melewatkan poin inti.
    • Namun pada pendekatan pemecahan masalah yang baru, terlihat sedikit lebih baik.
    • Kesan pertama saya: 5-pro lebih kaya pengetahuan 0-2% dari o3-pro, dan kreativitas maupun orisinalitasnya sekitar 5-10% lebih tinggi.
    • “Nada” atau kepribadian model ini benar-benar sama.
    • Pada tugas tertentu (logika formal, analisis data, tugas analitis pendek), performanya super manusiawi dan unggul dibanding versi apa pun dari Grok atau Gemini.
    • Namun untuk menulis prosa atau penulisan umum, jelas kalah dari Kimi K2 dan Deepseek R1.
    • Yang mengejutkan adalah model penulis prosa bahasa Inggris terbaik justru buatan pihak Tiongkok; bukan sekadar karena tidak memakai “gaya AI” GPT, tapi level Kimi sebanding dengan penyair yang benar-benar diterbitkan.
  • Saya cek jaringan saya dan tidak ada satu pun yang memakai GPT-5 Pro.

    • Saya benar-benar penasaran dengan feedback perbandingan terhadap o3.
  • Saya setuju dengan pendapat ini, tapi saya juga melihat niat untuk merilis model yang lebih baik ke publik.

    • o3 sangat bagus, tetapi banyak orang tetap belum menggunakannya.
    • Kalau saya tanya teman yang pakai ChatGPT setiap hari apakah sudah pakai o3, ekspresinya ngelamun.
    • Jadi saya pikir tujuannya juga mempopulerkan model reasoning, ini memang faktor peningkatan biaya OpenAI.
    • Tapi karena layer routing, dari sisi power user (sebagian besar pengguna HN) ada juga sisi penghematan biaya.
    • Namun power user akan cepat belajar cara memaksa penggunaan reasoning model.
  • Menurut saya, Pro model tidak bisa dipakai lewat API, benar?

    • Saya penasaran apakah bisa dipakai lewat integrasi langganan via Codex CLI.
  • Saya setuju.

    • Alasan lain di balik keputusan ini adalah kebanyakan pengguna memang sudah cukup dengan model lama.
    • Berbeda dengan pengguna HN, pengguna umum tidak terlalu tertarik pada teknologi terbaru.
  • Saya memang sering merasa kesal dengan artikel sejenis ini.

    • Daripada menulis analisis sendiri soal kenapa mereka menganggap GPT-5 jelek, orang hanya mengumpulkan reaksi media sosial dan memaksa opini pribadinya dengan memperbesar setiap kritik jadi “mengerikan” atau “serbuan liar”.
    • Ini terlalu berat sebelah, bukan jurnalisme, dan bukan analisis asli.
  • Sepertinya artikel AI pada dasarnya kurang rasa ingin tahu dan cenderung lebih fokus pada olok-olok atau merendahkan.

    • Saya suka AI, dan kalau ada tulisan serius dari orang dengan sudut pandang berbeda, saya akan bacanya.
    • Tapi jenis tulisan ini berbeda; nilainya hanya ada pada kritik lawan, tidak ada nilai lain.
    • Saya pikir moderasi HN tidak buruk; saya berharap tulisan tanpa rasa ingin tahu seperti ini hilang dari laman utama.
  • Gary Marcus memang selalu memberi analisis yang dangkal.

    • Opini dia cukup mirip komentar saham ala Jim Cramer.
    • Sampai-sampai bisa serius mempertimbangkan strategi “Reverse Gary Marcus”.
  • Gary Marcus hampir selalu menegaskan bahwa AI sebenarnya tidak berfungsi; ketika dia benar biasanya hampir kebetulan.

  • Ini adalah posting blog tentang apakah GPT-5 memenuhi overhype dan bagaimana reaksinya.

    • Ini memang topik yang legal.
    • Karena ini blog Gary Marcus, wajar saja pandangannya bias, berbeda dengan artikel BBC.
  • Saya rasa memang fakta bahwa makin susah menemukan opini yang benar sudah menjadi masalah nyata.

    • Di online, mayoritas orang hanya membahas ulang opini orang lain, dan isinya didominasi konten ribut yang dangkal.
  • Berdasarkan pengalaman saya, upgrade ini merupakan downgrade besar buat pengguna Plus.

    • GPT-5 kalah kualitas jawaban dibanding O3, jumlah reasoning juga terasa lebih sedikit, dan tidak memakai penelusuran web seperti O3.
    • Bahkan saat saya pilih opsi ‘thinking’ dan beri instruksi jelas, tetap tidak terselesaikan.
    • Sekarang harus pakai Gemini agar outputnya punya kualitas yang mirip.
    • GPT kustom juga rusak juga (related); GPT pemeriksa tata bahasa kustom saya mengabaikan perintah terlepas dari model yang dipakai.
    • Opsi deep research juga aneh: dipilih tetap saja menjawab sama dan instruksi tidak mengubahnya.
  • Projects juga kelihatan rusak.

    • Tidak mengikuti instruksi dengan benar, menjawab dalam bahasa Spanyol, atau mengabaikan pertanyaan saya.
    • Kadang-kadang seperti sedang ngobrol dengan dirinya sendiri; meski saya ketik apa saja, tetap mengeluarkan jawaban yang sama tidak saya inginkan, bahkan dalam bahasa Spanyol.
  • Terlihat sengaja mengarah ke paket gratis, atau menaruh iklan mulai awal tahun depan, atau mendorong ke paket $200.

    • Saya pikir tidak akan ada lagi paket $20 tanpa iklan.
  • Hallusinasi (informasi salah) sangat parah.

    • Sangat mengecewakan.
  • Komunitas AI butuh lebih banyak ahli independen seperti Marcus.

    • Kita perlu menjaga integritas dan transparansi tanpa terbawa-bawa hype industri atau perubahan metrik internal (misalnya “mencapai AGI secara internal”).
    • Terlepas dari gayanya, Marcus punya rekam jejak yang tepat dalam menyoroti beberapa isu nyata: batasan scaling law atau kekurangan reasoning sejati pada LLM (generalization out-of-distribution).
    • Industri sering menolak dulu, lalu saat waktu berlalu dan menjual sesuatu yang baru (Prompt Chain, LLM berbasis RL, dan sebagainya), mereka mengklaim itu penemuan mereka sendiri.
  • Dalam arus hype, suara kritis sangat diperlukan.

    • Suara paling dominan seputar LLM biasanya datang dari pihak yang secara ekonomi paling diuntungkan.
    • Saya tidak anti-AI, tetapi nuansa bahwa semua fenomena ekonomi akan lenyap karena teknologi ini itu sangat tidak masuk akal (alasan sesungguhnya sulit ekonomi ada pada faktor lain, biasanya kepemimpinan tiap negara).
    • Kalau laju inovasi melambat, setidaknya produk yang saya pakai bisa kembali fokus ke fitur nyata dan perbaikan bug daripada memaksakan fitur AI.
  • Saya sangat menentangnya.

    • Esai ini mirip mengumpulkan keluhan dari Reddit, tanpa hasil pengujian langsung, dan hanya membahas masalah yang muncul saat rilis untuk 500 juta pengguna sekaligus.
    • Kritik semacam ini melewatkan poin penting di peluncuran GPT-5: ini sebenarnya peluncuran “AI full product” pertama, jadi sekarang fokusnya bergeser dari penyempurnaan model ke perwujudan produk layanan.
    • yang penting adalah ia menjadi lebih cepat, lebih terintegrasi, dan memungkinkan inovasi bertahap (interaksi multimodal, pembuatan gambar, dan lainnya).
    • Terutama ada lompatan besar dalam konteks panjang serta mempertahankan target jangka panjang.
    • Willison juga bilang dia memakai ini untuk kerja koding utamanya, dan saya sendiri merasa untuk tugas coding yang lebih panjang/kompleks, ini jelas lebih baik daripada Claude serta model terbaik saat ini (o3-pro, Gemini).
    • Kecepatan koding-nya juga jauh lebih cepat dibanding o3-pro.
    • Argumen seperti “pengguna Reddit enggak suka karena suka 4o, jadi oAI gagal” itu lemah dan tak bermakna.
  • Saya tidak mengaitkan sebagian besar keterbatasan AI atau persepsi salah ini dengan Marcus.

    • Saya tidak berpikir itu karena Marcus.
  • Yang paling dibutuhkan GPT sekarang adalah kemampuan untuk berkata, “kalau saya tidak tahu, katakan saya tidak tahu”.

    • Hari ini saya coba cari cara bikin NPC otomatis pakai redscript di mod Cyberpunk 2077, dan memang susah banget menemukannya.
    • ChatGPT 5 katanya melakukan “research”, tapi malah mengada-ada API; meskipun saya beberapa kali bilang fakta itu salah, ia terus berhalusinasi.
    • 30 menit waktu saya terbuang, padahal kalau dia bilang dia tidak tahu, saya bisa dapat jawabannya dalam 1 menit.
  • Jangan menganggap ChatGPT tahu apa yang sebenarnya diketahui.

    • Ia menghasilkan jawaban yang secara statistik paling mungkin berdasarkan data latih.
    • Ia tidak merujuk sistem pengetahuan internal, hanya mengeluarkan pola bahasa.
    • Latihan bisa dilakukan agar menonjolkan ide tertentu (misalnya propaganda), tetapi tidak bisa langsung merujuk pengetahuan secara langsung.
  • Betul.

    • Ia terdengar seperti rekan yang sangat yakin sehingga saya percaya tanpa curiga.
    • Tapi kenyataannya, terlalu sering semuanya bohong, situasinya benar-benar menjengkelkan.
  • Sebenarnya ia tidak “mengetahui” apa pun.

    • Setiap output sangat dekat dengan halusinasi berbasis prompt.
  • Saya setuju bahwa “berkata tidak tahu kalau tidak tahu” adalah kebutuhan paling penting.

    • Di Frontier AI Lab sendiri, jelas sudah ada review dan eksperimen internal tentang ini.
    • Fenomena yang jarang terjadi seperti ini mungkin juga indikator bahwa batas model sudah sangat jelas.
  • Perbaikan seperti ini memang sedang dilakukan, dan disebut juga dalam dokumen resmi OpenAI.

    • tautan terkait
    • Pada GPT‑5 (opsi ‘thinking’), untuk tugas yang mustahil dikerjakan, kurang informasi, atau tanpa alat, model berusaha lebih jujur menampilkan batasan dan perilaku.
    • Contohnya di benchmark multimodal CharXiv untuk prompt tanpa gambar, o3 menjawab dengan nada percaya diri pada gambar yang tidak ada dengan probabilitas 86.7%, sedangkan GPT‑5 turun ke 9%.
    • Pada coding yang tak mungkin dilakukan atau ketika aset multimodal tidak tersedia, reasoning GPT‑5 juga jauh lebih sedikit menghasilkan jawaban salah dibanding o3.
    • Pada dataset percakapan panjang berbasis trafik ChatGPT sungguhan, rasio deception turun dari 4.8% menjadi 2.1%.
    • Masih butuh perbaikan lebih lanjut dan penelitian berlanjut; lihat system card.
  • Saya merasa obsesinya untuk “selalu tepat” membuat fakta yang benar ikut buram.

    • Diskusi soal sistem hybrid symbolic/transformer menarik.
    • Di posting terkait, ditunjukkan contoh bahwa Grok 4 bisa sukses di matematika ketika menyerahkan perhitungan pada Python.
    • Secara pribadi saya ingin melihat pendekatan yang mementingkan symbolic terlebih dulu, yaitu matematika “keras” dikerjakan secara simbolik dan area yang membutuhkan reasoning ditangani dengan monad.
  • Sistem neuro-symbolic Aloe mengungguli skor benchmark GAIA deep research milik OpenAI dengan selisih 20 poin.

    • Gary memang terlalu banyak bicara dan cenderung hiperbolis, tapi dia memang paham batasan LLM (aloe.inc).
  • Di GPT-5 muncul masalah unik yang tidak ada di GPT-4.

    • Dalam thread percakapan, konteks tiba-tiba putus atau tidak dapat menangkap pertanyaan berikutnya dengan benar.

    • Seolah ada proses pembersihan konteks yang masuk, terasa seperti percakapan tidak diringkas dulu sebelum pindah.

    • Kalau begitu, konteks yang benar-benar bisa dipakai bisa jadi jauh lebih kecil, dan gejala ini sering muncul.

    • Kalau diminta “ulangi dan tinjau konteks percakapan terakhir”, hasilnya agak membaik.

    • Dalam kasus saya, jawabannya terasa jauh lebih pendek.

  • “Orang-orang mulai berharap keajaiban, tetapi GPT-5 hanyalah kemajuan inkremental terbaru.”

    • Ini satu-satunya poin artikel yang layak ditulis.
    • Wajar kalau orang berharap pada kemajuan bertahap.
    • Penyedia layanan sebaiknya tidak menjanjikan keajaiban.
    • Mengelola ekspektasi itu penting.
    • Kemajuan bertahap pun tetaplah kemajuan yang nyata.
    • Tapi saya tidak setuju dengan argumen semacam “AGI akan terus keluar dari belakang seri GPT”.
  • Sekarang data pelatihan sudah tidak tersisa.

    • Semua perbaikan AI mulai sekarang bergantung pada perubahan arsitektur.
    • Semua model terbaru sudah mencapai titik maksimum lokal untuk informasi baru.
  • Dari penelitian sebelumnya, kesimpulannya adalah bahwa menggabungkan data nyata yang sengaja ditanam dengan data sintetis menjadi bagian besar efektif untuk melatih frontier LLM.

  • Saya pernah mengucapkan ini dua tahun lalu di sini.

    • Tidak ada “internet kedua” dengan konten berkualitas yang bisa digali.
    • Informasi yang sudah ada pun makin kuat terkunci.
  • Apakah ini berarti GPT‑5 sudah mempelajari semua data video di seluruh dunia?

  • Bukankah data pelatihan baru justru diciptakan setiap hari?

    • YouTube, Facebook, TikTok, dan sebagainya.
    • Manusia adalah mesin pembuat konten.
  • Meskipun OpenAI membuat model terbaik sekalipun, sekadar memberi nama ‘GPT‑5’ membuat komunitas dan OpenAI sendiri sudah menumpuk hype hingga seolah-olah kegagalan sudah ditetapkan.

    • Sebaliknya, seharusnya OpenAI menolak meme dan hype berlebihan lalu memilih perbaikan bertahap, meski itu mungkin merugikan dalam mempertahankan investor/narasi/ekosistem AI.
    • Kita sudah mencapai “puncak”.
  • Fakta bahwa Sam Altman sendiri berperan menciptakan dan mendorong harapan seperti itu juga.

    • Saya penasaran orang akan menyusun argumen “tidak sesuai ekspektasi” seperti apa saat AGI sungguhan benar-benar datang.