3 poin oleh GN⁺ 2025-08-08 | 1 komentar | Bagikan ke WhatsApp
  • GPT-5 beroperasi sebagai sistem terpadu dengan router real-time yang mengganti model sesuai konteks percakapan, dan di API tersedia tiga tipe Regular·Mini·Nano dengan 4 tingkat reasoning Minimal·Low·Medium·High.
  • Mendukung batas 272.000 token untuk input dan 128.000 token untuk output; input mendukung teks·gambar, sedangkan output hanya teks.
  • Harganya ditetapkan sangat agresif, dengan tarif input setengah dari GPT-4o, dan diskon caching token 90% untuk input yang digunakan ulang dalam beberapa menit terakhir.
  • Pada system card, fokusnya pada pengurangan halusinasi, peningkatan kepatuhan terhadap instruksi, dan penurunan sycophancy, dengan pelatihan Safe‑Completions untuk mengarah pada respons yang aman alih-alih penolakan biner.
  • Dari sisi keamanan, ketahanan terhadap prompt injection ditingkatkan tetapi masih ada area yang belum tuntas dengan tingkat keberhasilan serangan 56,8% pada k=10; di API tersedia ringkasan reasoning serta opsi reasoning_effort=minimal untuk mengontrol aliran token reasoning.

GPT‑5: Analisis fitur utama, harga, dan system card

  • Penulis Simon Willison memiliki akses pratinjau selama 2 minggu dan telah mencoba GPT‑5 secara rutin; kesannya adalah tidak ada lompatan besar, tetapi secara keseluruhan sangat mumpuni, dan sangat baik untuk dipakai sebagai model default karena frekuensi salah yang jarang dan respons yang konsisten.
  • Tulisan ini adalah bagian pertama serial ini, merangkum apa yang bisa ditangkap dari karakteristik inti, harga, dan system card.

Karakteristik utama model

  • Di lingkungan ChatGPT, GPT‑5 menggabungkan model cepat umum dan model reasoning mendalam, dan berfungsi sebagai arsitektur hybrid di mana router real-time memilih model yang paling sesuai berdasarkan jenis percakapan, tingkat kesulitan, kebutuhan alat, dan sinyal niat eksplisit seperti "think hard".

    Sistem card menyebutkan bahwa "real-time router" memilih model berdasarkan jenis percakapan, kompleksitas, kebutuhan alat, dan sinyal niat seperti "think hard", lalu saat batas penggunaan habis versi mini dari masing-masing model akan menggantikan.

  • Di API, opsi model disederhanakan menjadi Regular·Mini·Nano dan masing-masing mendukung 4 tingkat reasoning: Minimal·Low·Medium·High.
  • Batas konteks adalah input 272.000 token dan output 128.000 token, dan token reasoning tersembunyi juga dihitung sebagai token output.
  • Input dan output berbentuk teks·gambar untuk input, teks saja untuk output, dengan knowledge cutoff GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30.
  • Pada penggunaan GPT‑5 full, terasa respons yang akurat dan stabil, dan hampir tidak ada dorongan untuk mencoba model lain.

Posisi dalam keluarga model OpenAI

  • Berdasarkan tabel pemetaan di system card, lineup sebelumnya diposisikan untuk digantikan oleh lini GPT‑5.
    • GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
    • OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
    • GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
  • thinking-pro saat ini dicantumkan di ChatGPT sebagai “GPT‑5 Pro”, hanya tersedia di tier USD 200 per bulan, dan menggunakan parallel test-time compute.
  • Batas fitur tetap: audio input/output dan pembuatan gambar tetap ditangani oleh GPT‑4o Audio/Realtime serta GPT Image 1/DALL‑E.

Harga sangat agresif

  • Harga ditetapkan secara agresif.
    • GPT‑5: input $1,25 per juta, output $10 per juta
    • GPT‑5 Mini: input $0,25 per juta, output $2,00 per juta
    • GPT‑5 Nano: input $0,05 per juta, output $0,40 per juta
  • Dibanding GPT‑4o, tarif input setengah dan tarif output sama.
  • Token reasoning tetap ditagih sebagai token output, sehingga biaya total berbeda berdasarkan tingkat reasoning, meski prompt-nya sama.
  • Tersedia diskon caching token 90%, sehingga penghematan biaya besar untuk UI chat yang sering mengirim ulang konteks percakapan.
  • Pada tabel perbandingan kompetitor, Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro ditampilkan dengan kisaran $2,5~$15 per juta untuk input dan $10~$75 per juta untuk output, menunjukkan keunggulan harga keluarga GPT‑5.
  • Penulis pernah mengalami GPT‑5 mengurutkan perbandingan harga otomatis secara tidak sempurna, dan masalah itu teratasi ketika menyusun ulang tabel menggunakan Python.

Catatan tambahan dari system card

  • Komposisi data pelatihan mencakup web publik, data mitra, dan data buatan pengguna/ trainer manusia, dengan prinsip yang menyebutkan penerapan filter pengurangan data pribadi.
  • Pilar perbaikan utama menekankan pengurangan halusinasi, peningkatan pemenuhan instruksi, dan penurunan sycophancy; untuk penggunaan paling umum di ChatGPT disebut writing·coding·health, sehingga performa di area tersebut diperkuat.
  • Safe‑Completions adalah latihan keselamatan yang berfokus pada output, yang mengutamakan respons yang aman ketimbang penolakan biner. Untuk pertanyaan dual-use yang sulit menilai niat pengguna seperti bidang biologi·keamanan, pendekatan ini mengurangi detail berisiko sekaligus mempertahankan kegunaan.
  • Untuk sycophancy, dilakukan pelatihan pasca-pelatihan dengan evaluasi dan sinyal reward yang mencerminkan distribusi percakapan produksi, demi menurunkan kecenderungan menyelaraskan respons secara menjilat.
  • Pada aspek kebenaran fakta, bersama web browsing yang aktif secara default, latihan diarahkan agar frekuensi halusinasi menurun saat menjawab hanya dengan pengetahuan internal tanpa alat.
  • Untuk mencegah kebohongan dan pemalsuan, reward dirancang agar model secara jujur mengakui ketidakmungkinan pada tugas yang mustahil, dan juga dilakukan evaluasi simulasi dengan menonaktifkan dengan sengaja alat seperti browsing untuk menekan respons semu.

Prompt injection di system card

  • Terdapat hasil bahwa dua tim red team eksternal melakukan evaluasi prompt injection dengan fokus pada kerentanan tingkat sistem dan jalur konektor.
  • Pada chart pembanding, tingkat keberhasilan serangan k=10 pada gpt‑5‑thinking adalah 56,8%, yang lebih rendah daripada Claude 3.7/sebagian besar model lain yang berada di kisaran 60~90%, tetapi masih menembus lebih dari separuh percobaan sehingga tetap jauh dari penyelesaian penuh.
  • Pada akhirnya, meskipun ada peningkatan model, penulis menganjurkan agar desain produk dan guardrails tetap dianggap prasyarat wajib.

Jejak reasoning di API

  • Awalnya, penulis mengira reasoning trace tidak bisa ditampilkan, tetapi di Responses API sekarang bisa menerima summary reasoning lewat reasoning: { "summary": "auto" }.
  • Tanpa opsi itu, pada tingkat reasoning yang dalam, cukup banyak token reasoning terpakai sebelum output terlihat, yang dapat terasa sebagai latensi; reasoning_effort=minimal bisa mendorong respons streaming lebih cepat.

Dan beberapa SVG pelikan

  • Pada benchmark SVG “pelikan naik sepeda” yang biasa dipakai penulis, hasil GPT‑5 (reasoning Medium default) menunjukkan detail sepeda dan akurasi bentuk yang baik, menghasilkan vektor yang sangat terbaca.
  • GPT‑5 Mini memperlihatkan ekspresi warna dan gradasi yang kaya, tetapi menunjukkan kesalahan struktur berupa dua leher yang muncul pada pelikan.
  • GPT‑5 Nano menyederhanakan bentuk sepeda dan pelikan menjadi lebih ringkas, sehingga menghasilkan output pada level ringkasan fungsional.

Rangkuman poin praktis

  • Pemilihan model: mulai dari Regular, jika cukup turun ke Mini/Nano, dan gunakan lini thinking dengan level reasoning tinggi untuk kasus yang lebih dalam.
  • Kontrol biaya: strategi yang efektif adalah cache token 90%, reasoning_effort=minimal, serta system prompt singkat dan konteks yang diringkas untuk menekan output token·reasoning token.
  • Desain keamanan: karena prompt injection masih berisiko, perlu pertahanan sistemik seperti pengurangan hak akses konektor, validasi output, dan template respons aman.
  • Aplikasi domain: laporan menunjukkan pengurangan halusinasi dan sycophancy terasa pada writing·coding·health, sehingga disarankan menetapkan flow default browsing + bukti untuk pekerjaan dokumentasi, review kode, dan QA healthcare yang berisiko tinggi.

1 komentar

 
GN⁺ 2025-08-08
Pendapat di Hacker News
  • Saya merasa ini benar-benar keren dan senang melihat reliabilitasnya meningkat, tetapi jika mengingat bayangan GPT-5 yang diharapkan orang selama dua tahun terakhir, agak mengecewakan karena ini berhenti pada peningkatan bertahap dan stabil, bukan inovasi yang membalikkan dunia. Ada nuansa bahwa pendekatan yang sekadar memperbesar skala sudah bertemu batas. Kalau memang model ini akan maju hanya dengan menambah sumber daya komputasi, menurut saya OpenAI tak akan menghabiskan waktu untuk menyetel perlahan sistem routing pengguna mereka agar interaksi rata-rata lebih baik. Secara umum, dengan makin meningkatnya eksklusivitas di industri serta presentasi yang terasa hanya meninggalkan bahasa pemasaran dibanding informasi konkret, persoalan besarnya adalah tidak ada yang benar-benar tahu kondisi model saat ini. Dalam investasi berskala besar ini mungkin sesuatu yang tak terhindarkan. Kemungkinan ada model yang jauh lebih besar di masa depan juga tidak bisa saya singkirkan.
    • Bagi saya, inovasi yang “diam-diam” terjadi pada pemanfaatan tool dan kemampuan multimodal. Kecerdasan umum berkembang perlahan, tetapi kemampuan penggunaan tool multilangkah dan interaksi dengan dunia nyata sudah membaik secara dramatis dibanding setahun lalu. Saya berharap umpan balik dari sisi ini akhirnya kembali sebagai kecerdasan yang lebih baik.
  • Ada kecenderungan bahwa skala bukan solusi tunggal, dan saya penasaran apakah investor akan mulai mendanai orang yang sudah punya bukti untuk mendorong arah ini. Saya tidak mengerti mengapa hanya satu arah (LLM ke AGI) yang terus didorong. Di pasar yang sudah jenuh pemain besar, menurut saya tidak perlu menambahkan lagi satu startup LLM lagi. Walau LLM suatu saat mencapai AGI, selalu ada cara lain yang bisa lebih cepat dan lebih murah. Jalan tanpa backup plan juga berisiko. Saya percaya kurva S teknologi juga berlaku untuk AI. Saya bersama teman-teman berlatar matematis/ilmiah yang lebih akrab dengan teori kuantitatatif juga mempertanyakan gagasan bahwa skala saja adalah jawaban.
  • Kini tampaknya terbukti GPU bisa mempelajari berbagai informasi dan digunakan untuk berbagai tugas. Namun agar berguna secara nyata, usaha tambahan tetap diperlukan untuk memikirkan cara aplikasi untuk tiap masalah. Kalau menanyakan pada GPT “buat startup bernilai 1 miliar dolar dalam 1 tahun dengan 1 ribu dolar,” dan dapat jawabannya, pasti sudah ada yang melakukannya. Untuk saat ini tetap manusia yang harus berkeringat di lapangan. Untuk saat ini, saya kira pelatihan yang fokus mengurangi kesalahan yang sering terjadi terasa paling realistis.
  • Saya melihat performa jadi dua kali lipat setiap 4–7 bulan, dan trennya terus berlanjut. Laju ini sendiri sudah terasa tidak masuk akal. Mengharapkan lebih dari itu menurut saya justru mudah terseret hype berlebihan. Situasi performa yang bisa melompat dua kali dalam 2–3 kali setahun tidak saya anggap sebagai stagnasi sama sekali. Tautan terkait
  • Secara performa, ini memang upgrade progresif, tetapi dari sisi penyederhanaan produk, jalan “loncatan” adalah salah satu arah GPT-5 yang dibahas sejak 6 bulan lalu. Untuk ke depan, saya merasa perkembangan AI akan menjadi pertarungan perbaikan kecil dan halus.
  • Secara pribadi, saya bingung dengan klaim OpenAI bahwa halusinasi (hallucination) berkurang drastis. Dari pengalaman saya, Claude 4 (Sonnet, Opus) juga hampir tiap hari mengalami halusinasi bahkan pada pertanyaan yang sangat sederhana atau sulit. Bahkan di bagian yang sangat sederhana pun demikian.
    • Dalam demo presentasi juga muncul beberapa kali halusinasi (baik saat memakai Claude maupun GPT, baik versi berbayar maupun gratis). Kalau tidak muncul, saya anggap itu setidaknya kebohongan atau ketidakmampuan. Masalah mendasar LLM adalah karena mereka belajar dari preferensi manusia sehingga cenderung dioptimalkan untuk kesalahan tersembunyi (stealthy errors). Saya sangat berhati-hati dengan penggunaan tool yang bisa menimbulkan kegagalan tersembunyi, meski tingkat kegagalan secara keseluruhan rendah. Model seperti ini membuat semua proses lebih lambat dan debugging jadi sangat sulit. Misalnya, seperti bug yang tidak terlihat pada kesalahan indentasi kode Python. Bug tersebut mudah dilacak lewat pesan error, tapi stealthy error LLM tidak demikian sehingga menjadi masalah. Akhirnya ini seperti mendorong budaya “LGTM (Looks Good To Me)” yang dilewati begitu saja.
    • Cukup kalimat “Kamu salah” saja membuat Claude atau ChatGPT langsung runtuh lalu terus berhalusinasi; bahkan ketika sudah benar atau salah, mereka tidak bisa menyampaikan keyakinan dengan penuh percaya diri.
    • Saya pikir Simon, karena telah lama memakai LLM, sudah mendapat intuisi merangkai pertanyaan agar halusinasi muncul lebih sedikit.
    • Menurut saya tergantung input. Claude 4 yang saya pakai sangat sering halusinasi, apalagi ketika membuat JSON; sering menghasilkan output dengan banyak error sintaks namun dengan keyakinan tinggi.
  • “Kamu GPT5?” “Tidak, aku 4o, 5 belum keluar.” “Hari ini katanya keluar.” “Oh, iya, aku GPT5.” <i>Kamu sudah mencapai batas penggunaan gratis 4o</i> merupakan contoh kekacauan saat realitas dan info model tercampur.
  • Kebijakan harga OpenAI terasa agak mengejutkan. Kalau benar-benar tidak ada pesaing, tak perlu memakai angka setinggi itu. Saya pikir itu menandakan persaingan makin sengit.
    • Di pasar aplikasi, mereka menang telak, tetapi di sisi API justru tertinggal dari Anthropic. Artikel terkait
    • Mungkin ini dipengaruhi hilangnya pelanggan PRO (termasuk saya). Saya tidak melihat nilai harga model PRO sepuluh kali dibanding PLUS. Dengan kemunculan pesaing baru seperti z.ai, semakin sulit melakukan diferensiasi layanan.
    • Ini terasa seperti peningkatan sekitar 5% saja. Tidak mungkin kalah bersaing harga melawan Gemini 2.5 Pro membuat pilihan ini tak terhindarkan. Saya juga berpikir perubahan default di Cursor ikut berpengaruh.
    • Model Nano 5 sen adalah perubahan yang cukup menarik. Saya membayangkan hal ini bisa membuat Google, yang baru saja perlahan menaikkan harganya, untuk sementara menurunkan harga lagi.
    • Bisa jadi kebijakan ini juga muncul hanya karena butuh lebih banyak data.
  • API GPT-5 dibagi menjadi regular, mini, dan nano, dan masing-masing dapat dipilih dengan 4 level reasoning (minimal, low, medium, high). Saya sempat berpikir justru jadi lebih rumit dibanding GPT 4.1 yang dulu hanya punya 3 opsi (regular, mini, nano). Kini satu model mini saja sudah punya 4 level dari minimal hingga high, total 8 opsi. Dalam praktiknya, ini berarti kita terus harus mempertimbangkan apakah lebih baik menyesuaikan prompt, atau mengganti versi model/reasoning level.
    • Secara faktual, untuk tiap level reasoning sudah ada opsi tambahan seperti o3-mini-high, o3-mini-medium, o3-mini-low, o4-mini-high, o4-mini-medium, o4-mini-low. Justru pendekatan GPT-5 terlihat lebih sederhana.
    • Karena tiap model menggunakan n=1,2,3 dan reasoning level m=0,1,2,3, ini terasa lebih terstruktur; kita bisa intuisi bahwa kombinasi mana yang naik lebih tinggi.
    • “Lebih sederhana” menurut saya artinya: sebelumnya pada chat service atau model chat-optimized di API, ada harness yang berdasarkan heuristics (perkiraan mekanistik) mengubah reasoning level dan model. Sekarang di API pengguna punya model mental yang jelas untuk memilih jenis model dan reasoning effort sendiri. Pilihannya banyak, tapi cara pemilihannya justru lebih jelas.
    • Pada akhirnya, karena OpenAI menetapkan harga per token, kita pasti akan mencoba banyak versi.
  • Saya penasaran kenapa fitur mengatur parameter langsung (temperature, top-p) dihapus dari model reasoning, termasuk GPT-5. Untuk tugas kecil, konsistensi itu penting, dan hilangnya fitur ini membuat respons jadi sulit diatur. Di API, saya merasa kontrol halus terhadap opsi ini sangat penting bagi pengguna.
    • Karena setting sampler semuanya berdampak negatif pada keamanan dan alignment. Karena itu hanya top_p/top_k yang diizinkan, sementara tfs, min_p, top_n sigma, dan sebagainya dibuang. Pembatasan temperature ke rentang 0–2 juga karena alasan serupa. Saya pikir open source justru lebih maju di sisi sampler. Dalam kondisi ini, kemampuan OpenAI mengekstrak performa model tetap menunjukkan mengapa teknologi mereka tetap menakjubkan.
  • Meskipun ini perusahaan bernilai miliaran dolar, saya tetap merasa kurang karena evaluasi fairness model hanya lewat benchmark buatan seperti BBQ, sementara ada area pemakaian nyata seperti rekrutmen, bisnis, dan pendidikan.
  • Gambar SVG pelican mengendarai sepeda tetap menjadi hal yang lucu sekaligus menarik karena masih jadi masalah berat bagi AI.
    • Saya ingin bertanya apakah bisa langsung menggambar SVG pelican mengendarai sepeda di editor teks. Nyatanya manusia juga tidak mudah melakukannya.
  • Berbeda dari sebelumnya, terlihat model sudah lebih baik dilatih agar mengumpulkan konteks dengan memanfaatkan tool. Dibandingkan 4.1 dan o3, di putaran pertama dia bisa langsung memanggil hasil untuk enam kategori sekaligus — cara yang cukup keren. Semakin banyak pemanggilan tool berarti token lebih banyak, tetapi berkat kebijakan harga agresif kali ini sepertinya bukan masalah besar. Jika prompt dirancang dengan baik, frekuensi pemakaian tool juga bisa ditekan. Contoh terkait
  • Review Simon yang ringkas dan teliti benar-benar membantu memahami hasil yang nyata.
  • Menanggapi opini bahwa Claude dan o3 juga terasa jauh lebih sedikit halusinasi di model-model tahun ini, penulis menambahkan maksudnya sendiri dengan jelas di bagian tersebut di posting untuk memperbaiki penjelasan.