14 poin oleh GN⁺ 2025-08-08 | 5 komentar | Bagikan ke WhatsApp
  • GPT-5 menghadirkan performa yang melampaui model sebelumnya di berbagai bidang seperti coding, matematika, menulis, kesehatan, dan pengenalan visual, serta merupakan sistem terintegrasi yang menggabungkan respons cepat dan penalaran mendalam sesuai konteks
  • 'GPT-5 Thinking' menerapkan penalaran yang lebih panjang pada masalah kompleks untuk meningkatkan akurasi, dan pengguna paket Pro dapat memanfaatkan performa tingkat tertinggi melalui GPT-5 Pro yang memperluas kemampuan ini
  • Dalam penggunaan nyata, tingkat halusinasi (menghasilkan fakta yang salah) berkurang secara signifikan, dan kemampuan pemahaman multimodal, pelaksanaan instruksi, serta pekerjaan kompleks yang terhubung dengan berbagai tool meningkat
  • Dukungan untuk developer diperkuat, termasuk pembuatan UI frontend dan debugging skala besar, dan di bidang kesehatan model ini mencatat skor tertinggi di HealthBench serta berperan sebagai mitra kesehatan yang proaktif
  • Dari sisi keamanan, pelatihan 'safe completion' diperkenalkan untuk mengurangi penolakan yang tidak perlu, dan model ini dilengkapi sistem pertahanan berlapis tingkat tinggi di bidang biologi dan kimia

Ikhtisar GPT-5

Sistem terintegrasi

  • Di dalam satu sistem terdapat model pintar dan efisien, model penalaran mendalam (GPT-5 Thinking), serta router real-time yang memilihnya berdasarkan situasi, kompleksitas, kebutuhan tool, dan niat pengguna
  • Saat batas penggunaan terlampaui, versi 'mini' dari masing-masing model akan menangani kueri yang tersisa
  • Ke depannya, fungsi-fungsi ini akan diintegrasikan ke dalam satu model tunggal

Peningkatan performa dan kegunaan

  • Performa jauh lebih unggul dibanding GPT-4o di berbagai benchmark
  • Pengurangan halusinasi, peningkatan pelaksanaan instruksi, meminimalkan respons menjilat (sycophancy)
  • Tiga area inti yang ditingkatkan
    • Coding: kemampuan diperkuat untuk pembuatan frontend kompleks, debugging repositori skala besar, dan pembuatan UI/UX yang mencerminkan estetika
    • Menulis: mampu menangani ambiguitas struktural serta menghasilkan ekspresi dengan kedalaman sastra dan ritme, sekaligus memperkuat dukungan untuk penulisan dan penyuntingan dokumen sehari-hari
    • Kesehatan: mencetak rekor tertinggi di HealthBench, serta memberikan jawaban yang aman dan presisi sesuai konteks, tingkat pengetahuan, dan wilayah pengguna

Hasil evaluasi

  • Matematika 94.6% (AIME 2025), coding SWE-bench Verified 74.9%, multimodal MMMU 84.2%, kesehatan HealthBench Hard 46.2%, semuanya mencapai SOTA
  • Di GPQA, GPT-5 Pro mencetak rekor tertinggi dengan 88.4%
  • Kemampuan multimodal, integrasi tool, dan penanganan tugas multilangkah meningkat secara signifikan

Penalaran yang efisien

  • Untuk performa yang sama, penggunaan token berkurang 50~80%
  • Pada tugas yang kompleks dan sulit, GPT-5 Thinking menurunkan tingkat kesalahan dan halusinasi secara nyata dibanding o3

Penguatan keandalan dan faktualitas

  • Dalam pengujian faktualitas terbuka, tingkat halusinasi turun 6 kali lipat
  • Menjelaskan batasannya secara jelas saat menghadapi tugas yang mustahil atau ketika informasi tidak memadai
  • Tingkat sycophancy turun dari 14.5% → di bawah 6%

Peningkatan keamanan

  • Dengan pelatihan 'safe completion', model dapat memberikan jawaban yang aman dan bermanfaat bahkan untuk permintaan yang berpotensi berisiko
  • Sistem pertahanan berlapis diterapkan untuk menghadapi skenario berisiko tinggi di bidang biologi dan kimia

GPT-5 Pro

  • Model penalaran yang diperluas untuk tugas dengan tingkat kesulitan tertinggi
  • Dalam evaluasi para ahli, lebih disukai 67.8% dibanding GPT-5 Thinking, dengan kesalahan utama berkurang 22%
  • Performa tertinggi di kesehatan, sains, matematika, dan coding

Cara penggunaan dan akses

  • GPT-5 diterapkan sebagai model default ChatGPT, menggantikan model sebelumnya (GPT-4o, o3, dll.)
  • Mode penalaran dapat dipaksa dengan memasukkan 'think hard about this'
  • Diluncurkan bertahap untuk Plus·Pro·Team·Free, sedangkan Enterprise·Edu menyusul 1 minggu kemudian
  • Pengguna gratis akan dialihkan ke GPT-5 mini saat melewati batas penggunaan

Poin utama GPT-5 untuk developer

Performa dan fitur

  • Performa coding:

    • SWE-bench Verified 74.9% (o3: 69.1%), penggunaan token 22%↓, pemanggilan tool 45%↓
    • Aider polyglot 88%, menurunkan tingkat kesalahan perbaikan kode menjadi 1/3
    • Untuk pembuatan kode frontend, 70% lebih disukai dibanding o3
  • Tugas agen:

    • τ 2-bench telecom 96.7%, dengan peningkatan stabilitas pada pemanggilan multi-tool dan paralel
    • Dapat menampilkan pesan preamble yang memperlihatkan progres dan rencana kepada pengguna
  • Konteks panjang:

    • OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
    • Menangani konteks hingga 400 ribu token

Fitur API baru

  • reasoning_effort: mengatur waktu penalaran dalam rentang minimal~high
  • verbosity: menetapkan default panjang jawaban dari low~high
  • Custom tools: dapat dipanggil dalam plaintext alih-alih JSON, serta mendukung batasan regex/tata bahasa
  • Mendukung tool bawaan seperti pemanggilan tool paralel, web search, file search, image generation, dan lainnya
  • Mendukung fitur penghematan biaya seperti prompt caching dan Batch API

Stabilitas dan keandalan

  • Di benchmark LongFact dan FactScore, tingkat halusinasi turun sekitar ~80% dibanding o3
  • Kemampuan mengenali keterbatasan diri dan menangani situasi tak terduga diperkuat
  • Cocok untuk tugas berisiko tinggi dan yang menuntut akurasi (kode, data, pengambilan keputusan)

Availability & pricing

Ukuran yang tersedia dan endpoint

  • Varian ukuran: tersedia gpt-5, gpt-5-mini, gpt-5-nano
  • Antarmuka yang didukung: dapat digunakan sebagai default di Responses API, Chat Completions API, dan Codex CLI
  • Karakteristik model: seri GPT‑5 di API adalah reasoning model, sedangkan non‑reasoning model di ChatGPT disediakan dengan ID terpisah

Tabel harga dan satuan penagihan

  • gpt-5: input $1.25 per juta token, output $10 per juta token
  • gpt-5-mini: input $0.25 per juta, output $2 per juta
  • gpt-5-nano: input $0.05 per juta, output $0.40 per juta
  • gpt-5-chat-latest (non-reasoning): input $1.25 per juta, output $10 per juta, sama dengan gpt-5

Ringkasan fitur yang didukung

  • Kontrol penalaran: tetapkan minimal·low·medium·high pada reasoning_effort untuk mengatur trade-off kecepatan ↔ akurasi
  • Panjang respons: gunakan verbosity untuk menetapkan kecenderungan default singkat/default/panjang
  • Tooling: custom tools mendukung pemanggilan dengan argumen plaintext dan dapat menerapkan batasan regex/CFG
  • Fitur eksekusi: mendukung pemanggilan tool paralel, tool bawaan (web search, file search, image generation, dll.), streaming, dan Structured Outputs
  • Optimasi biaya: prompt caching dan Batch API mengurangi biaya token dan latensi
  • Kanal distribusi: GPT‑5 diterapkan di Microsoft 365 Copilot, Copilot, GitHub Copilot, dan Azure AI Foundry

Contoh biaya sederhana

  • Jika gpt-5 memproses 50k token input + 5k token output, total biaya ≈ $0.1125
    • Rumus perhitungan: input 0.05M × $1.25 = $0.0625, output 0.005M × $10 = $0.05, total $0.1125
  • Jika pekerjaan yang sama diproses dengan gpt-5-mini, total biaya ≈ $0.0175
    • Input 0.05M × $0.25 = $0.0125, output 0.005M × $2 = $0.01, total yang benar adalah $0.0225, tetapi dengan mempertimbangkan tarif output, perbedaan akan lebih besar pada workload dengan porsi input yang besar
  • Pipeline dengan output generatif dalam jumlah besar memiliki insentif besar untuk memilih model dengan tarif output lebih rendah

Catatan panduan pemilihan

  • Jika akurasi adalah prioritas utama dan dibutuhkan rantai tool yang kompleks untuk agen backend, pertimbangkan gpt-5
  • Untuk editing kode sehari-hari, agen ringan, dan pemrosesan batch skala besar, gpt-5-mini menawarkan keseimbangan kualitas dibanding biaya yang lebih baik
  • Untuk prapemrosesan, pemeriksaan aturan, dan ringkasan sederhana dengan latensi ultra-rendah dan biaya ultra-rendah, gpt-5-nano cocok digunakan

Referensi

  • Jika ingin tetap menggunakan model default non‑reasoning ChatGPT, pilih gpt-5-chat-latest di API
  • Karena panjang respons memprioritaskan instruksi eksplisit, maka meskipun verbosity diatur, jika Anda memberi instruksi panjang yang spesifik seperti "esai 5 paragraf", model akan mengikuti instruksi tersebut

5 komentar

 
shakespeares 2025-08-08

Menurut saya pribadi, untuk refactoring claude-code tampaknya lebih bagus.
Saat saya menyuruh melakukan penghapusan method yang tidak perlu atau pekerjaan refactoring semacam itu dengan cursor + GPT5, claude-code bisa menemukannya dan menghapusnya dengan baik, sedangkan GPT5 terasa seperti tidak bisa memahami keseluruhan proyek.

 
cgl00 2025-08-08

Terasa jelas bahwa kegunaannya melonjak pesat, tetapi reaksi yang bilang ini jadi lebih dekat ke AGI seperti yang dulu begitu digembar-gemborkan memang tetap berlebihan.

 
laeyoung 2025-08-08

Kalau hanya melihat sisi coding (SWE-bench), angkanya 74,9% (thinking) dan 52,8% (without thinking), sedangkan Claude mencatat 74,5% (Opus 4.1), 72,5% (Opus 4.0), dan 62,3% (Sonnet 3.7).

Kalau tidak memakai mode thinking, hasilnya lebih buruk daripada Sonnet, dan bahkan saat dipakai pun hanya sedikit lebih baik daripada Opus 4.1.

 
xguru 2025-08-08

Video pengumuman resmi OpenAI (1 jam 17 menit) https://www.youtube.com/watch?v=0Uu_VJeVVfo

 
GN⁺ 2025-08-08
Pendapat Hacker News
  • Banyak yang berpendapat bahwa jika salah satu perusahaan AI melewati ambang AGI (kecerdasan umum buatan), maka ia akan melaju sendirian jauh di depan, tetapi menariknya performa semua model justru makin mirip satu sama lain; saat ini GPT-5, Claude Opus, Grok 4, dan Gemini 2.5 Pro semuanya menunjukkan performa yang baik secara umum, dan dari sudut pandang pengguna, persaingannya terasa lebih ketat dari sebelumnya. Saya penasaran apakah layanan para pesaing AI ke depan akan makin mirip atau justru makin terdiferensiasi menurut para peneliti

    • Perlu dicatat bahwa di atas ambang tertentu, dari sudut pandang pengguna mungkin akan sulit membedakan model mana yang lebih baik; misalnya, seperti pengguna dengan ELO catur 1000 yang bermain langsung melawan Magnus Carlsen dan grandmaster lain, lalu tidak mudah membedakan siapa yang lebih kuat. Fenomena klaster yang berasal dari standar evaluasi manusia ini pada dasarnya bisa jadi ilusi

    • Alasan AGI dianggap dapat menciptakan singularitas adalah karena ia bisa belajar sendiri. Saat ini kita masih sangat jauh dari titik itu, dan secara pribadi saya merasa peluang melihat AGI semasa hidup saya hampir tidak ada. Jarak antara mainframe era 1970-an dan LLM menurut saya mirip dengan jarak antara sekarang dan AGI

    • Saya melihat bisa jadi memang mustahil mensimulasikan tingkat kecerdasan yang lebih tinggi hanya dengan model prediksi teks probabilistik. Teman-teman peneliti AI saya juga tidak terlalu khawatir soal AGI berbasis LLM karena ada batas kenaikan performa terhadap data (diminishing returns). Kecerdasan manusia mampu melakukan generalisasi luar biasa hanya dari sedikit contoh, sedangkan LLM umumnya mereproduksi jawaban yang sering muncul di data latih. Namun, meski bukan AGI, teknologi AI/ML/SL yang ada sekarang tetap bisa mencapai titik yang mengubah dunia, terutama di bidang seperti pencarian yang menuntut reproduksi pengetahuan yang luas

    • Dulu saya pesimistis soal AI, tetapi sekarang syukurlah saya sekitar 70% condong pada pandangan bahwa paradigma teknologi saat ini tampaknya tidak akan berujung pada kiamat AI dalam waktu dekat. Justru merupakan berkah bahwa AI saat ini terspesialisasi untuk “meniru kita” dan tidak mampu melampaui keluaran manusia rata-rata. Meski begitu, secara prinsip saya pikir argumen para "AI doomer" tetap ada benarnya, dan ancamannya harus ditanggapi dengan serius

    • Saya tidak bisa setuju dengan klaim bahwa jika kita membuat ensiklopedia yang lebih rumit dan antarmuka pencarian yang menarik hingga terasa seperti manusia, maka kita akan mendekati AGI. Justru tidak ada yang punya bukti atau pemahaman tentang dari mana bagian general intelligence (GI) itu berasal. Ini tak lebih dari hiperbola tanpa dasar kuat dan omong besar untuk menarik investasi, dan saya menganggap orang-orang yang mempromosikan AGI sebagai sesuatu yang realistis itu adalah penipu. Cukup mengejutkan melihat begitu banyak engineer di industri benar-benar termakan logika ini, dan saya jadi meragukan kesehatan industrinya

  • Knowledge cutoff GPT-5: 30 September 2024 (sekitar 10 bulan sebelum rilis), Gemini 2.5 Pro: Januari 2025 (3 bulan lalu), Claude Opus 4.1: Maret 2025 (4 bulan lalu). Tautan terkait: Perbandingan model OpenAI, DeepMind Gemini Pro, Ikhtisar model Claude Anthropic

    • Sekarang ketika pencarian web sudah memungkinkan, saya ragu knowledge cutoff masih punya arti penting; mungkin justru lebih merupakan indikator berapa lama waktu yang dibutuhkan untuk post-training

    • Gemini tampaknya mencoba menutup kekosongan informasi setelah knowledge cutoff lewat pencarian web sederhana untuk hampir semua kueri

    • GPT-5 nano dan mini punya cutoff yang lebih awal, yaitu 30 Mei 2024

    • Karena model bisa melakukan pencarian web, saya rasa knowledge cutoff itu sendiri tidak terlalu penting

    • Bisa juga justru berarti OpenAI tidak mengizinkan jalan pintas apa pun dalam aspek keamanan

  • Menurut system card GPT-5, GPT-5 adalah sistem terpadu yang menggabungkan beberapa model (untuk jawaban cepat, untuk penalaran mendalam) dan sebuah router. Saat chat, router memilih model berdasarkan prompt seperti “pikirkan ini dengan serius”. Dari luar terlihat seperti satu sistem, tetapi secara nyata strukturnya adalah gabungan beberapa submodel. Tampaknya pendekatan ini dipilih karena melatih satu model raksasa secara end-to-end menjadi terlalu mahal

    • Mungkin ini perbedaan makna, tetapi jika komponen-komponen bekerja otomatis dan pengguna hanya memakai satu antarmuka, maka ini bisa disebut ‘sistem terpadu’. Tentu saja bukan 'model terpadu'

    • Ini kembali menegaskan teori padanan dari 'bitter lesson' bahwa dibanding sistem umum raksasa, sistem terspesialisasi yang dirancang manual bisa menunjukkan performa yang jauh lebih baik dalam batas anggaran tertentu

    • Menurut GPT-5 untuk developer, di ChatGPT GPT-5 adalah sistem yang menggabungkan beberapa model (reasoning, non-reasoning, router, dll.), sedangkan GPT-5 di API hanya menyediakan model reasoning berperforma maksimum secara tunggal. Sebagian model non-reasoning di ChatGPT disediakan sebagai gpt-5-chat-latest dan dituning untuk kebutuhan developer

    • Jika kombinasi banyak model kecil yang terspesialisasi memang arah yang benar, maka strategi ini layak diapresiasi

    • Mungkin bukan soal biaya, melainkan karena data training yang bisa dipakai mulai habis sehingga pembelajaran efektif menjadi sulit, atau data baru sudah terkontaminasi data buatan AI sehingga tidak bisa digunakan

  • Ada kesalahan benchmark besar, dan demonya juga tidak semengesankan yang diharapkan, sehingga pasar taruhan soal AI terbaik di akhir tahun ini pun berubah cukup banyak. Saya jadi lebih menantikan Gemini 3.0 atau model baru Google, dan dalam persaingan LLM saya merasa pihak yang “muncul paling akhir” bisa jadi lebih diuntungkan

    • Saya mencoba tugas-tugas yang gagal di Opus 4.1 langsung di GPT-5, dan bukan cuma berhasil, tetapi juga memperbaiki kesalahan yang dibuat Opus. Rasanya benar-benar produk yang serius

    • Saya tidak ingin dunia dimiliki sepenuhnya oleh perusahaan monopoli yang sudah punya kapitalisasi pasar triliunan dolar

  • Dari pengujian nyata, ini terasa sebagai model yang sangat bagus. Saat menjawab pertanyaan, terlihat jelas ia jauh lebih proaktif daripada 4.1 atau o3 dalam memaksimalkan penggunaan tool. Misalnya, pada jawaban pertama saja ia memanggil tool sampai 6 kali demi mencari informasi. Contoh: contoh penggunaan tool

  • Logika yang ditampilkan dalam materi pemasaran dan livestream terasa repetitif pada level “lebih baik karena memang lebih baik”; masih belum ada penjelasan dasar yang jelas mengapa GPT-5 layak disebut upgrade mayor. Seperti biasa, nuansa hasil akhirnya sendiri (‘vibe check’) yang akan menentukan tingkat kepercayaan pada model

    • Dalam 6 bulan terakhir, library JS populer sudah masuk ke training set terbaru dan lalu disebut “lebih kuat untuk coding”; saya khawatir apakah cara seperti ini berkelanjutan

    • Promosinya banyak tetapi data/benchmark nyata minim, jadi saya menunggu setidaknya kesan singkat dari pengguna praktis seperti simonw

    • Saya sudah mencoba mendorong LLM sampai batasnya, termasuk refactor kode yang sangat sulit, tetapi sulit merasakan peningkatan kualitas yang mendasar dibanding model sebelumnya. Pada titik ini, peningkatan kualitas terasa sudah menyentuh batasnya (fase perlambatan kurva-S). Menyediakan kualitas yang sama dengan biaya lebih murah tetap berarti, tetapi dalam penggunaan sehari-hari perubahan kualitasnya tidak terlalu terasa

    • Halaman pengenalan GPT-5 memuat berbagai hasil benchmark (AIME 2025, SWE-bench, dll.), tetapi hasilnya tidak terasa revolusioner

    • Rasanya kita sekarang sudah masuk ke era “smartphone terbaru yang bikin ingin punya hanya karena itu yang paling baru”

  • Berdasarkan livestream, peningkatan benchmark dibanding model sebelumnya sangat kecil. Saya paham mengapa mereka sejak sebelum rilis mencoba menurunkan ekspektasi, tetapi kenyataannya peningkatannya bahkan jauh lebih kecil dari perkiraan

    • Sebelum rilis, Sam Altman sempat men-tweet gambar Death Star dan membuat orang berekspektasi tinggi

    • Big tech AI saling bersaing di area yang mirip tanpa mampu benar-benar terdiferensiasi, dan OpenAI kini tampaknya akan lebih fokus pada optimalisasi biaya serta penggunaan untuk asisten harian/bisnis ketimbang kecerdasan super tingkat tinggi. Sementara itu, Anthropic dan Google punya ruang pertumbuhan lebih longgar sehingga bisa berinvestasi pada kecerdasan yang lebih tinggi; pada akhirnya mungkin akan muncul model yang lebih pintar dari seri o dan sejenisnya, tetapi pada akhirnya pendapatan dan realitas pasar tetap menjadi batasnya

    • GPT-5 berada di peringkat 1 di WebDev Arena, unggul 75 poin dari Gemini 2.5 Pro dan 100 poin dari Claude Opus 4. Lihat: leaderboard lmarena.ai

    • Demo kode sebagian besar dijalankan dengan GPT-5 MAX berbasis Cursor, dan kebanyakan pengguna tidak akan bisa sering memakai mode MAX seperti itu. Akan lebih baik jika mereka juga mendemonstrasikan versi regulernya

    • Ini mengingatkan saya pada pernyataan Sam dua tahun lalu bahwa ia akan memilih kemajuan bertahap alih-alih pengumuman mengejutkan sekali jadi. Ini baru hari pertama, jadi mungkin masih ada ruang optimasi tambahan 10–20% dalam beberapa bulan ke depan

  • Saya bingung apa sebenarnya sumbu y dalam materi presentasi ini kontroversi grafik terkait

    • Sejak grafik pertama di keseluruhan presentasi, semuanya sudah terlihat ceroboh dan terlalu terburu-buru. Akan lebih baik kalau ada perbandingan dengan Opus 4.1 juga. Sebagai referensi, skor Opus 4.1 adalah 74.5% berita Anthropic Opus 4.1, yang menunjukkan bahwa bahkan setelah upgrade ini Anthropic masih memimpin pada metrik tersebut
  • Dalam contoh demo ChatGPT5, ada penjelasan keliru tentang cara kerja sayap pesawat (airfoil): dikatakan bahwa udara di atas harus menempuh jarak lebih jauh sehingga bergerak lebih cepat dan tekanannya lebih rendah, sementara udara di bawah lebih lambat dan tekanannya lebih tinggi sehingga menghasilkan gaya angkat. Padahal, tidak ada dasar fisika bahwa udara di atas dan bawah harus tiba pada waktu yang sama. Artikel terkait: Cambridge Inggris. Aneh bahwa dari demo pertama saja sudah memakai penjelasan yang salah

    • Itu penjelasan yang sepenuhnya salah. Jika penjelasan itu benar, maka airfoil pelat datar seharusnya tidak bisa menghasilkan gaya angkat, padahal kenyataannya bisa. Saya mengatakan ini dari pengalaman langsung memiliki gelar doktor dalam desain pesawat

    • Ini adalah kesalahpahaman yang sangat terkenal, yaitu equal transit time fallacy, jadi bahkan orang yang bukan ahli aeronautika pun pernah mendengar kesalahan ini

    • Agak aneh menyebutnya “setingkat PhD”. Jika benar-benar setingkat doktor, seharusnya ia menciptakan sains baru, bukan sekadar melampaui informasi yang sudah ada. Sampai sekarang saya belum pernah melihat LLM secara mandiri menghasilkan sains baru; pada dasarnya LLM hanyalah parser kata yang sangat bagus

    • NASA juga mengoperasikan situs penjelasan terpisah tentang penjelasan yang salah

    • Bartosz menjelaskan bidang ini dengan paling baik

  • Context window GPT-5 adalah 400 ribu, output maksimum 128 ribu token, input $1.25, output $10.00. Dokumen resmi. Jika performa ini benar-benar dinilai unggul pada masalah needle-in-haystack, maka ia akan jauh lebih kompetitif dibanding Gemini 2.5 Pro dan Claude Opus 4.1, dan jika versi mini/nano juga benar-benar matang, ini justru bisa menjadi lompatan besar

    • gpt-5 memiliki cutoff 1 Oktober 2024, sedangkan mini/nano 31 Mei 2024. Lini produk 4.1 sebelumnya mendukung 1M/32k token; strukturnya kini adalah harga token input 37% lebih murah dan token output 25% lebih mahal. Hanya produk nano yang input-nya 50% lebih murah dan harga output-nya sama

    • Jika ingin memakai API, biaya verifikasi identitas (waktu, prosedur, dll.) juga perlu diperhitungkan