- Model frontier terbaru yang diterapkan di ChatGPT, API, dan Codex, menyatukan performa penalaran, coding, dan workflow agen
- Memiliki fitur native computer-use bawaan, sehingga agen dapat langsung mengoperasikan situs web dan software untuk menjalankan workflow yang kompleks
- Mendukung context window 1M token dan mengurangi biaya serta latensi lewat pencarian tool dan penggunaan token yang lebih efisien
- Di mode Thinking ChatGPT, proses berpikir dapat disesuaikan di tengah respons, dengan peningkatan pada riset web mendalam dan kemampuan mempertahankan konteks
- Menyerap performa coding GPT-5.3-Codex sambil meningkatkan secara signifikan akurasi dan efisiensi kerja spreadsheet, presentasi, dan dokumen
Ikhtisar GPT‑5.4
- GPT‑5.4 adalah model paling kuat dan efisien yang dirilis bersamaan ke ChatGPT (mode Thinking), API, dan Codex
- Versi GPT‑5.4 Pro memberikan performa maksimum untuk tugas yang kompleks
- Mengintegrasikan kemampuan coding dari GPT‑5.3‑Codex, dan memperkuat akurasi serta efisiensi di lingkungan kerja profesional seperti spreadsheet, presentasi, dan dokumen
- Interoperabilitas antar tool dan lingkungan software ditingkatkan, sehingga percakapan bolak-balik saat bekerja nyata berkurang
Peningkatan mode Thinking di ChatGPT
- GPT-5.4 Thinking menampilkan rencana awal (preamble) dari proses berpikir saat memulai tugas, sehingga pengguna dapat menyesuaikan arah respons di tengah proses pembuatan jawaban
- Dirancang agar output akhir lebih akurat sesuai niat pengguna tanpa perlu turn tambahan
- Peningkatan performa riset web mendalam, terutama efektif untuk query yang sangat spesifik
- Pada pertanyaan yang membutuhkan pemikiran panjang, kemampuan mempertahankan konteks sebelumnya ditingkatkan, sehingga jawaban berkualitas lebih tinggi dapat diberikan lebih cepat
- Tersedia segera di chatgpt.com dan aplikasi Android, dengan dukungan iOS menyusul
Fitur computer use dan vision
- GPT-5.4 adalah model serbaguna pertama yang dilengkapi fitur native computer-use
- Mendukung baik kontrol komputer berbasis kode melalui library seperti Playwright maupun penerbitan perintah mouse dan keyboard berbasis screenshot
- Perilaku dapat disesuaikan melalui developer message, dan confirmation policy kustom memungkinkan tingkat toleransi risiko diatur secara terpisah
- Mencapai 75.0% di OSWorld-Verified, melampaui performa manusia 72.4% dan meningkat tajam dari 47.3% pada GPT-5.2
- Mencapai 67.3% di WebArena-Verified dengan interaksi berbasis DOM + screenshot (GPT-5.2: 65.4%)
- Mencapai 92.8% di Online-Mind2Web hanya dengan observasi berbasis screenshot (ChatGPT Atlas Agent Mode: 70.9%)
Peningkatan persepsi visual dan parsing dokumen
- Kemampuan persepsi visual umum yang ditingkatkan menjadi dasar fitur computer-use
- Di MMMU-Pro, mencapai 81.2% tanpa tool (GPT-5.2: 79.5%) dan 82.1% dengan tool (GPT-5.2: 80.4%)
- Di OmniDocBench, mencapai rata-rata error (normalized edit distance) 0.109 tanpa penalaran (GPT-5.2: 0.140)
- Diperkenalkan level detail input gambar baru
original: mendukung persepsi full-fidelity hingga 10.24M piksel atau dimensi maksimum 6000px
- Level
high diperluas hingga 2.56M piksel atau dimensi maksimum 2048px
- Dalam pengujian awal pengguna API, terlihat peningkatan kuat dalam pelokasian posisi, pemahaman gambar, dan akurasi klik
Performa coding
- Menggabungkan kekuatan coding GPT-5.3-Codex dengan kemampuan kerja profesional dan computer-use
- Mencapai 57.7% di SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
- Memberikan latensi lebih rendah dibanding GPT-5.3-Codex di semua tingkat penalaran
- Saat mode /fast diaktifkan di Codex, kecepatan token hingga 1.5x lebih cepat, dengan model dan tingkat kecerdasan yang sama
- Di API, performa cepat yang sama dapat diakses melalui Priority Processing
- Pada tugas frontend yang kompleks, menghasilkan output yang terlihat lebih estetis dan fungsional dibanding model sebelumnya
- Skill Codex eksperimental "Playwright (Interactive)" dirilis: mendukung debugging visual untuk aplikasi web dan Electron, serta pengujian real-time pada aplikasi yang sedang dibangun
Fitur Tool Search
- Sebelumnya, semua definisi tool dimasukkan lebih dulu ke prompt dan menghabiskan ribuan hingga puluhan ribu token, tetapi dengan Tool Search hanya daftar tool ringan yang diberikan dan definisinya diambil secara dinamis saat diperlukan
- Secara drastis mengurangi penggunaan token pada workflow yang padat tool sekaligus menjaga cache, sehingga kecepatan dan biaya sama-sama membaik
- Peningkatan efisiensi sangat besar terutama untuk definisi tool server MCP yang berukuran puluhan ribu token
- Berdasarkan 250 tugas pada benchmark MCP Atlas milik Scale, saat seluruh 36 server MCP dialihkan ke Tool Search, total penggunaan token turun 47% dengan akurasi tetap sama
Pemanggilan tool dan performa agen
- GPT-5.4 meningkatkan akurasi dan efisiensi dalam menentukan kapan dan bagaimana memakai tool saat bernalar
- Mencapai 54.6% di Toolathlon (GPT-5.2: 45.7%), dengan akurasi lebih tinggi dalam jumlah turn yang lebih sedikit
- Mengevaluasi tugas penggunaan tool nyata multi-langkah seperti membaca email, mengekstrak lampiran tugas, mengunggah, menilai, dan mencatat hasil ke spreadsheet
- Bahkan pada skenario latensi rendah tanpa penalaran, mencapai τ2-bench Telecom 64.3% (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
- Di BrowseComp, mencapai 82.7%, dan GPT-5.4 Pro mencapai 89.3% sebagai performa terbaik baru (GPT-5.2: 65.8%)
- Kemampuan untuk terus melakukan pencarian di berbagai ronde meningkat pada eksplorasi informasi sulit tipe "mencari jarum di tumpukan jerami"
Performa kerja profesional dan knowledge work
- Di GDPval, dievaluasi output kerja nyata dari 44 profesi di 9 industri terbesar AS berdasarkan GDP, termasuk presentasi penjualan, spreadsheet akuntansi, jadwal layanan gawat darurat, diagram manufaktur, dan video pendek
- GPT-5.4: 83.0% setara atau melampaui tingkat ahli (GPT-5.2: 70.9%)
- Pada benchmark internal pemodelan spreadsheet investment banking, rata-rata 87.3% (GPT-5.2: 68.4%)
- Dalam evaluasi presentasi, penilai manusia lebih memilih hasil GPT-5.4 sebesar 68.0% (unggul dalam kualitas estetika, keragaman visual, dan pemanfaatan pembuatan gambar)
- Halusinasi dan error berkurang: berdasarkan prompt di mana pengguna melaporkan kesalahan faktual, kemungkinan klaim individual yang salah turun 33%, dan kemungkinan seluruh respons mengandung error turun 18% dibanding GPT-5.2
Context window 1M dan performa konteks panjang
- Mendukung hingga context 1M token, memungkinkan agen merencanakan, mengeksekusi, dan memverifikasi tugas dalam rentang panjang
- Di Codex, dukungan context window 1M tersedia secara eksperimental, dapat dikonfigurasi dengan
model_context_window dan model_auto_compact_token_limit
- Permintaan yang melebihi context window standar 272K dikenakan biaya 2x
- Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
- OpenAI MRCR v2 8-needle: 97.3% pada 4K–8K, 79.3% pada 128K–256K, 36.6% pada 512K–1M
Penalaran abstrak dan benchmark akademik
- ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
- GPT-5.4 Pro mencapai 83.3% di ARC-AGI-2
- Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
- FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro mencapai 38.0%
- GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
- Humanity's Last Exam: 39.8% tanpa tool, 52.1% dengan tool (GPT-5.2: masing-masing 34.5% dan 45.5%)
- GPT-5.4 Pro mencapai 58.7% saat memakai tool
Keamanan dan security
- Terus meningkatkan perlindungan yang diperkenalkan di GPT-5.3-Codex, dan diklasifikasikan sebagai high cyber capability dalam Preparedness Framework
- Cyber safety stack yang diperluas: termasuk sistem pemantauan, kontrol akses berbasis kepercayaan, dan pemblokiran asinkron pada permukaan Zero Data Retention (ZDR)
- Pendekatan peluncuran preventif dengan mempertimbangkan sifat dual-use dari kemampuan keamanan siber, sambil terus meningkatkan akurasi classifier, sehingga masih ada kemungkinan false positive
- Bertujuan mempertahankan perlindungan pencegahan penyalahgunaan sambil mengurangi penolakan yang tidak perlu dan respons petunjuk yang berlebihan
- Riset pemantauan Chain-of-Thought (CoT) terus berlanjut: tool evaluasi open-source baru CoT controllability dirilis
- Kemampuan kontrol CoT GPT-5.4 Thinking rendah, yang positif bagi keamanan karena model lebih sulit menyembunyikan penalarannya
Harga dan informasi peluncuran
- Nama model API:
gpt-5.4, versi Pro: gpt-5.4-pro
- Harga API (per M token):
- gpt-5.4: input $2.50, input cache $0.25, output $15
- gpt-5.4-pro: input $30, output $180
- gpt-5.2: input $1.75, input cache $0.175, output $14
- Harga per token lebih tinggi dibanding GPT-5.2, tetapi efisiensi token yang meningkat menurunkan total penggunaan token per tugas
- Harga Batch dan Flex adalah setengah dari standar, sedangkan Priority Processing adalah 2x standar
- Di ChatGPT, GPT-5.4 Thinking langsung tersedia untuk pengguna Plus, Team, Pro, menggantikan GPT-5.2 Thinking
- GPT-5.2 Thinking tetap tersedia selama 3 bulan di bagian Legacy Models untuk pengguna berbayar sebelum berakhir pada 5 Juni 2026
- Paket Enterprise dan Edu dapat mengaktifkan akses awal melalui pengaturan admin
- GPT-5.4 Pro tersedia pada paket Pro dan Enterprise
- GPT-5.4 adalah model penalaran mainline pertama yang mengintegrasikan kemampuan frontier coding dari GPT-5.3-Codex, dan model Instant serta Thinking akan berevolusi dengan kecepatan yang berbeda di masa mendatang
2 komentar
Komentar Hacker News
Kotak “Ask ChatGPT” di bagian bawah posting blog itu terasa lucu
Kalau diminta merangkum isi artikelnya, jendela baru memang terbuka, tapi jawabannya hanya “tidak dapat mengakses URL eksternal”
Jadi penasaran apakah OpenAI sadar bahwa fitur ini sebenarnya tidak berfungsi
Saat login, fitur itu berjalan normal, dan sudah dikirim laporan bug ke tim
Lihat tautan contoh yang dibagikan
Saya juga dalam keadaan login
Mungkin izin akses URL eksternal berbeda tergantung status login
Rasanya Anthropic lebih memperhatikan detail UX seperti ini
Terasa bahwa lini model OpenAI sudah jadi terlalu rumit
GPT‑5.1, 5.2, 5.4 bercampur dengan Codex 5.3 dan Instant 5.3
Sementara Anthropic membedakan hanya tiga model dengan jelas, dan Google masih punya model Preview saja
Ada keluhan bahwa sebagai developer, sulit memakai versi yang stabil
Selalu terjebak dalam situasi harus memilih salah satunya
Kalau engineer, harusnya mudah memahami bahwa 5.4 > 5.2 > 5.1
3.x masih Preview, jadi makin membingungkan
Versi antara Opus, Sonnet, dan Haiku tidak selaras, dan struktur harga-nya juga rumit
Pada akhirnya semua perusahaan menghadapi masalah serupa
Ini era di mana kita bisa berpindah dengan mudah hanya dengan mengganti API
Inti GPT‑5.4 adalah jendela konteks 1M token
Berdasarkan daftar harga resmi, tidak ada biaya tambahan di atas 200k
Jauh lebih murah daripada Opus 4.6, tapi masih diragukan apakah konteks 1M benar-benar memberi manfaat nyata
Menurut dokumentasi terbaru, model ini menggantikan GPT‑5.3‑Codex
jika melewati 272K token, biaya input menjadi 2x dan output 1.5x
Semakin banyak token, semakin tinggi biaya dan latensinya
Dalam pengujian internal OpenAI, konteks pendek lebih efisien untuk kebanyakan kasus
(komentar karyawan)
perbandingan seharusnya dilihat dari biaya per tugas
Dalam praktiknya, biaya GPT‑5.x dan Opus ada di tingkat yang mirip
Hasil kerja nyata lebih penting daripada benchmark
padahal dokumentasi developer sebenarnya lebih akurat
Tarif dasar hanya berlaku sampai 272k
tetapi Anthropic punya rencana untuk menguranginya lewat RL untuk tugas-tugas panjang
Saya sudah mencoba GPT‑5.4 beberapa kali, dan kejernihan tulisan serta kemampuan analisisnya terasa mengesankan
Gaya bahasanya jauh lebih natural dan manusiawi dibanding 5.3‑Codex
Bisa jadi karena AGENTS.md saya memang meminta bahasa yang sederhana
dan rasanya pola itu terulang lagi
Claude terasa relatif lebih longgar
OpenAI sempat menghindari kebingungan penomoran versi selama 8 bulan, tapi akhirnya jadi rumit lagi
Nama-nama seperti GPT‑5.3 Instant dan GPT‑5.4 Thinking bercampur aduk
Jadi harus dipakai sesuai kegunaannya
Demo game RPG di blog itu cukup mengesankan
Kualitasnya mirip “Battle Brothers”, dan jadi contoh yang bagus untuk autonomous engineering
Dengan kecepatan seperti ini, pasar low-code tools bisa saja terancam
Codex kini bisa melakukan debugging dan pengujian web app secara visual
Model ini kemungkinan juga akan dipakai di bidang militer dan keamanan
GPT‑5.4 mendemonstrasikan kemampuan menafsirkan screenshot browser untuk mengklik UI Gmail dan mengirim email
Tapi saya rasa memakai Gmail API akan lebih efisien daripada pendekatan seperti ini
Screenshot sekaligus menyediakan dokumen, API, dan sarana navigasi dalam satu paket
Jika berhasil, generalitasnya tinggi, tapi pendekatan berbasis API tetap valid
Pendekatan ini bisa mem-bypass keterbatasan tersebut
sedangkan model yang hanya menangani API tidak
Dari sisi penyebaran ekonomi, yang pertama lebih bernilai
Pada akhirnya kenyamanan lebih diutamakan
Untuk coding sehari-hari saya, tiga coding agent teratas sudah cukup
Berdasarkan SWE‑bench Verified, GPT‑5.2 Codex mendapat 72.8, dan GPT‑5.4 naik sekitar 2 poin
Bukan lompatan besar, tapi tetap ada peningkatan
Di SWE‑bench, Claude 4.6 Opus masih unggul dengan 75.6
Namun fitur agent di Codex CLI sudah banyak membaik dan mulai mendekati level Claude Code
OpenAI sempat menyatukan model-modelnya, lalu kembali merilis versi yang tersegmentasi sehingga membingungkan
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro, terlalu banyak
Meski begitu, dukungan jendela konteks 1M tetap disambut baik
Bisa memilih sesuai kebutuhan, dan pengguna umum tetap bisa memakai mode Auto