GPT‑5.4 Dirilis

(openai.com)

11 poin oleh GN⁺ 2026-03-06 | 2 komentar | Bagikan ke WhatsApp

Model frontier terbaru yang diterapkan di ChatGPT, API, dan Codex, menyatukan performa penalaran, coding, dan workflow agen
Memiliki fitur native computer-use bawaan, sehingga agen dapat langsung mengoperasikan situs web dan software untuk menjalankan workflow yang kompleks
Mendukung context window 1M token dan mengurangi biaya serta latensi lewat pencarian tool dan penggunaan token yang lebih efisien
Di mode Thinking ChatGPT, proses berpikir dapat disesuaikan di tengah respons, dengan peningkatan pada riset web mendalam dan kemampuan mempertahankan konteks
Menyerap performa coding GPT-5.3-Codex sambil meningkatkan secara signifikan akurasi dan efisiensi kerja spreadsheet, presentasi, dan dokumen

Ikhtisar GPT‑5.4

GPT‑5.4 adalah model paling kuat dan efisien yang dirilis bersamaan ke ChatGPT (mode Thinking), API, dan Codex
- Versi GPT‑5.4 Pro memberikan performa maksimum untuk tugas yang kompleks
Mengintegrasikan kemampuan coding dari GPT‑5.3‑Codex, dan memperkuat akurasi serta efisiensi di lingkungan kerja profesional seperti spreadsheet, presentasi, dan dokumen
Interoperabilitas antar tool dan lingkungan software ditingkatkan, sehingga percakapan bolak-balik saat bekerja nyata berkurang

Peningkatan mode Thinking di ChatGPT

GPT-5.4 Thinking menampilkan rencana awal (preamble) dari proses berpikir saat memulai tugas, sehingga pengguna dapat menyesuaikan arah respons di tengah proses pembuatan jawaban
Dirancang agar output akhir lebih akurat sesuai niat pengguna tanpa perlu turn tambahan
Peningkatan performa riset web mendalam, terutama efektif untuk query yang sangat spesifik
Pada pertanyaan yang membutuhkan pemikiran panjang, kemampuan mempertahankan konteks sebelumnya ditingkatkan, sehingga jawaban berkualitas lebih tinggi dapat diberikan lebih cepat
Tersedia segera di chatgpt.com dan aplikasi Android, dengan dukungan iOS menyusul

Fitur computer use dan vision

GPT-5.4 adalah model serbaguna pertama yang dilengkapi fitur native computer-use
Mendukung baik kontrol komputer berbasis kode melalui library seperti Playwright maupun penerbitan perintah mouse dan keyboard berbasis screenshot
Perilaku dapat disesuaikan melalui developer message, dan confirmation policy kustom memungkinkan tingkat toleransi risiko diatur secara terpisah
Mencapai 75.0% di OSWorld-Verified, melampaui performa manusia 72.4% dan meningkat tajam dari 47.3% pada GPT-5.2
Mencapai 67.3% di WebArena-Verified dengan interaksi berbasis DOM + screenshot (GPT-5.2: 65.4%)
Mencapai 92.8% di Online-Mind2Web hanya dengan observasi berbasis screenshot (ChatGPT Atlas Agent Mode: 70.9%)

Peningkatan persepsi visual dan parsing dokumen

Kemampuan persepsi visual umum yang ditingkatkan menjadi dasar fitur computer-use
Di MMMU-Pro, mencapai 81.2% tanpa tool (GPT-5.2: 79.5%) dan 82.1% dengan tool (GPT-5.2: 80.4%)
Di OmniDocBench, mencapai rata-rata error (normalized edit distance) 0.109 tanpa penalaran (GPT-5.2: 0.140)
Diperkenalkan level detail input gambar baru original: mendukung persepsi full-fidelity hingga 10.24M piksel atau dimensi maksimum 6000px
- Level high diperluas hingga 2.56M piksel atau dimensi maksimum 2048px
- Dalam pengujian awal pengguna API, terlihat peningkatan kuat dalam pelokasian posisi, pemahaman gambar, dan akurasi klik

Performa coding

Menggabungkan kekuatan coding GPT-5.3-Codex dengan kemampuan kerja profesional dan computer-use
Mencapai 57.7% di SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
Memberikan latensi lebih rendah dibanding GPT-5.3-Codex di semua tingkat penalaran
Saat mode /fast diaktifkan di Codex, kecepatan token hingga 1.5x lebih cepat, dengan model dan tingkat kecerdasan yang sama
- Di API, performa cepat yang sama dapat diakses melalui Priority Processing
Pada tugas frontend yang kompleks, menghasilkan output yang terlihat lebih estetis dan fungsional dibanding model sebelumnya
Skill Codex eksperimental "Playwright (Interactive)" dirilis: mendukung debugging visual untuk aplikasi web dan Electron, serta pengujian real-time pada aplikasi yang sedang dibangun

Fitur Tool Search

Sebelumnya, semua definisi tool dimasukkan lebih dulu ke prompt dan menghabiskan ribuan hingga puluhan ribu token, tetapi dengan Tool Search hanya daftar tool ringan yang diberikan dan definisinya diambil secara dinamis saat diperlukan
Secara drastis mengurangi penggunaan token pada workflow yang padat tool sekaligus menjaga cache, sehingga kecepatan dan biaya sama-sama membaik
Peningkatan efisiensi sangat besar terutama untuk definisi tool server MCP yang berukuran puluhan ribu token
Berdasarkan 250 tugas pada benchmark MCP Atlas milik Scale, saat seluruh 36 server MCP dialihkan ke Tool Search, total penggunaan token turun 47% dengan akurasi tetap sama

Pemanggilan tool dan performa agen

GPT-5.4 meningkatkan akurasi dan efisiensi dalam menentukan kapan dan bagaimana memakai tool saat bernalar
Mencapai 54.6% di Toolathlon (GPT-5.2: 45.7%), dengan akurasi lebih tinggi dalam jumlah turn yang lebih sedikit
- Mengevaluasi tugas penggunaan tool nyata multi-langkah seperti membaca email, mengekstrak lampiran tugas, mengunggah, menilai, dan mencatat hasil ke spreadsheet
Bahkan pada skenario latensi rendah tanpa penalaran, mencapai τ2-bench Telecom 64.3% (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
Di BrowseComp, mencapai 82.7%, dan GPT-5.4 Pro mencapai 89.3% sebagai performa terbaik baru (GPT-5.2: 65.8%)
- Kemampuan untuk terus melakukan pencarian di berbagai ronde meningkat pada eksplorasi informasi sulit tipe "mencari jarum di tumpukan jerami"

Performa kerja profesional dan knowledge work

Di GDPval, dievaluasi output kerja nyata dari 44 profesi di 9 industri terbesar AS berdasarkan GDP, termasuk presentasi penjualan, spreadsheet akuntansi, jadwal layanan gawat darurat, diagram manufaktur, dan video pendek
- GPT-5.4: 83.0% setara atau melampaui tingkat ahli (GPT-5.2: 70.9%)
Pada benchmark internal pemodelan spreadsheet investment banking, rata-rata 87.3% (GPT-5.2: 68.4%)
Dalam evaluasi presentasi, penilai manusia lebih memilih hasil GPT-5.4 sebesar 68.0% (unggul dalam kualitas estetika, keragaman visual, dan pemanfaatan pembuatan gambar)
Halusinasi dan error berkurang: berdasarkan prompt di mana pengguna melaporkan kesalahan faktual, kemungkinan klaim individual yang salah turun 33%, dan kemungkinan seluruh respons mengandung error turun 18% dibanding GPT-5.2

Context window 1M dan performa konteks panjang

Mendukung hingga context 1M token, memungkinkan agen merencanakan, mengeksekusi, dan memverifikasi tugas dalam rentang panjang
Di Codex, dukungan context window 1M tersedia secara eksperimental, dapat dikonfigurasi dengan model_context_window dan model_auto_compact_token_limit
- Permintaan yang melebihi context window standar 272K dikenakan biaya 2x
Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
OpenAI MRCR v2 8-needle: 97.3% pada 4K–8K, 79.3% pada 128K–256K, 36.6% pada 512K–1M

Penalaran abstrak dan benchmark akademik

ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
GPT-5.4 Pro mencapai 83.3% di ARC-AGI-2
Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro mencapai 38.0%
GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
Humanity's Last Exam: 39.8% tanpa tool, 52.1% dengan tool (GPT-5.2: masing-masing 34.5% dan 45.5%)
- GPT-5.4 Pro mencapai 58.7% saat memakai tool

Keamanan dan security

Terus meningkatkan perlindungan yang diperkenalkan di GPT-5.3-Codex, dan diklasifikasikan sebagai high cyber capability dalam Preparedness Framework
Cyber safety stack yang diperluas: termasuk sistem pemantauan, kontrol akses berbasis kepercayaan, dan pemblokiran asinkron pada permukaan Zero Data Retention (ZDR)
Pendekatan peluncuran preventif dengan mempertimbangkan sifat dual-use dari kemampuan keamanan siber, sambil terus meningkatkan akurasi classifier, sehingga masih ada kemungkinan false positive
Bertujuan mempertahankan perlindungan pencegahan penyalahgunaan sambil mengurangi penolakan yang tidak perlu dan respons petunjuk yang berlebihan
Riset pemantauan Chain-of-Thought (CoT) terus berlanjut: tool evaluasi open-source baru CoT controllability dirilis
- Kemampuan kontrol CoT GPT-5.4 Thinking rendah, yang positif bagi keamanan karena model lebih sulit menyembunyikan penalarannya

Harga dan informasi peluncuran

Nama model API: gpt-5.4, versi Pro: gpt-5.4-pro
Harga API (per M token):
- gpt-5.4: input $2.50, input cache $0.25, output $15
- gpt-5.4-pro: input $30, output $180
- gpt-5.2: input $1.75, input cache $0.175, output $14
Harga per token lebih tinggi dibanding GPT-5.2, tetapi efisiensi token yang meningkat menurunkan total penggunaan token per tugas
Harga Batch dan Flex adalah setengah dari standar, sedangkan Priority Processing adalah 2x standar
Di ChatGPT, GPT-5.4 Thinking langsung tersedia untuk pengguna Plus, Team, Pro, menggantikan GPT-5.2 Thinking
- GPT-5.2 Thinking tetap tersedia selama 3 bulan di bagian Legacy Models untuk pengguna berbayar sebelum berakhir pada 5 Juni 2026
- Paket Enterprise dan Edu dapat mengaktifkan akses awal melalui pengaturan admin
- GPT-5.4 Pro tersedia pada paket Pro dan Enterprise
GPT-5.4 adalah model penalaran mainline pertama yang mengintegrasikan kemampuan frontier coding dari GPT-5.3-Codex, dan model Instant serta Thinking akan berevolusi dengan kecepatan yang berbeda di masa mendatang

2 komentar

helio 2026-03-06

Saat mode /fast diaktifkan di Codex, kecepatan token hingga 1,5x lebih cepat, dengan model yang sama dan tingkat kecerdasan yang sama tetap dipertahankan. Di API, ini disebut Priority Processing.
Harga Priority Processing adalah 2x dari standar
Permintaan yang melebihi jendela konteks standar 272K akan dikenakan biaya 2x

GN⁺ 2026-03-06

Komentar Hacker News

Kotak “Ask ChatGPT” di bagian bawah posting blog itu terasa lucu
Kalau diminta merangkum isi artikelnya, jendela baru memang terbuka, tapi jawabannya hanya “tidak dapat mengakses URL eksternal”
Jadi penasaran apakah OpenAI sadar bahwa fitur ini sebenarnya tidak berfungsi
- Sepertinya hanya tidak bekerja untuk pengguna yang belum login
  Saat login, fitur itu berjalan normal, dan sudah dikirim laporan bug ke tim
- Saat saya coba, rangkumannya dibuat dengan normal
  Lihat tautan contoh yang dibagikan
  Saya juga dalam keadaan login
- Bagi saya juga berfungsi baik saat login
  Mungkin izin akses URL eksternal berbeda tergantung status login
- Saya baru mencoba Claude lagi setelah lama, dan UX-nya ternyata cukup membaik
  Rasanya Anthropic lebih memperhatikan detail UX seperti ini
- Saya juga penasaran apakah pesan itu muncul karena masalah hak cipta
Terasa bahwa lini model OpenAI sudah jadi terlalu rumit
GPT‑5.1, 5.2, 5.4 bercampur dengan Codex 5.3 dan Instant 5.3
Sementara Anthropic membedakan hanya tiga model dengan jelas, dan Google masih punya model Preview saja
Ada keluhan bahwa sebagai developer, sulit memakai versi yang stabil
- Ini mengingatkan pada meme alat Google lama vs alat beta baru
  Selalu terjebak dalam situasi harus memilih salah satunya
- Bingung dengan penomoran versi terasa seperti terlalu mencari-cari kesalahan
  Kalau engineer, harusnya mudah memahami bahwa 5.4 > 5.2 > 5.1
- Google memberi tahu bahwa model 2.5 akan segera deprecated
  3.x masih Preview, jadi makin membingungkan
- Anthropic juga berantakan soal sistem versinya
  Versi antara Opus, Sonnet, dan Haiku tidak selaras, dan struktur harga-nya juga rumit
  Pada akhirnya semua perusahaan menghadapi masalah serupa
- Setiap bulan ada model yang lebih baik, jadi tidak ada alasan untuk keras kepala bertahan pada model yang sama
  Ini era di mana kita bisa berpindah dengan mudah hanya dengan mengganti API
Inti GPT‑5.4 adalah jendela konteks 1M token
Berdasarkan daftar harga resmi, tidak ada biaya tambahan di atas 200k
Jauh lebih murah daripada Opus 4.6, tapi masih diragukan apakah konteks 1M benar-benar memberi manfaat nyata
Menurut dokumentasi terbaru, model ini menggantikan GPT‑5.3‑Codex
- Menurut dokumentasi model,
  jika melewati 272K token, biaya input menjadi 2x dan output 1.5x
- Konteks panjang vs compaction selalu jadi dilema
  Semakin banyak token, semakin tinggi biaya dan latensinya
  Dalam pengujian internal OpenAI, konteks pendek lebih efisien untuk kebanyakan kasus
  (komentar karyawan)
- Karena Claude membutuhkan lebih sedikit token untuk tugas yang sama,
  perbandingan seharusnya dilihat dari biaya per tugas
  Dalam praktiknya, biaya GPT‑5.x dan Opus ada di tingkat yang mirip
  Hasil kerja nyata lebih penting daripada benchmark
- Kebanyakan orang hanya melihat daftar harga resmi,
  padahal dokumentasi developer sebenarnya lebih akurat
  Tarif dasar hanya berlaku sampai 272k
- Masalah context rot masih tetap ada,
  tetapi Anthropic punya rencana untuk menguranginya lewat RL untuk tugas-tugas panjang
Saya sudah mencoba GPT‑5.4 beberapa kali, dan kejernihan tulisan serta kemampuan analisisnya terasa mengesankan
Gaya bahasanya jauh lebih natural dan manusiawi dibanding 5.3‑Codex
Bisa jadi karena AGENTS.md saya memang meminta bahasa yang sederhana
- Tapi di codebase saya, model ini melewatkan bug kehilangan data yang penting
- Setiap kali model baru keluar, selalu muncul posting yang bilang “model sebelumnya itu primitif”,
  dan rasanya pola itu terulang lagi
- Saya juga pindah dari Opus ke Codex, dan penalarannya lebih lambat tapi akurasinya meningkat
  Claude terasa relatif lebih longgar
- Saya penasaran apakah hasilnya akan sama kalau memakai file AGENTS.md yang sama
- Menurut riset terbaru, menyertakan AGENTS.md justru bisa menurunkan performa
OpenAI sempat menghindari kebingungan penomoran versi selama 8 bulan, tapi akhirnya jadi rumit lagi
Nama-nama seperti GPT‑5.3 Instant dan GPT‑5.4 Thinking bercampur aduk
- Perbedaan antara GPT‑5.3 Instant dan gpt‑5.3‑chat membingungkan
- Sebenarnya ada juga 5.3 Codex
- Model Instant bagus untuk ringkasan atau pencarian, tetapi dalam percakapan kompleks mudah kehilangan konteks
  Jadi harus dipakai sesuai kegunaannya
Demo game RPG di blog itu cukup mengesankan
Kualitasnya mirip “Battle Brothers”, dan jadi contoh yang bagus untuk autonomous engineering
- Mengejutkan bahwa AI bisa membuat clone RollerCoaster Tycoon dalam sekali jalan
  Dengan kecepatan seperti ini, pasar low-code tools bisa saja terancam
- Tapi secara praktik, itu masih tampak seperti demo yang sederhana
- Mungkin ini berkat integrasi Playwright
  Codex kini bisa melakukan debugging dan pengujian web app secara visual
Model ini kemungkinan juga akan dipakai di bidang militer dan keamanan
- Disebutkan bahwa skor keselamatan terkait kekerasan turun dari 91% ke 83%
- Penasaran apakah hasil benchmark militer seperti ArtificialSuperSoldier juga dipublikasikan
- Ingin tahu apakah ini juga bisa dipakai dengan pendekatan ala Anthropic seperti model Claude
- Industri periklanan juga sepertinya akan mengincar teknologi ini
- Militer masih memakai versi 4.1, jadi upgrade mungkin akan butuh waktu
GPT‑5.4 mendemonstrasikan kemampuan menafsirkan screenshot browser untuk mengklik UI Gmail dan mengirim email
Tapi saya rasa memakai Gmail API akan lebih efisien daripada pendekatan seperti ini
- Sebagian besar website tidak punya API atau dokumentasinya buruk
  Screenshot sekaligus menyediakan dokumen, API, dan sarana navigasi dalam satu paket
- Rasanya seperti membuat robot humanoid agar bisa memakai alat yang dirancang untuk tangan manusia
  Jika berhasil, generalitasnya tinggi, tapi pendekatan berbasis API tetap valid
- Banyak layanan memang tidak berniat membuka API
  Pendekatan ini bisa mem-bypass keterbatasan tersebut
- Model yang mempelajari kemampuan menggunakan komputer bisa dipakai di mana saja,
  sedangkan model yang hanya menangani API tidak
  Dari sisi penyebaran ekonomi, yang pertama lebih bernilai
- Mirip alasan Wikipedia lebih sering jadi sasaran web scraping daripada API-nya dipakai
  Pada akhirnya kenyamanan lebih diutamakan
Untuk coding sehari-hari saya, tiga coding agent teratas sudah cukup
Berdasarkan SWE‑bench Verified, GPT‑5.2 Codex mendapat 72.8, dan GPT‑5.4 naik sekitar 2 poin
Bukan lompatan besar, tapi tetap ada peningkatan
Di SWE‑bench, Claude 4.6 Opus masih unggul dengan 75.6
Namun fitur agent di Codex CLI sudah banyak membaik dan mulai mendekati level Claude Code
OpenAI sempat menyatukan model-modelnya, lalu kembali merilis versi yang tersegmentasi sehingga membingungkan
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro, terlalu banyak
Meski begitu, dukungan jendela konteks 1M tetap disambut baik
- Saya justru suka punya pilihan seperti ini
  Bisa memilih sesuai kebutuhan, dan pengguna umum tetap bisa memakai mode Auto
- Karena opsi Auto masih ada, ini sebenarnya bukan masalah besar
- Mungkin di backend, GPT‑5 memakai struktur auto-routing ke beberapa model berbeda

GPT‑5.4 Dirilis

Ikhtisar GPT‑5.4

Peningkatan mode Thinking di ChatGPT

Fitur computer use dan vision

Peningkatan persepsi visual dan parsing dokumen

Performa coding

Fitur Tool Search

Pemanggilan tool dan performa agen

Performa kerja profesional dan knowledge work

Context window 1M dan performa konteks panjang

Penalaran abstrak dan benchmark akademik

Keamanan dan security

Harga dan informasi peluncuran

Bacaan terkait

2 komentar

Komentar Hacker News