11 poin oleh GN⁺ 2026-03-06 | 2 komentar | Bagikan ke WhatsApp
  • Model frontier terbaru yang diterapkan di ChatGPT, API, dan Codex, menyatukan performa penalaran, coding, dan workflow agen
  • Memiliki fitur native computer-use bawaan, sehingga agen dapat langsung mengoperasikan situs web dan software untuk menjalankan workflow yang kompleks
  • Mendukung context window 1M token dan mengurangi biaya serta latensi lewat pencarian tool dan penggunaan token yang lebih efisien
  • Di mode Thinking ChatGPT, proses berpikir dapat disesuaikan di tengah respons, dengan peningkatan pada riset web mendalam dan kemampuan mempertahankan konteks
  • Menyerap performa coding GPT-5.3-Codex sambil meningkatkan secara signifikan akurasi dan efisiensi kerja spreadsheet, presentasi, dan dokumen

Ikhtisar GPT‑5.4

  • GPT‑5.4 adalah model paling kuat dan efisien yang dirilis bersamaan ke ChatGPT (mode Thinking), API, dan Codex
    • Versi GPT‑5.4 Pro memberikan performa maksimum untuk tugas yang kompleks
  • Mengintegrasikan kemampuan coding dari GPT‑5.3‑Codex, dan memperkuat akurasi serta efisiensi di lingkungan kerja profesional seperti spreadsheet, presentasi, dan dokumen
  • Interoperabilitas antar tool dan lingkungan software ditingkatkan, sehingga percakapan bolak-balik saat bekerja nyata berkurang

Peningkatan mode Thinking di ChatGPT

  • GPT-5.4 Thinking menampilkan rencana awal (preamble) dari proses berpikir saat memulai tugas, sehingga pengguna dapat menyesuaikan arah respons di tengah proses pembuatan jawaban
  • Dirancang agar output akhir lebih akurat sesuai niat pengguna tanpa perlu turn tambahan
  • Peningkatan performa riset web mendalam, terutama efektif untuk query yang sangat spesifik
  • Pada pertanyaan yang membutuhkan pemikiran panjang, kemampuan mempertahankan konteks sebelumnya ditingkatkan, sehingga jawaban berkualitas lebih tinggi dapat diberikan lebih cepat
  • Tersedia segera di chatgpt.com dan aplikasi Android, dengan dukungan iOS menyusul

Fitur computer use dan vision

  • GPT-5.4 adalah model serbaguna pertama yang dilengkapi fitur native computer-use
  • Mendukung baik kontrol komputer berbasis kode melalui library seperti Playwright maupun penerbitan perintah mouse dan keyboard berbasis screenshot
  • Perilaku dapat disesuaikan melalui developer message, dan confirmation policy kustom memungkinkan tingkat toleransi risiko diatur secara terpisah
  • Mencapai 75.0% di OSWorld-Verified, melampaui performa manusia 72.4% dan meningkat tajam dari 47.3% pada GPT-5.2
  • Mencapai 67.3% di WebArena-Verified dengan interaksi berbasis DOM + screenshot (GPT-5.2: 65.4%)
  • Mencapai 92.8% di Online-Mind2Web hanya dengan observasi berbasis screenshot (ChatGPT Atlas Agent Mode: 70.9%)

Peningkatan persepsi visual dan parsing dokumen

  • Kemampuan persepsi visual umum yang ditingkatkan menjadi dasar fitur computer-use
  • Di MMMU-Pro, mencapai 81.2% tanpa tool (GPT-5.2: 79.5%) dan 82.1% dengan tool (GPT-5.2: 80.4%)
  • Di OmniDocBench, mencapai rata-rata error (normalized edit distance) 0.109 tanpa penalaran (GPT-5.2: 0.140)
  • Diperkenalkan level detail input gambar baru original: mendukung persepsi full-fidelity hingga 10.24M piksel atau dimensi maksimum 6000px
    • Level high diperluas hingga 2.56M piksel atau dimensi maksimum 2048px
    • Dalam pengujian awal pengguna API, terlihat peningkatan kuat dalam pelokasian posisi, pemahaman gambar, dan akurasi klik

Performa coding

  • Menggabungkan kekuatan coding GPT-5.3-Codex dengan kemampuan kerja profesional dan computer-use
  • Mencapai 57.7% di SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
  • Memberikan latensi lebih rendah dibanding GPT-5.3-Codex di semua tingkat penalaran
  • Saat mode /fast diaktifkan di Codex, kecepatan token hingga 1.5x lebih cepat, dengan model dan tingkat kecerdasan yang sama
    • Di API, performa cepat yang sama dapat diakses melalui Priority Processing
  • Pada tugas frontend yang kompleks, menghasilkan output yang terlihat lebih estetis dan fungsional dibanding model sebelumnya
  • Skill Codex eksperimental "Playwright (Interactive)" dirilis: mendukung debugging visual untuk aplikasi web dan Electron, serta pengujian real-time pada aplikasi yang sedang dibangun

Fitur Tool Search

  • Sebelumnya, semua definisi tool dimasukkan lebih dulu ke prompt dan menghabiskan ribuan hingga puluhan ribu token, tetapi dengan Tool Search hanya daftar tool ringan yang diberikan dan definisinya diambil secara dinamis saat diperlukan
  • Secara drastis mengurangi penggunaan token pada workflow yang padat tool sekaligus menjaga cache, sehingga kecepatan dan biaya sama-sama membaik
  • Peningkatan efisiensi sangat besar terutama untuk definisi tool server MCP yang berukuran puluhan ribu token
  • Berdasarkan 250 tugas pada benchmark MCP Atlas milik Scale, saat seluruh 36 server MCP dialihkan ke Tool Search, total penggunaan token turun 47% dengan akurasi tetap sama

Pemanggilan tool dan performa agen

  • GPT-5.4 meningkatkan akurasi dan efisiensi dalam menentukan kapan dan bagaimana memakai tool saat bernalar
  • Mencapai 54.6% di Toolathlon (GPT-5.2: 45.7%), dengan akurasi lebih tinggi dalam jumlah turn yang lebih sedikit
    • Mengevaluasi tugas penggunaan tool nyata multi-langkah seperti membaca email, mengekstrak lampiran tugas, mengunggah, menilai, dan mencatat hasil ke spreadsheet
  • Bahkan pada skenario latensi rendah tanpa penalaran, mencapai τ2-bench Telecom 64.3% (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
  • Di BrowseComp, mencapai 82.7%, dan GPT-5.4 Pro mencapai 89.3% sebagai performa terbaik baru (GPT-5.2: 65.8%)
    • Kemampuan untuk terus melakukan pencarian di berbagai ronde meningkat pada eksplorasi informasi sulit tipe "mencari jarum di tumpukan jerami"

Performa kerja profesional dan knowledge work

  • Di GDPval, dievaluasi output kerja nyata dari 44 profesi di 9 industri terbesar AS berdasarkan GDP, termasuk presentasi penjualan, spreadsheet akuntansi, jadwal layanan gawat darurat, diagram manufaktur, dan video pendek
    • GPT-5.4: 83.0% setara atau melampaui tingkat ahli (GPT-5.2: 70.9%)
  • Pada benchmark internal pemodelan spreadsheet investment banking, rata-rata 87.3% (GPT-5.2: 68.4%)
  • Dalam evaluasi presentasi, penilai manusia lebih memilih hasil GPT-5.4 sebesar 68.0% (unggul dalam kualitas estetika, keragaman visual, dan pemanfaatan pembuatan gambar)
  • Halusinasi dan error berkurang: berdasarkan prompt di mana pengguna melaporkan kesalahan faktual, kemungkinan klaim individual yang salah turun 33%, dan kemungkinan seluruh respons mengandung error turun 18% dibanding GPT-5.2

Context window 1M dan performa konteks panjang

  • Mendukung hingga context 1M token, memungkinkan agen merencanakan, mengeksekusi, dan memverifikasi tugas dalam rentang panjang
  • Di Codex, dukungan context window 1M tersedia secara eksperimental, dapat dikonfigurasi dengan model_context_window dan model_auto_compact_token_limit
    • Permintaan yang melebihi context window standar 272K dikenakan biaya 2x
  • Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
  • OpenAI MRCR v2 8-needle: 97.3% pada 4K–8K, 79.3% pada 128K–256K, 36.6% pada 512K–1M

Penalaran abstrak dan benchmark akademik

  • ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
  • GPT-5.4 Pro mencapai 83.3% di ARC-AGI-2
  • Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
  • FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro mencapai 38.0%
  • GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
  • Humanity's Last Exam: 39.8% tanpa tool, 52.1% dengan tool (GPT-5.2: masing-masing 34.5% dan 45.5%)
    • GPT-5.4 Pro mencapai 58.7% saat memakai tool

Keamanan dan security

  • Terus meningkatkan perlindungan yang diperkenalkan di GPT-5.3-Codex, dan diklasifikasikan sebagai high cyber capability dalam Preparedness Framework
  • Cyber safety stack yang diperluas: termasuk sistem pemantauan, kontrol akses berbasis kepercayaan, dan pemblokiran asinkron pada permukaan Zero Data Retention (ZDR)
  • Pendekatan peluncuran preventif dengan mempertimbangkan sifat dual-use dari kemampuan keamanan siber, sambil terus meningkatkan akurasi classifier, sehingga masih ada kemungkinan false positive
  • Bertujuan mempertahankan perlindungan pencegahan penyalahgunaan sambil mengurangi penolakan yang tidak perlu dan respons petunjuk yang berlebihan
  • Riset pemantauan Chain-of-Thought (CoT) terus berlanjut: tool evaluasi open-source baru CoT controllability dirilis
    • Kemampuan kontrol CoT GPT-5.4 Thinking rendah, yang positif bagi keamanan karena model lebih sulit menyembunyikan penalarannya

Harga dan informasi peluncuran

  • Nama model API: gpt-5.4, versi Pro: gpt-5.4-pro
  • Harga API (per M token):
    • gpt-5.4: input $2.50, input cache $0.25, output $15
    • gpt-5.4-pro: input $30, output $180
    • gpt-5.2: input $1.75, input cache $0.175, output $14
  • Harga per token lebih tinggi dibanding GPT-5.2, tetapi efisiensi token yang meningkat menurunkan total penggunaan token per tugas
  • Harga Batch dan Flex adalah setengah dari standar, sedangkan Priority Processing adalah 2x standar
  • Di ChatGPT, GPT-5.4 Thinking langsung tersedia untuk pengguna Plus, Team, Pro, menggantikan GPT-5.2 Thinking
    • GPT-5.2 Thinking tetap tersedia selama 3 bulan di bagian Legacy Models untuk pengguna berbayar sebelum berakhir pada 5 Juni 2026
    • Paket Enterprise dan Edu dapat mengaktifkan akses awal melalui pengaturan admin
    • GPT-5.4 Pro tersedia pada paket Pro dan Enterprise
  • GPT-5.4 adalah model penalaran mainline pertama yang mengintegrasikan kemampuan frontier coding dari GPT-5.3-Codex, dan model Instant serta Thinking akan berevolusi dengan kecepatan yang berbeda di masa mendatang

2 komentar

 
helio 2026-03-06

Saat mode /fast diaktifkan di Codex, kecepatan token hingga 1,5x lebih cepat, dengan model yang sama dan tingkat kecerdasan yang sama tetap dipertahankan. Di API, ini disebut Priority Processing.
Harga Priority Processing adalah 2x dari standar
Permintaan yang melebihi jendela konteks standar 272K akan dikenakan biaya 2x

 
GN⁺ 2026-03-06
Komentar Hacker News
  • Kotak “Ask ChatGPT” di bagian bawah posting blog itu terasa lucu
    Kalau diminta merangkum isi artikelnya, jendela baru memang terbuka, tapi jawabannya hanya “tidak dapat mengakses URL eksternal”
    Jadi penasaran apakah OpenAI sadar bahwa fitur ini sebenarnya tidak berfungsi

    • Sepertinya hanya tidak bekerja untuk pengguna yang belum login
      Saat login, fitur itu berjalan normal, dan sudah dikirim laporan bug ke tim
    • Saat saya coba, rangkumannya dibuat dengan normal
      Lihat tautan contoh yang dibagikan
      Saya juga dalam keadaan login
    • Bagi saya juga berfungsi baik saat login
      Mungkin izin akses URL eksternal berbeda tergantung status login
    • Saya baru mencoba Claude lagi setelah lama, dan UX-nya ternyata cukup membaik
      Rasanya Anthropic lebih memperhatikan detail UX seperti ini
    • Saya juga penasaran apakah pesan itu muncul karena masalah hak cipta
  • Terasa bahwa lini model OpenAI sudah jadi terlalu rumit
    GPT‑5.1, 5.2, 5.4 bercampur dengan Codex 5.3 dan Instant 5.3
    Sementara Anthropic membedakan hanya tiga model dengan jelas, dan Google masih punya model Preview saja
    Ada keluhan bahwa sebagai developer, sulit memakai versi yang stabil

    • Ini mengingatkan pada meme alat Google lama vs alat beta baru
      Selalu terjebak dalam situasi harus memilih salah satunya
    • Bingung dengan penomoran versi terasa seperti terlalu mencari-cari kesalahan
      Kalau engineer, harusnya mudah memahami bahwa 5.4 > 5.2 > 5.1
    • Google memberi tahu bahwa model 2.5 akan segera deprecated
      3.x masih Preview, jadi makin membingungkan
    • Anthropic juga berantakan soal sistem versinya
      Versi antara Opus, Sonnet, dan Haiku tidak selaras, dan struktur harga-nya juga rumit
      Pada akhirnya semua perusahaan menghadapi masalah serupa
    • Setiap bulan ada model yang lebih baik, jadi tidak ada alasan untuk keras kepala bertahan pada model yang sama
      Ini era di mana kita bisa berpindah dengan mudah hanya dengan mengganti API
  • Inti GPT‑5.4 adalah jendela konteks 1M token
    Berdasarkan daftar harga resmi, tidak ada biaya tambahan di atas 200k
    Jauh lebih murah daripada Opus 4.6, tapi masih diragukan apakah konteks 1M benar-benar memberi manfaat nyata
    Menurut dokumentasi terbaru, model ini menggantikan GPT‑5.3‑Codex

    • Menurut dokumentasi model,
      jika melewati 272K token, biaya input menjadi 2x dan output 1.5x
    • Konteks panjang vs compaction selalu jadi dilema
      Semakin banyak token, semakin tinggi biaya dan latensinya
      Dalam pengujian internal OpenAI, konteks pendek lebih efisien untuk kebanyakan kasus
      (komentar karyawan)
    • Karena Claude membutuhkan lebih sedikit token untuk tugas yang sama,
      perbandingan seharusnya dilihat dari biaya per tugas
      Dalam praktiknya, biaya GPT‑5.x dan Opus ada di tingkat yang mirip
      Hasil kerja nyata lebih penting daripada benchmark
    • Kebanyakan orang hanya melihat daftar harga resmi,
      padahal dokumentasi developer sebenarnya lebih akurat
      Tarif dasar hanya berlaku sampai 272k
    • Masalah context rot masih tetap ada,
      tetapi Anthropic punya rencana untuk menguranginya lewat RL untuk tugas-tugas panjang
  • Saya sudah mencoba GPT‑5.4 beberapa kali, dan kejernihan tulisan serta kemampuan analisisnya terasa mengesankan
    Gaya bahasanya jauh lebih natural dan manusiawi dibanding 5.3‑Codex
    Bisa jadi karena AGENTS.md saya memang meminta bahasa yang sederhana

    • Tapi di codebase saya, model ini melewatkan bug kehilangan data yang penting
    • Setiap kali model baru keluar, selalu muncul posting yang bilang “model sebelumnya itu primitif”,
      dan rasanya pola itu terulang lagi
    • Saya juga pindah dari Opus ke Codex, dan penalarannya lebih lambat tapi akurasinya meningkat
      Claude terasa relatif lebih longgar
    • Saya penasaran apakah hasilnya akan sama kalau memakai file AGENTS.md yang sama
    • Menurut riset terbaru, menyertakan AGENTS.md justru bisa menurunkan performa
  • OpenAI sempat menghindari kebingungan penomoran versi selama 8 bulan, tapi akhirnya jadi rumit lagi
    Nama-nama seperti GPT‑5.3 Instant dan GPT‑5.4 Thinking bercampur aduk

    • Perbedaan antara GPT‑5.3 Instant dan gpt‑5.3‑chat membingungkan
    • Sebenarnya ada juga 5.3 Codex
    • Model Instant bagus untuk ringkasan atau pencarian, tetapi dalam percakapan kompleks mudah kehilangan konteks
      Jadi harus dipakai sesuai kegunaannya
  • Demo game RPG di blog itu cukup mengesankan
    Kualitasnya mirip “Battle Brothers”, dan jadi contoh yang bagus untuk autonomous engineering

    • Mengejutkan bahwa AI bisa membuat clone RollerCoaster Tycoon dalam sekali jalan
      Dengan kecepatan seperti ini, pasar low-code tools bisa saja terancam
    • Tapi secara praktik, itu masih tampak seperti demo yang sederhana
    • Mungkin ini berkat integrasi Playwright
      Codex kini bisa melakukan debugging dan pengujian web app secara visual
  • Model ini kemungkinan juga akan dipakai di bidang militer dan keamanan

    • Disebutkan bahwa skor keselamatan terkait kekerasan turun dari 91% ke 83%
    • Penasaran apakah hasil benchmark militer seperti ArtificialSuperSoldier juga dipublikasikan
    • Ingin tahu apakah ini juga bisa dipakai dengan pendekatan ala Anthropic seperti model Claude
    • Industri periklanan juga sepertinya akan mengincar teknologi ini
    • Militer masih memakai versi 4.1, jadi upgrade mungkin akan butuh waktu
  • GPT‑5.4 mendemonstrasikan kemampuan menafsirkan screenshot browser untuk mengklik UI Gmail dan mengirim email
    Tapi saya rasa memakai Gmail API akan lebih efisien daripada pendekatan seperti ini

    • Sebagian besar website tidak punya API atau dokumentasinya buruk
      Screenshot sekaligus menyediakan dokumen, API, dan sarana navigasi dalam satu paket
    • Rasanya seperti membuat robot humanoid agar bisa memakai alat yang dirancang untuk tangan manusia
      Jika berhasil, generalitasnya tinggi, tapi pendekatan berbasis API tetap valid
    • Banyak layanan memang tidak berniat membuka API
      Pendekatan ini bisa mem-bypass keterbatasan tersebut
    • Model yang mempelajari kemampuan menggunakan komputer bisa dipakai di mana saja,
      sedangkan model yang hanya menangani API tidak
      Dari sisi penyebaran ekonomi, yang pertama lebih bernilai
    • Mirip alasan Wikipedia lebih sering jadi sasaran web scraping daripada API-nya dipakai
      Pada akhirnya kenyamanan lebih diutamakan
  • Untuk coding sehari-hari saya, tiga coding agent teratas sudah cukup
    Berdasarkan SWE‑bench Verified, GPT‑5.2 Codex mendapat 72.8, dan GPT‑5.4 naik sekitar 2 poin
    Bukan lompatan besar, tapi tetap ada peningkatan
    Di SWE‑bench, Claude 4.6 Opus masih unggul dengan 75.6
    Namun fitur agent di Codex CLI sudah banyak membaik dan mulai mendekati level Claude Code

  • OpenAI sempat menyatukan model-modelnya, lalu kembali merilis versi yang tersegmentasi sehingga membingungkan
    GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro, terlalu banyak
    Meski begitu, dukungan jendela konteks 1M tetap disambut baik

    • Saya justru suka punya pilihan seperti ini
      Bisa memilih sesuai kebutuhan, dan pengguna umum tetap bisa memakai mode Auto
    • Karena opsi Auto masih ada, ini sebenarnya bukan masalah besar
    • Mungkin di backend, GPT‑5 memakai struktur auto-routing ke beberapa model berbeda