- Menghadirkan performa GPT‑5.4 dalam bentuk yang cepat dan efisien
- GPT‑5.4 mini meningkat signifikan dibanding GPT‑5 mini dalam coding, penalaran, pemahaman multimodal, dan penggunaan tool, dengan kecepatan lebih dari 2x lebih cepat
- GPT‑5.4 nano adalah model paling kecil dan paling murah, cocok untuk klasifikasi, ekstraksi data, ranking, dan tugas coding pendukung
- Kedua model dirancang untuk workload yang mengutamakan latency, sehingga unggul untuk asisten coding yang membutuhkan respons cepat atau aplikasi multimodal real-time
- Melalui model-model ini, menjadi mungkin untuk membangun sistem AI ringan yang mengoptimalkan keseimbangan kecepatan, biaya, dan performa
Ikhtisar GPT‑5.4 mini dan nano
- GPT‑5.4 mini dan nano adalah versi kecil dan efisien tinggi dari GPT‑5.4, dirancang untuk memberikan respons cepat di lingkungan pemrosesan berskala besar
- mini meningkat dibanding GPT‑5 mini dalam coding, penalaran, pemahaman multimodal, dan penggunaan tool
- nano adalah model paling kecil dan paling murah dengan performa yang ditingkatkan dibanding GPT‑5 nano
- Kedua model dioptimalkan untuk lingkungan di mana latency berdampak langsung pada pengalaman produk (asisten coding, subagent, interpretasi screenshot, inferensi gambar real-time, dll.)
- OpenAI menekankan bahwa “model terbaik tidak selalu model terbesar,” sambil menyoroti respons yang cepat dan kemampuan penggunaan tool yang stabil
Perbandingan performa
- Pada benchmark utama, GPT‑5.4 mini mencatat skor lebih tinggi daripada GPT‑5 mini dan menunjukkan performa yang mendekati GPT‑5.4
- SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
- OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
- Di Terminal‑Bench 2.0, Toolathlon, GPQA Diamond, dan lainnya, mini menunjukkan efisiensi kecepatan yang tinggi dibanding performanya
- nano memberikan efisiensi biaya terbaik di lingkungan yang menuntut kecepatan dan biaya rendah
Workflow coding
- Kedua model cocok untuk lingkungan coding yang membutuhkan iterasi cepat
- Beroperasi dengan latency rendah dalam pengeditan kode, penjelajahan codebase, pembuatan frontend, loop debugging, dan lainnya
- GPT‑5.4 mini mencatat pass rate lebih tinggi pada latency yang serupa dibanding GPT‑5 mini, dan mendekati level GPT‑5.4
- Dalam lingkungan Codex, model besar menangani perencanaan dan penilaian, sementara mini berperan sebagai subagent yang menangani tugas rinci secara paralel
- Contoh: pencarian kode, peninjauan file besar, pemrosesan dokumen, dll.
- Struktur ini menjadi semakin berguna seiring meningkatnya kecepatan dan performa model kecil
Penggunaan komputer dan pemrosesan multimodal
- GPT‑5.4 mini juga menunjukkan performa kuat pada tugas multimodal terkait penggunaan komputer
- Menginterpretasikan screenshot antarmuka pengguna yang kompleks dengan cepat untuk menjalankan tugas
- Di OSWorld‑Verified, performanya mendekati GPT‑5.4 dan jauh melampaui GPT‑5 mini
Ketersediaan dan harga
- GPT‑5.4 mini
- Tersedia di API, Codex, dan ChatGPT
- Fitur yang didukung: input teks dan gambar, penggunaan tool, function calling, pencarian web dan file, penggunaan komputer, skill
- 400k context window, $0.75 per 1 juta token input, $4.50 per 1 juta token output
- Di Codex, hanya menggunakan 30% kuota GPT‑5.4, dan dapat menangani tugas coding sederhana dengan sekitar 1/3 biaya
- Di ChatGPT, tersedia bagi pengguna Free dan Go melalui fitur “Thinking”, dan untuk pengguna lain digunakan sebagai model pengganti (fallback) dari GPT‑5.4 Thinking
- GPT‑5.4 nano
- Hanya tersedia lewat API
- $0.20 per 1 juta token input, $1.25 per 1 juta token output
Detail hasil benchmark tambahan
- Coding
- SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
- Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
- Tool calling
- MCP Atlas: mini 57.7%, nano 56.1%
- Toolathlon: mini 42.9%, nano 35.5%
- τ2‑bench(komunikasi): mini 93.4%, nano 92.5%
- Evaluasi kecerdasan
- GPQA Diamond: mini 88.0%, nano 82.8%
- HLE w/ tool: mini 41.5%, nano 37.7%
- Multimodal dan vision
- MMMUPro w/ Python: mini 78.0%, nano 69.5%
- OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (semakin rendah semakin baik)
- Long context
- Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
- MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%
Evaluasi keseluruhan
- GPT‑5.4 mini dan nano adalah model ringan yang memaksimalkan keseimbangan kecepatan, biaya, dan performa, cocok untuk aplikasi real-time berskala besar
- mini dapat memainkan peran inti dalam arsitektur subagent atau sistem multimodal, sementara nano efisien untuk tugas sederhana dengan volume besar
- Melalui dua model ini, OpenAI menyediakan fondasi untuk membangun sistem AI dengan berbagai skala secara fleksibel
1 komentar
Komentar Hacker News
Saya mengecek kecepatan saat ini lewat API, dan cukup mengesankan
GPT-5 Mini biasanya sekitar 55~60 tokens/s, dan dalam mode priority sekitar 115~120 t/s, sementara GPT-5.4 Mini rata-rata 180~190 t/s, dan GPT-5.4 Nano sekitar 200 t/s
Sebagai perbandingan, Gemini 3 Flash sekitar 130 t/s (Gemini API), dan di Vertex sekitar 120 t/s
Jika melihat harga juga, Claude Opus 4.6 ada di $5/$25, GPT-5.4 di $2.5/$15, Gemini 3.1 Pro di $2/$12, dan seterusnya
Membagikan grid yang membandingkan gambar pelikan dari berbagai model
Model GPT bagus untuk percakapan, tetapi pengalaman saya buruk untuk pekerjaan agentic (agentic work)
Lambat, dan kurang memahami instruksi. Dengan prompt yang sama, model lain bekerja dengan baik
Opus lebih kolaboratif, tetapi kadang memberi saran aneh. Prompt Codex ada di repositori OpenCode
Menurut saya, rilis model kecil (mini) lebih bermakna daripada SOTA
Model besar sudah cukup bagus sehingga sulit merasakan perbedaannya, tetapi model kecil sering mengalami lonjakan kualitas besar setiap kali versinya berganti
Selain itu, harganya jauh lebih murah sehingga lebih mudah diterapkan ke layanan nyata
Saya bertanya-tanya kenapa evaluasi LLM dilakukan dengan feeling ("vibe check")
Sebagian besar perbandingan tidak didasarkan pada eksperimen sistematis, melainkan pengujian spontan
Menurut benchmark, GPT 5.4 Nano lebih unggul daripada GPT-5 Mini di sebagian besar area, tetapi harganya justru naik
GPT 5 mini: input $0.25 / output $2.00 → GPT 5.4 mini: input $0.75 / output $4.50
Skor OSWorld menarik. Mini mendapat 72.1%, standar manusia 72.4%, jadi hampir sama
Jadi, kecuali ada failure case tertentu, Mini tampaknya aman dipakai sebagai default
Namun, dalam pipeline multi-model, jika subagen nano meneruskan seluruh riwayat pesan apa adanya, maka tahap “murah” itu jadi tidak ada artinya
Saya penasaran apakah ada yang pernah mengukur pada panjang konteks berapa nano tidak lagi lebih cepat
Di benchmark saya juga, Nano menunjukkan hasil yang lebih baik daripada Mini
5.4 mini punya masalah konsistensi, dan bahkan pada temperature 0 pun jawaban benar dan salah tetap bercampur
Lihat tautan perbandingan
Skor OSWorld 5.4 Mini mengejutkan. Dulu model terlalu lambat dan tidak akurat untuk dipakai dalam agen real-time, tetapi sekarang mulai terlihat memungkinkan
Misalnya, kita bisa membandingkan perilaku aplikasi Win32 dan versi web untuk membuat pengujian otomatis. Saat diskalakan besar-besaran pun tetap efisien dari sisi biaya
Berdasarkan SWE-Bench, 5.4 mini high punya akurasi dan harga yang mirip dengan GPT 5.4 low, tetapi latency lebih panjang (254 detik vs 171 detik)
Untuk pekerjaan sederhana, menjalankannya pada effort level rendah lebih menguntungkan untuk menghemat biaya. Namun, kinerja pemrosesan konteks panjang masih tetap lemah