3 poin oleh GN⁺ 2026-03-18 | 1 komentar | Bagikan ke WhatsApp
  • Menghadirkan performa GPT‑5.4 dalam bentuk yang cepat dan efisien
  • GPT‑5.4 mini meningkat signifikan dibanding GPT‑5 mini dalam coding, penalaran, pemahaman multimodal, dan penggunaan tool, dengan kecepatan lebih dari 2x lebih cepat
  • GPT‑5.4 nano adalah model paling kecil dan paling murah, cocok untuk klasifikasi, ekstraksi data, ranking, dan tugas coding pendukung
  • Kedua model dirancang untuk workload yang mengutamakan latency, sehingga unggul untuk asisten coding yang membutuhkan respons cepat atau aplikasi multimodal real-time
  • Melalui model-model ini, menjadi mungkin untuk membangun sistem AI ringan yang mengoptimalkan keseimbangan kecepatan, biaya, dan performa

Ikhtisar GPT‑5.4 mini dan nano

  • GPT‑5.4 mini dan nano adalah versi kecil dan efisien tinggi dari GPT‑5.4, dirancang untuk memberikan respons cepat di lingkungan pemrosesan berskala besar
    • mini meningkat dibanding GPT‑5 mini dalam coding, penalaran, pemahaman multimodal, dan penggunaan tool
    • nano adalah model paling kecil dan paling murah dengan performa yang ditingkatkan dibanding GPT‑5 nano
  • Kedua model dioptimalkan untuk lingkungan di mana latency berdampak langsung pada pengalaman produk (asisten coding, subagent, interpretasi screenshot, inferensi gambar real-time, dll.)
  • OpenAI menekankan bahwa “model terbaik tidak selalu model terbesar,” sambil menyoroti respons yang cepat dan kemampuan penggunaan tool yang stabil

Perbandingan performa

  • Pada benchmark utama, GPT‑5.4 mini mencatat skor lebih tinggi daripada GPT‑5 mini dan menunjukkan performa yang mendekati GPT‑5.4
    • SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
    • OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
  • Di Terminal‑Bench 2.0, Toolathlon, GPQA Diamond, dan lainnya, mini menunjukkan efisiensi kecepatan yang tinggi dibanding performanya
  • nano memberikan efisiensi biaya terbaik di lingkungan yang menuntut kecepatan dan biaya rendah

Workflow coding

  • Kedua model cocok untuk lingkungan coding yang membutuhkan iterasi cepat
    • Beroperasi dengan latency rendah dalam pengeditan kode, penjelajahan codebase, pembuatan frontend, loop debugging, dan lainnya
  • GPT‑5.4 mini mencatat pass rate lebih tinggi pada latency yang serupa dibanding GPT‑5 mini, dan mendekati level GPT‑5.4
  • Dalam lingkungan Codex, model besar menangani perencanaan dan penilaian, sementara mini berperan sebagai subagent yang menangani tugas rinci secara paralel
    • Contoh: pencarian kode, peninjauan file besar, pemrosesan dokumen, dll.
  • Struktur ini menjadi semakin berguna seiring meningkatnya kecepatan dan performa model kecil

Penggunaan komputer dan pemrosesan multimodal

  • GPT‑5.4 mini juga menunjukkan performa kuat pada tugas multimodal terkait penggunaan komputer
    • Menginterpretasikan screenshot antarmuka pengguna yang kompleks dengan cepat untuk menjalankan tugas
    • Di OSWorld‑Verified, performanya mendekati GPT‑5.4 dan jauh melampaui GPT‑5 mini

Ketersediaan dan harga

  • GPT‑5.4 mini
    • Tersedia di API, Codex, dan ChatGPT
    • Fitur yang didukung: input teks dan gambar, penggunaan tool, function calling, pencarian web dan file, penggunaan komputer, skill
    • 400k context window, $0.75 per 1 juta token input, $4.50 per 1 juta token output
    • Di Codex, hanya menggunakan 30% kuota GPT‑5.4, dan dapat menangani tugas coding sederhana dengan sekitar 1/3 biaya
    • Di ChatGPT, tersedia bagi pengguna Free dan Go melalui fitur “Thinking”, dan untuk pengguna lain digunakan sebagai model pengganti (fallback) dari GPT‑5.4 Thinking
  • GPT‑5.4 nano
    • Hanya tersedia lewat API
    • $0.20 per 1 juta token input, $1.25 per 1 juta token output

Detail hasil benchmark tambahan

  • Coding
    • SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
    • Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
  • Tool calling
    • MCP Atlas: mini 57.7%, nano 56.1%
    • Toolathlon: mini 42.9%, nano 35.5%
    • τ2‑bench(komunikasi): mini 93.4%, nano 92.5%
  • Evaluasi kecerdasan
    • GPQA Diamond: mini 88.0%, nano 82.8%
    • HLE w/ tool: mini 41.5%, nano 37.7%
  • Multimodal dan vision
    • MMMUPro w/ Python: mini 78.0%, nano 69.5%
    • OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (semakin rendah semakin baik)
  • Long context
    • Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
    • MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%

Evaluasi keseluruhan

  • GPT‑5.4 mini dan nano adalah model ringan yang memaksimalkan keseimbangan kecepatan, biaya, dan performa, cocok untuk aplikasi real-time berskala besar
  • mini dapat memainkan peran inti dalam arsitektur subagent atau sistem multimodal, sementara nano efisien untuk tugas sederhana dengan volume besar
  • Melalui dua model ini, OpenAI menyediakan fondasi untuk membangun sistem AI dengan berbagai skala secara fleksibel

1 komentar

 
GN⁺ 2026-03-18
Komentar Hacker News
  • Saya mengecek kecepatan saat ini lewat API, dan cukup mengesankan
    GPT-5 Mini biasanya sekitar 55~60 tokens/s, dan dalam mode priority sekitar 115~120 t/s, sementara GPT-5.4 Mini rata-rata 180~190 t/s, dan GPT-5.4 Nano sekitar 200 t/s
    Sebagai perbandingan, Gemini 3 Flash sekitar 130 t/s (Gemini API), dan di Vertex sekitar 120 t/s
    Jika melihat harga juga, Claude Opus 4.6 ada di $5/$25, GPT-5.4 di $2.5/$15, Gemini 3.1 Pro di $2/$12, dan seterusnya

    • token/s saja tidak cukup. Kita juga perlu melihat TTFT (waktu tunggu token pertama) dan latency total untuk mengetahui performa API yang sebenarnya
    • Jika hanya cepat tetapi tahap berpikir (reasoning) panjang, justru bisa terasa lambat. Token/s yang lebih rendah pun bisa lebih efisien jika pemikirannya lebih terfokus
    • Google tampaknya akan lebih unggul dari sisi resource atau biaya, jadi saya penasaran kenapa orang tetap memilih GPT atau Claude
    • Akan bagus jika bukan hanya kecepatan output, tetapi juga kecepatan pemrosesan prompt diukur untuk tiap penyedia utama
    • Harga model murah naik cukup banyak. Dulu terasa nyaman, sekarang mulai memberatkan
  • Membagikan grid yang membandingkan gambar pelikan dari berbagai model

    • Sekarang pekerjaan seperti ini kemungkinan besar sudah masuk ke data pelatihan
    • Beberapa gambar terasa seperti mimpi buruk, tapi justru itu yang membuatnya lebih saya sukai
    • Secara pribadi, saya paling suka pelikan versi nano xhigh
    • nano medium terlihat seperti dibuat saat server sedang terbakar
  • Model GPT bagus untuk percakapan, tetapi pengalaman saya buruk untuk pekerjaan agentic (agentic work)
    Lambat, dan kurang memahami instruksi. Dengan prompt yang sama, model lain bekerja dengan baik

    • 5.4 Mini cukup cepat untuk aplikasi suara, tetapi kemampuan mengikuti instruksinya kurang. Saya berpikir untuk fine-tune Qwen 3.5 9B
    • Gemini 3.1 dan Claude Opus 4.6 lolos ambang standar, tetapi lini ChatGPT terlalu berfokus pada percakapan. Retensi konteksnya lemah sehingga perlu verifikasi hasil
    • GPT 5.2 Codex sering kehilangan konteks, sementara Claude bekerja jauh lebih natural di GitHub Copilot. GPT butuh 20 menit bahkan untuk refactoring sederhana
    • Saya mencoba analisis data dengan 5.4 Pro dan terasa terlalu lambat. Sonnet 4.6 jauh lebih cepat. Untuk kebanyakan pekerjaan, Haiku saja sudah cukup
    • Sebaliknya, saya merasa Codex justru yang paling unggul. Hanya saja gayanya terlalu dingin, jadi percakapannya singkat dan sulit untuk ikut campur
      Opus lebih kolaboratif, tetapi kadang memberi saran aneh. Prompt Codex ada di repositori OpenCode
  • Menurut saya, rilis model kecil (mini) lebih bermakna daripada SOTA
    Model besar sudah cukup bagus sehingga sulit merasakan perbedaannya, tetapi model kecil sering mengalami lonjakan kualitas besar setiap kali versinya berganti
    Selain itu, harganya jauh lebih murah sehingga lebih mudah diterapkan ke layanan nyata

    • Web app Gemini otomatis beralih ke Flash, dan kalau jawabannya aneh atau logikanya melenceng, saya langsung menyadarinya. Untuk penggunaan harian masih kurang, tapi untuk otomasi sederhana sudah cukup bagus
    • GPT 5.4 lemah untuk pekerjaan UI Svelte, Gemini cenderung langsung mengimplementasikan alih-alih berdiskusi, dan Claude terlalu sering memakai tipe any di TypeScript
    • Melihat hasil perbandingan, perbedaan antara 5 mini dan 5.4 mini kecil, tetapi 5.4 mini tidak stabil namun tingkat jawab benarnya lebih tinggi
    • Pada praktiknya harga sedang naik. GPT 5.4 mini sekitar 3 kali lebih mahal daripada 5.0 mini. Gemini 3.1 Flash Lite juga lebih mahal dibanding sebelumnya
    • Dibanding model terbuka, harganya juga tidak terlalu murah dan kecerdasannya lebih rendah. Kalau bukan untuk meminimalkan latency, alasannya untuk memakai ini jadi tidak banyak
  • Saya bertanya-tanya kenapa evaluasi LLM dilakukan dengan feeling ("vibe check")
    Sebagian besar perbandingan tidak didasarkan pada eksperimen sistematis, melainkan pengujian spontan

    • Ini bukan sekadar masalah engineering. Definisi kecerdasan dan kemampuan itu sendiri belum lengkap. Benchmark yang ada punya banyak cacat
    • Setiap kali benchmark dibuat, selalu ada keluhan bahwa itu “tidak berarti”, tetapi menilai berdasarkan feeling jauh lebih buruk
    • Dataset evaluasi yang dipublikasikan cepat sekali lumpuh karena masalah dark forest. Daya prediksinya juga lemah, jadi mungkin lebih baik memperlakukan pendekatan informal secara lebih ilmiah
    • Bahkan muncul lelucon, “menilai dengan feeling, dan ngoding dengan feeling”
  • Menurut benchmark, GPT 5.4 Nano lebih unggul daripada GPT-5 Mini di sebagian besar area, tetapi harganya justru naik
    GPT 5 mini: input $0.25 / output $2.00 → GPT 5.4 mini: input $0.75 / output $4.50

    • Modelnya memang lebih mahal, tetapi efisiensi harga terhadap performa membaik. Bisa jadi alasan untuk mempertahankan model berperforma rendah jadi berkurang
    • Karena modelnya lebih besar, biaya serving-nya tentu tidak bisa rendah. Kalau performanya naik, wajar kalau lebih mahal
  • Skor OSWorld menarik. Mini mendapat 72.1%, standar manusia 72.4%, jadi hampir sama
    Jadi, kecuali ada failure case tertentu, Mini tampaknya aman dipakai sebagai default
    Namun, dalam pipeline multi-model, jika subagen nano meneruskan seluruh riwayat pesan apa adanya, maka tahap “murah” itu jadi tidak ada artinya
    Saya penasaran apakah ada yang pernah mengukur pada panjang konteks berapa nano tidak lagi lebih cepat

    • (Ini terlihat seperti bot)
  • Di benchmark saya juga, Nano menunjukkan hasil yang lebih baik daripada Mini
    5.4 mini punya masalah konsistensi, dan bahkan pada temperature 0 pun jawaban benar dan salah tetap bercampur
    Lihat tautan perbandingan

  • Skor OSWorld 5.4 Mini mengejutkan. Dulu model terlalu lambat dan tidak akurat untuk dipakai dalam agen real-time, tetapi sekarang mulai terlihat memungkinkan

    • Sebagian orang meremehkan OSWorld dengan menyebutnya “OpenClaw”, tetapi sebagai evaluasi interaksi penuh yang aman, ini sangat kuat
      Misalnya, kita bisa membandingkan perilaku aplikasi Win32 dan versi web untuk membuat pengujian otomatis. Saat diskalakan besar-besaran pun tetap efisien dari sisi biaya
  • Berdasarkan SWE-Bench, 5.4 mini high punya akurasi dan harga yang mirip dengan GPT 5.4 low, tetapi latency lebih panjang (254 detik vs 171 detik)
    Untuk pekerjaan sederhana, menjalankannya pada effort level rendah lebih menguntungkan untuk menghemat biaya. Namun, kinerja pemrosesan konteks panjang masih tetap lemah