3 poin oleh GN⁺ 2025-08-08 | Belum ada komentar. | Bagikan ke WhatsApp
  • GPT-5 beroperasi sebagai sistem terpadu dengan router real-time yang mengganti model sesuai konteks percakapan, dan di API tersedia tiga tipe Regular·Mini·Nano dengan 4 tingkat reasoning Minimal·Low·Medium·High.
  • Mendukung batas 272.000 token untuk input dan 128.000 token untuk output; input mendukung teks·gambar, sedangkan output hanya teks.
  • Harganya ditetapkan sangat agresif, dengan tarif input setengah dari GPT-4o, dan diskon caching token 90% untuk input yang digunakan ulang dalam beberapa menit terakhir.
  • Pada system card, fokusnya pada pengurangan halusinasi, peningkatan kepatuhan terhadap instruksi, dan penurunan sycophancy, dengan pelatihan Safe‑Completions untuk mengarah pada respons yang aman alih-alih penolakan biner.
  • Dari sisi keamanan, ketahanan terhadap prompt injection ditingkatkan tetapi masih ada area yang belum tuntas dengan tingkat keberhasilan serangan 56,8% pada k=10; di API tersedia ringkasan reasoning serta opsi reasoning_effort=minimal untuk mengontrol aliran token reasoning.

GPT‑5: Analisis fitur utama, harga, dan system card

  • Penulis Simon Willison memiliki akses pratinjau selama 2 minggu dan telah mencoba GPT‑5 secara rutin; kesannya adalah tidak ada lompatan besar, tetapi secara keseluruhan sangat mumpuni, dan sangat baik untuk dipakai sebagai model default karena frekuensi salah yang jarang dan respons yang konsisten.
  • Tulisan ini adalah bagian pertama serial ini, merangkum apa yang bisa ditangkap dari karakteristik inti, harga, dan system card.

Karakteristik utama model

  • Di lingkungan ChatGPT, GPT‑5 menggabungkan model cepat umum dan model reasoning mendalam, dan berfungsi sebagai arsitektur hybrid di mana router real-time memilih model yang paling sesuai berdasarkan jenis percakapan, tingkat kesulitan, kebutuhan alat, dan sinyal niat eksplisit seperti "think hard".

    Sistem card menyebutkan bahwa "real-time router" memilih model berdasarkan jenis percakapan, kompleksitas, kebutuhan alat, dan sinyal niat seperti "think hard", lalu saat batas penggunaan habis versi mini dari masing-masing model akan menggantikan.

  • Di API, opsi model disederhanakan menjadi Regular·Mini·Nano dan masing-masing mendukung 4 tingkat reasoning: Minimal·Low·Medium·High.
  • Batas konteks adalah input 272.000 token dan output 128.000 token, dan token reasoning tersembunyi juga dihitung sebagai token output.
  • Input dan output berbentuk teks·gambar untuk input, teks saja untuk output, dengan knowledge cutoff GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30.
  • Pada penggunaan GPT‑5 full, terasa respons yang akurat dan stabil, dan hampir tidak ada dorongan untuk mencoba model lain.

Posisi dalam keluarga model OpenAI

  • Berdasarkan tabel pemetaan di system card, lineup sebelumnya diposisikan untuk digantikan oleh lini GPT‑5.
    • GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
    • OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
    • GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
  • thinking-pro saat ini dicantumkan di ChatGPT sebagai “GPT‑5 Pro”, hanya tersedia di tier USD 200 per bulan, dan menggunakan parallel test-time compute.
  • Batas fitur tetap: audio input/output dan pembuatan gambar tetap ditangani oleh GPT‑4o Audio/Realtime serta GPT Image 1/DALL‑E.

Harga sangat agresif

  • Harga ditetapkan secara agresif.
    • GPT‑5: input $1,25 per juta, output $10 per juta
    • GPT‑5 Mini: input $0,25 per juta, output $2,00 per juta
    • GPT‑5 Nano: input $0,05 per juta, output $0,40 per juta
  • Dibanding GPT‑4o, tarif input setengah dan tarif output sama.
  • Token reasoning tetap ditagih sebagai token output, sehingga biaya total berbeda berdasarkan tingkat reasoning, meski prompt-nya sama.
  • Tersedia diskon caching token 90%, sehingga penghematan biaya besar untuk UI chat yang sering mengirim ulang konteks percakapan.
  • Pada tabel perbandingan kompetitor, Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro ditampilkan dengan kisaran $2,5~$15 per juta untuk input dan $10~$75 per juta untuk output, menunjukkan keunggulan harga keluarga GPT‑5.
  • Penulis pernah mengalami GPT‑5 mengurutkan perbandingan harga otomatis secara tidak sempurna, dan masalah itu teratasi ketika menyusun ulang tabel menggunakan Python.

Catatan tambahan dari system card

  • Komposisi data pelatihan mencakup web publik, data mitra, dan data buatan pengguna/ trainer manusia, dengan prinsip yang menyebutkan penerapan filter pengurangan data pribadi.
  • Pilar perbaikan utama menekankan pengurangan halusinasi, peningkatan pemenuhan instruksi, dan penurunan sycophancy; untuk penggunaan paling umum di ChatGPT disebut writing·coding·health, sehingga performa di area tersebut diperkuat.
  • Safe‑Completions adalah latihan keselamatan yang berfokus pada output, yang mengutamakan respons yang aman ketimbang penolakan biner. Untuk pertanyaan dual-use yang sulit menilai niat pengguna seperti bidang biologi·keamanan, pendekatan ini mengurangi detail berisiko sekaligus mempertahankan kegunaan.
  • Untuk sycophancy, dilakukan pelatihan pasca-pelatihan dengan evaluasi dan sinyal reward yang mencerminkan distribusi percakapan produksi, demi menurunkan kecenderungan menyelaraskan respons secara menjilat.
  • Pada aspek kebenaran fakta, bersama web browsing yang aktif secara default, latihan diarahkan agar frekuensi halusinasi menurun saat menjawab hanya dengan pengetahuan internal tanpa alat.
  • Untuk mencegah kebohongan dan pemalsuan, reward dirancang agar model secara jujur mengakui ketidakmungkinan pada tugas yang mustahil, dan juga dilakukan evaluasi simulasi dengan menonaktifkan dengan sengaja alat seperti browsing untuk menekan respons semu.

Prompt injection di system card

  • Terdapat hasil bahwa dua tim red team eksternal melakukan evaluasi prompt injection dengan fokus pada kerentanan tingkat sistem dan jalur konektor.
  • Pada chart pembanding, tingkat keberhasilan serangan k=10 pada gpt‑5‑thinking adalah 56,8%, yang lebih rendah daripada Claude 3.7/sebagian besar model lain yang berada di kisaran 60~90%, tetapi masih menembus lebih dari separuh percobaan sehingga tetap jauh dari penyelesaian penuh.
  • Pada akhirnya, meskipun ada peningkatan model, penulis menganjurkan agar desain produk dan guardrails tetap dianggap prasyarat wajib.

Jejak reasoning di API

  • Awalnya, penulis mengira reasoning trace tidak bisa ditampilkan, tetapi di Responses API sekarang bisa menerima summary reasoning lewat reasoning: { "summary": "auto" }.
  • Tanpa opsi itu, pada tingkat reasoning yang dalam, cukup banyak token reasoning terpakai sebelum output terlihat, yang dapat terasa sebagai latensi; reasoning_effort=minimal bisa mendorong respons streaming lebih cepat.

Dan beberapa SVG pelikan

  • Pada benchmark SVG “pelikan naik sepeda” yang biasa dipakai penulis, hasil GPT‑5 (reasoning Medium default) menunjukkan detail sepeda dan akurasi bentuk yang baik, menghasilkan vektor yang sangat terbaca.
  • GPT‑5 Mini memperlihatkan ekspresi warna dan gradasi yang kaya, tetapi menunjukkan kesalahan struktur berupa dua leher yang muncul pada pelikan.
  • GPT‑5 Nano menyederhanakan bentuk sepeda dan pelikan menjadi lebih ringkas, sehingga menghasilkan output pada level ringkasan fungsional.

Rangkuman poin praktis

  • Pemilihan model: mulai dari Regular, jika cukup turun ke Mini/Nano, dan gunakan lini thinking dengan level reasoning tinggi untuk kasus yang lebih dalam.
  • Kontrol biaya: strategi yang efektif adalah cache token 90%, reasoning_effort=minimal, serta system prompt singkat dan konteks yang diringkas untuk menekan output token·reasoning token.
  • Desain keamanan: karena prompt injection masih berisiko, perlu pertahanan sistemik seperti pengurangan hak akses konektor, validasi output, dan template respons aman.
  • Aplikasi domain: laporan menunjukkan pengurangan halusinasi dan sycophancy terasa pada writing·coding·health, sehingga disarankan menetapkan flow default browsing + bukti untuk pekerjaan dokumentasi, review kode, dan QA healthcare yang berisiko tinggi.

Belum ada komentar.

Belum ada komentar.