14 poin oleh GN⁺ 2025-08-08 | Belum ada komentar. | Bagikan ke WhatsApp
  • GPT-5 menghadirkan performa yang melampaui model sebelumnya di berbagai bidang seperti coding, matematika, menulis, kesehatan, dan pengenalan visual, serta merupakan sistem terintegrasi yang menggabungkan respons cepat dan penalaran mendalam sesuai konteks
  • 'GPT-5 Thinking' menerapkan penalaran yang lebih panjang pada masalah kompleks untuk meningkatkan akurasi, dan pengguna paket Pro dapat memanfaatkan performa tingkat tertinggi melalui GPT-5 Pro yang memperluas kemampuan ini
  • Dalam penggunaan nyata, tingkat halusinasi (menghasilkan fakta yang salah) berkurang secara signifikan, dan kemampuan pemahaman multimodal, pelaksanaan instruksi, serta pekerjaan kompleks yang terhubung dengan berbagai tool meningkat
  • Dukungan untuk developer diperkuat, termasuk pembuatan UI frontend dan debugging skala besar, dan di bidang kesehatan model ini mencatat skor tertinggi di HealthBench serta berperan sebagai mitra kesehatan yang proaktif
  • Dari sisi keamanan, pelatihan 'safe completion' diperkenalkan untuk mengurangi penolakan yang tidak perlu, dan model ini dilengkapi sistem pertahanan berlapis tingkat tinggi di bidang biologi dan kimia

Ikhtisar GPT-5

Sistem terintegrasi

  • Di dalam satu sistem terdapat model pintar dan efisien, model penalaran mendalam (GPT-5 Thinking), serta router real-time yang memilihnya berdasarkan situasi, kompleksitas, kebutuhan tool, dan niat pengguna
  • Saat batas penggunaan terlampaui, versi 'mini' dari masing-masing model akan menangani kueri yang tersisa
  • Ke depannya, fungsi-fungsi ini akan diintegrasikan ke dalam satu model tunggal

Peningkatan performa dan kegunaan

  • Performa jauh lebih unggul dibanding GPT-4o di berbagai benchmark
  • Pengurangan halusinasi, peningkatan pelaksanaan instruksi, meminimalkan respons menjilat (sycophancy)
  • Tiga area inti yang ditingkatkan
    • Coding: kemampuan diperkuat untuk pembuatan frontend kompleks, debugging repositori skala besar, dan pembuatan UI/UX yang mencerminkan estetika
    • Menulis: mampu menangani ambiguitas struktural serta menghasilkan ekspresi dengan kedalaman sastra dan ritme, sekaligus memperkuat dukungan untuk penulisan dan penyuntingan dokumen sehari-hari
    • Kesehatan: mencetak rekor tertinggi di HealthBench, serta memberikan jawaban yang aman dan presisi sesuai konteks, tingkat pengetahuan, dan wilayah pengguna

Hasil evaluasi

  • Matematika 94.6% (AIME 2025), coding SWE-bench Verified 74.9%, multimodal MMMU 84.2%, kesehatan HealthBench Hard 46.2%, semuanya mencapai SOTA
  • Di GPQA, GPT-5 Pro mencetak rekor tertinggi dengan 88.4%
  • Kemampuan multimodal, integrasi tool, dan penanganan tugas multilangkah meningkat secara signifikan

Penalaran yang efisien

  • Untuk performa yang sama, penggunaan token berkurang 50~80%
  • Pada tugas yang kompleks dan sulit, GPT-5 Thinking menurunkan tingkat kesalahan dan halusinasi secara nyata dibanding o3

Penguatan keandalan dan faktualitas

  • Dalam pengujian faktualitas terbuka, tingkat halusinasi turun 6 kali lipat
  • Menjelaskan batasannya secara jelas saat menghadapi tugas yang mustahil atau ketika informasi tidak memadai
  • Tingkat sycophancy turun dari 14.5% → di bawah 6%

Peningkatan keamanan

  • Dengan pelatihan 'safe completion', model dapat memberikan jawaban yang aman dan bermanfaat bahkan untuk permintaan yang berpotensi berisiko
  • Sistem pertahanan berlapis diterapkan untuk menghadapi skenario berisiko tinggi di bidang biologi dan kimia

GPT-5 Pro

  • Model penalaran yang diperluas untuk tugas dengan tingkat kesulitan tertinggi
  • Dalam evaluasi para ahli, lebih disukai 67.8% dibanding GPT-5 Thinking, dengan kesalahan utama berkurang 22%
  • Performa tertinggi di kesehatan, sains, matematika, dan coding

Cara penggunaan dan akses

  • GPT-5 diterapkan sebagai model default ChatGPT, menggantikan model sebelumnya (GPT-4o, o3, dll.)
  • Mode penalaran dapat dipaksa dengan memasukkan 'think hard about this'
  • Diluncurkan bertahap untuk Plus·Pro·Team·Free, sedangkan Enterprise·Edu menyusul 1 minggu kemudian
  • Pengguna gratis akan dialihkan ke GPT-5 mini saat melewati batas penggunaan

Poin utama GPT-5 untuk developer

Performa dan fitur

  • Performa coding:

    • SWE-bench Verified 74.9% (o3: 69.1%), penggunaan token 22%↓, pemanggilan tool 45%↓
    • Aider polyglot 88%, menurunkan tingkat kesalahan perbaikan kode menjadi 1/3
    • Untuk pembuatan kode frontend, 70% lebih disukai dibanding o3
  • Tugas agen:

    • τ 2-bench telecom 96.7%, dengan peningkatan stabilitas pada pemanggilan multi-tool dan paralel
    • Dapat menampilkan pesan preamble yang memperlihatkan progres dan rencana kepada pengguna
  • Konteks panjang:

    • OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
    • Menangani konteks hingga 400 ribu token

Fitur API baru

  • reasoning_effort: mengatur waktu penalaran dalam rentang minimal~high
  • verbosity: menetapkan default panjang jawaban dari low~high
  • Custom tools: dapat dipanggil dalam plaintext alih-alih JSON, serta mendukung batasan regex/tata bahasa
  • Mendukung tool bawaan seperti pemanggilan tool paralel, web search, file search, image generation, dan lainnya
  • Mendukung fitur penghematan biaya seperti prompt caching dan Batch API

Stabilitas dan keandalan

  • Di benchmark LongFact dan FactScore, tingkat halusinasi turun sekitar ~80% dibanding o3
  • Kemampuan mengenali keterbatasan diri dan menangani situasi tak terduga diperkuat
  • Cocok untuk tugas berisiko tinggi dan yang menuntut akurasi (kode, data, pengambilan keputusan)

Availability & pricing

Ukuran yang tersedia dan endpoint

  • Varian ukuran: tersedia gpt-5, gpt-5-mini, gpt-5-nano
  • Antarmuka yang didukung: dapat digunakan sebagai default di Responses API, Chat Completions API, dan Codex CLI
  • Karakteristik model: seri GPT‑5 di API adalah reasoning model, sedangkan non‑reasoning model di ChatGPT disediakan dengan ID terpisah

Tabel harga dan satuan penagihan

  • gpt-5: input $1.25 per juta token, output $10 per juta token
  • gpt-5-mini: input $0.25 per juta, output $2 per juta
  • gpt-5-nano: input $0.05 per juta, output $0.40 per juta
  • gpt-5-chat-latest (non-reasoning): input $1.25 per juta, output $10 per juta, sama dengan gpt-5

Ringkasan fitur yang didukung

  • Kontrol penalaran: tetapkan minimal·low·medium·high pada reasoning_effort untuk mengatur trade-off kecepatan ↔ akurasi
  • Panjang respons: gunakan verbosity untuk menetapkan kecenderungan default singkat/default/panjang
  • Tooling: custom tools mendukung pemanggilan dengan argumen plaintext dan dapat menerapkan batasan regex/CFG
  • Fitur eksekusi: mendukung pemanggilan tool paralel, tool bawaan (web search, file search, image generation, dll.), streaming, dan Structured Outputs
  • Optimasi biaya: prompt caching dan Batch API mengurangi biaya token dan latensi
  • Kanal distribusi: GPT‑5 diterapkan di Microsoft 365 Copilot, Copilot, GitHub Copilot, dan Azure AI Foundry

Contoh biaya sederhana

  • Jika gpt-5 memproses 50k token input + 5k token output, total biaya ≈ $0.1125
    • Rumus perhitungan: input 0.05M × $1.25 = $0.0625, output 0.005M × $10 = $0.05, total $0.1125
  • Jika pekerjaan yang sama diproses dengan gpt-5-mini, total biaya ≈ $0.0175
    • Input 0.05M × $0.25 = $0.0125, output 0.005M × $2 = $0.01, total yang benar adalah $0.0225, tetapi dengan mempertimbangkan tarif output, perbedaan akan lebih besar pada workload dengan porsi input yang besar
  • Pipeline dengan output generatif dalam jumlah besar memiliki insentif besar untuk memilih model dengan tarif output lebih rendah

Catatan panduan pemilihan

  • Jika akurasi adalah prioritas utama dan dibutuhkan rantai tool yang kompleks untuk agen backend, pertimbangkan gpt-5
  • Untuk editing kode sehari-hari, agen ringan, dan pemrosesan batch skala besar, gpt-5-mini menawarkan keseimbangan kualitas dibanding biaya yang lebih baik
  • Untuk prapemrosesan, pemeriksaan aturan, dan ringkasan sederhana dengan latensi ultra-rendah dan biaya ultra-rendah, gpt-5-nano cocok digunakan

Referensi

  • Jika ingin tetap menggunakan model default non‑reasoning ChatGPT, pilih gpt-5-chat-latest di API
  • Karena panjang respons memprioritaskan instruksi eksplisit, maka meskipun verbosity diatur, jika Anda memberi instruksi panjang yang spesifik seperti "esai 5 paragraf", model akan mengikuti instruksi tersebut

Belum ada komentar.

Belum ada komentar.