GPT-5 diumumkan
(openai.com)- GPT-5 menghadirkan performa yang melampaui model sebelumnya di berbagai bidang seperti coding, matematika, menulis, kesehatan, dan pengenalan visual, serta merupakan sistem terintegrasi yang menggabungkan respons cepat dan penalaran mendalam sesuai konteks
- 'GPT-5 Thinking' menerapkan penalaran yang lebih panjang pada masalah kompleks untuk meningkatkan akurasi, dan pengguna paket Pro dapat memanfaatkan performa tingkat tertinggi melalui GPT-5 Pro yang memperluas kemampuan ini
- Dalam penggunaan nyata, tingkat halusinasi (menghasilkan fakta yang salah) berkurang secara signifikan, dan kemampuan pemahaman multimodal, pelaksanaan instruksi, serta pekerjaan kompleks yang terhubung dengan berbagai tool meningkat
- Dukungan untuk developer diperkuat, termasuk pembuatan UI frontend dan debugging skala besar, dan di bidang kesehatan model ini mencatat skor tertinggi di HealthBench serta berperan sebagai mitra kesehatan yang proaktif
- Dari sisi keamanan, pelatihan 'safe completion' diperkenalkan untuk mengurangi penolakan yang tidak perlu, dan model ini dilengkapi sistem pertahanan berlapis tingkat tinggi di bidang biologi dan kimia
Ikhtisar GPT-5
Sistem terintegrasi
- Di dalam satu sistem terdapat model pintar dan efisien, model penalaran mendalam (GPT-5 Thinking), serta router real-time yang memilihnya berdasarkan situasi, kompleksitas, kebutuhan tool, dan niat pengguna
- Saat batas penggunaan terlampaui, versi 'mini' dari masing-masing model akan menangani kueri yang tersisa
- Ke depannya, fungsi-fungsi ini akan diintegrasikan ke dalam satu model tunggal
Peningkatan performa dan kegunaan
- Performa jauh lebih unggul dibanding GPT-4o di berbagai benchmark
- Pengurangan halusinasi, peningkatan pelaksanaan instruksi, meminimalkan respons menjilat (sycophancy)
- Tiga area inti yang ditingkatkan
- Coding: kemampuan diperkuat untuk pembuatan frontend kompleks, debugging repositori skala besar, dan pembuatan UI/UX yang mencerminkan estetika
- Menulis: mampu menangani ambiguitas struktural serta menghasilkan ekspresi dengan kedalaman sastra dan ritme, sekaligus memperkuat dukungan untuk penulisan dan penyuntingan dokumen sehari-hari
- Kesehatan: mencetak rekor tertinggi di HealthBench, serta memberikan jawaban yang aman dan presisi sesuai konteks, tingkat pengetahuan, dan wilayah pengguna
Hasil evaluasi
- Matematika 94.6% (AIME 2025), coding SWE-bench Verified 74.9%, multimodal MMMU 84.2%, kesehatan HealthBench Hard 46.2%, semuanya mencapai SOTA
- Di GPQA, GPT-5 Pro mencetak rekor tertinggi dengan 88.4%
- Kemampuan multimodal, integrasi tool, dan penanganan tugas multilangkah meningkat secara signifikan
Penalaran yang efisien
- Untuk performa yang sama, penggunaan token berkurang 50~80%
- Pada tugas yang kompleks dan sulit, GPT-5 Thinking menurunkan tingkat kesalahan dan halusinasi secara nyata dibanding o3
Penguatan keandalan dan faktualitas
- Dalam pengujian faktualitas terbuka, tingkat halusinasi turun 6 kali lipat
- Menjelaskan batasannya secara jelas saat menghadapi tugas yang mustahil atau ketika informasi tidak memadai
- Tingkat sycophancy turun dari 14.5% → di bawah 6%
Peningkatan keamanan
- Dengan pelatihan 'safe completion', model dapat memberikan jawaban yang aman dan bermanfaat bahkan untuk permintaan yang berpotensi berisiko
- Sistem pertahanan berlapis diterapkan untuk menghadapi skenario berisiko tinggi di bidang biologi dan kimia
GPT-5 Pro
- Model penalaran yang diperluas untuk tugas dengan tingkat kesulitan tertinggi
- Dalam evaluasi para ahli, lebih disukai 67.8% dibanding GPT-5 Thinking, dengan kesalahan utama berkurang 22%
- Performa tertinggi di kesehatan, sains, matematika, dan coding
Cara penggunaan dan akses
- GPT-5 diterapkan sebagai model default ChatGPT, menggantikan model sebelumnya (GPT-4o, o3, dll.)
- Mode penalaran dapat dipaksa dengan memasukkan 'think hard about this'
- Diluncurkan bertahap untuk Plus·Pro·Team·Free, sedangkan Enterprise·Edu menyusul 1 minggu kemudian
- Pengguna gratis akan dialihkan ke GPT-5 mini saat melewati batas penggunaan
Poin utama GPT-5 untuk developer
Performa dan fitur
-
Performa coding:
- SWE-bench Verified 74.9% (o3: 69.1%), penggunaan token 22%↓, pemanggilan tool 45%↓
- Aider polyglot 88%, menurunkan tingkat kesalahan perbaikan kode menjadi 1/3
- Untuk pembuatan kode frontend, 70% lebih disukai dibanding o3
-
Tugas agen:
- τ 2-bench telecom 96.7%, dengan peningkatan stabilitas pada pemanggilan multi-tool dan paralel
- Dapat menampilkan pesan preamble yang memperlihatkan progres dan rencana kepada pengguna
-
Konteks panjang:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- Menangani konteks hingga 400 ribu token
Fitur API baru
reasoning_effort: mengatur waktu penalaran dalam rentangminimal~highverbosity: menetapkan default panjang jawaban darilow~high- Custom tools: dapat dipanggil dalam plaintext alih-alih JSON, serta mendukung batasan regex/tata bahasa
- Mendukung tool bawaan seperti pemanggilan tool paralel, web search, file search, image generation, dan lainnya
- Mendukung fitur penghematan biaya seperti prompt caching dan Batch API
Stabilitas dan keandalan
- Di benchmark LongFact dan FactScore, tingkat halusinasi turun sekitar ~80% dibanding o3
- Kemampuan mengenali keterbatasan diri dan menangani situasi tak terduga diperkuat
- Cocok untuk tugas berisiko tinggi dan yang menuntut akurasi (kode, data, pengambilan keputusan)
Availability & pricing
Ukuran yang tersedia dan endpoint
- Varian ukuran: tersedia
gpt-5,gpt-5-mini,gpt-5-nano - Antarmuka yang didukung: dapat digunakan sebagai default di Responses API, Chat Completions API, dan Codex CLI
- Karakteristik model: seri GPT‑5 di API adalah reasoning model, sedangkan non‑reasoning model di ChatGPT disediakan dengan ID terpisah
Tabel harga dan satuan penagihan
gpt-5: input $1.25 per juta token, output $10 per juta tokengpt-5-mini: input $0.25 per juta, output $2 per jutagpt-5-nano: input $0.05 per juta, output $0.40 per jutagpt-5-chat-latest(non-reasoning): input $1.25 per juta, output $10 per juta, sama dengangpt-5
Ringkasan fitur yang didukung
- Kontrol penalaran: tetapkan
minimal·low·medium·highpadareasoning_effortuntuk mengatur trade-off kecepatan ↔ akurasi - Panjang respons: gunakan
verbosityuntuk menetapkan kecenderungan default singkat/default/panjang - Tooling: custom tools mendukung pemanggilan dengan argumen plaintext dan dapat menerapkan batasan regex/CFG
- Fitur eksekusi: mendukung pemanggilan tool paralel, tool bawaan (web search, file search, image generation, dll.), streaming, dan Structured Outputs
- Optimasi biaya: prompt caching dan Batch API mengurangi biaya token dan latensi
- Kanal distribusi: GPT‑5 diterapkan di Microsoft 365 Copilot, Copilot, GitHub Copilot, dan Azure AI Foundry
Contoh biaya sederhana
- Jika
gpt-5memproses 50k token input + 5k token output, total biaya ≈ $0.1125- Rumus perhitungan: input 0.05M × $1.25 = $0.0625, output 0.005M × $10 = $0.05, total $0.1125
- Jika pekerjaan yang sama diproses dengan
gpt-5-mini, total biaya ≈ $0.0175- Input 0.05M × $0.25 = $0.0125, output 0.005M × $2 = $0.01, total yang benar adalah $0.0225, tetapi dengan mempertimbangkan tarif output, perbedaan akan lebih besar pada workload dengan porsi input yang besar
- Pipeline dengan output generatif dalam jumlah besar memiliki insentif besar untuk memilih model dengan tarif output lebih rendah
Catatan panduan pemilihan
- Jika akurasi adalah prioritas utama dan dibutuhkan rantai tool yang kompleks untuk agen backend, pertimbangkan
gpt-5 - Untuk editing kode sehari-hari, agen ringan, dan pemrosesan batch skala besar,
gpt-5-minimenawarkan keseimbangan kualitas dibanding biaya yang lebih baik - Untuk prapemrosesan, pemeriksaan aturan, dan ringkasan sederhana dengan latensi ultra-rendah dan biaya ultra-rendah,
gpt-5-nanococok digunakan
Referensi
- Jika ingin tetap menggunakan model default non‑reasoning ChatGPT, pilih
gpt-5-chat-latestdi API - Karena panjang respons memprioritaskan instruksi eksplisit, maka meskipun
verbositydiatur, jika Anda memberi instruksi panjang yang spesifik seperti "esai 5 paragraf", model akan mengikuti instruksi tersebut
Belum ada komentar.