GPT‑5.2 Diluncurkan
(openai.com)- GPT‑5.2 adalah seri model AI paling kuat untuk pekerjaan pengetahuan profesional, dengan peningkatan kemampuan dalam penulisan kode, pengenalan gambar, dan pelaksanaan proyek kompleks
- Dalam evaluasi GDPval, model ini melampaui atau menyamai pakar industri pada 70,9% tugas kerja pengetahuan di 44 profesi, dengan kecepatan 11 kali lebih tinggi dan biaya di bawah 1%
- Mencapai performa terbaik pada benchmark utama seperti SWE‑Bench Pro 55.6% , GPQA Diamond 92.4% , dan ARC‑AGI‑1 86.2%
- Menunjukkan peningkatan besar dibanding GPT‑5.1 dalam pemahaman konteks panjang (256k token), pemrosesan informasi visual, dan penggunaan alat (98.7%)
- Diluncurkan secara bertahap di ChatGPT dan API, dengan tujuan meningkatkan produktivitas dan keandalan untuk pengguna profesional
Ikhtisar GPT‑5.2
- GPT‑5.2 adalah seri model AI untuk pekerjaan pengetahuan profesional, yang diperkuat untuk pembuatan spreadsheet, pembuatan presentasi, penulisan kode, pengenalan gambar, pemahaman teks panjang, penggunaan alat, dan pelaksanaan proyek kompleks
- Pengguna ChatGPT Enterprise sudah menghemat rata-rata 40~60 menit per hari, lebih dari 10 jam per minggu, dan GPT‑5.2 memperluas efisiensi ini lebih jauh
- Di ChatGPT, model ini tersedia dalam tiga versi: Instant, Thinking, dan Pro; di API tersedia langsung untuk developer
Performa model
- GPT‑5.2 Thinking menjadi yang pertama mencapai performa setara atau di atas pakar dalam evaluasi GDPval
- Melampaui atau menyamai pakar pada 70,9% tugas kerja pengetahuan di 44 profesi
- 11 kali lebih cepat daripada pakar, dengan biaya di bawah 1%
- Dalam evaluasi internal, skor tugas pemodelan spreadsheet untuk analisis investment banking meningkat 9,3% dibanding GPT‑5.1 (59.1% → 68.4%)
- Peningkatan performa software engineering dengan SWE‑Bench Pro 55.6% dan SWE‑Bench Verified 80%
- Lebih andal dalam debugging kode nyata, implementasi fitur, refactoring, dan deployment
- Juga meningkat dibanding GPT‑5.1 dalam pengembangan frontend dan pekerjaan UI 3D
- Tingkat respons yang salah turun 30%, sehingga frekuensi halusinasi (hallucination) berkurang
Pemahaman konteks panjang dan pengenalan visual
- Mencatat skor tertinggi dalam evaluasi OpenAI MRCRv2 untuk pemahaman terpadu dokumen panjang
- Mencapai akurasi hampir 100% hingga 256k token
- Cocok untuk analisis dokumen panjang seperti laporan, kontrak, dan makalah
- Kompatibel dengan endpoint
/compact, mendukung workflow dengan konteks yang diperluas - Peningkatan performa pengenalan visual menurunkan tingkat kesalahan hingga setengahnya pada chart, dashboard, screenshot UI, dan lainnya
- Kemampuan memahami tata letak spasial elemen dalam gambar juga diperkuat
Penggunaan alat dan tugas gabungan
- Mencatat performa tertinggi dalam kemampuan penggunaan alat dengan Tau2‑bench Telecom 98.7%
- Meningkatkan kemampuan menjalankan workflow end-to-end seperti dukungan pelanggan multi-langkah, pengumpulan data, analisis, dan pembuatan hasil
- Contoh: menangani secara lengkap prosedur layanan pelanggan yang kompleks seperti keterlambatan penerbangan, transit, dan permintaan kompensasi
Kemampuan sains, matematika, dan penalaran
- Mencapai skor tertinggi pada benchmark akademik utama dengan GPQA Diamond 92.4% , FrontierMath Tier 1–3 40.3% , ARC‑AGI‑1 86.2% , dan ARC‑AGI‑2 52.9%
- GPT‑5.2 Pro menembus 90% pada ARC‑AGI‑1, dengan efisiensi biaya meningkat 390 kali
- GPT‑5.2 Pro dan Thinking dapat dimanfaatkan untuk mempercepat riset ilmiah
- Disajikan contoh kasus nyata di mana model mengusulkan pembuktian teori statistika dan hasilnya diverifikasi
Pengalaman penggunaan di ChatGPT
- GPT‑5.2 Instant: memberikan respons cepat dan penjelasan yang jelas, untuk pembelajaran dan pekerjaan sehari-hari
- GPT‑5.2 Thinking: cocok untuk tugas kompleks seperti penulisan kode, peringkasan teks panjang, pemecahan masalah matematika dan logika, serta penyusunan rencana
- GPT‑5.2 Pro: memberikan jawaban dengan tingkat keandalan tinggi untuk pertanyaan sulit, dengan tingkat kesalahan yang lebih rendah
Peningkatan keamanan
- GPT‑5.2 meningkatkan respons percakapan terkait bunuh diri, kesehatan mental, dan ketergantungan emosional berdasarkan riset Safe Completion dari GPT‑5
- Rasio respons yang tidak pantas menurun dibanding GPT‑5.1
- Diperkenalkan model prediksi usia untuk membatasi akses ke konten sensitif bagi pengguna di bawah 18 tahun
- Perbaikan terhadap masalah over‑refusal di ChatGPT masih terus dilakukan
Harga dan cara penyediaan
- Diluncurkan bertahap mulai dari paket berbayar ChatGPT (Plus, Pro, Business, Enterprise)
- Di API tersedia sebagai
gpt‑5.2,gpt‑5.2‑chat‑latest, dangpt‑5.2‑pro - Harga: $1.75 per 1 juta token input, $14 per 1 juta token output, diskon 90% untuk cache input
- Harga per unit lebih tinggi daripada GPT‑5.1, tetapi efisiensi token yang lebih baik menurunkan total biaya
- GPT‑5.1 akan dipertahankan selama 3 bulan sebelum dihentikan secara bertahap
- Versi yang dioptimalkan untuk Codex akan diumumkan kemudian
Kemitraan teknologi
- GPT‑5.2 dikembangkan bekerja sama dengan NVIDIA dan Microsoft
- Memanfaatkan infrastruktur GPU H100, H200, GB200‑NVL72 di data center Azure
- Mendukung efisiensi pelatihan skala besar dan peningkatan kecerdasan model
Ringkasan benchmark utama
- GDPval: 70.9% (GPT‑5.1 38.8%)
- SWE‑Bench Verified: 80.0%
- OpenAI MRCRv2 (256k) : 77.0%
- CharXiv Reasoning (w/ Python) : 88.7%
- Tau2‑bench Telecom: 98.7%
- ARC‑AGI‑1 (Verified) : 86.2%
- AIME 2025: 100%
- FrontierMath Tier 1–3: 40.3%
GPT‑5.2 jauh melampaui model generasi sebelumnya dalam kecerdasan, keandalan, dan produktivitas, dan menempatkan diri sebagai AI pendukung kerja profesional setingkat pakar.
Belum ada komentar.