GPT‑5.2 Diluncurkan
(openai.com)- GPT‑5.2 adalah seri model AI paling kuat untuk pekerjaan pengetahuan profesional, dengan peningkatan kemampuan dalam penulisan kode, pengenalan gambar, dan pelaksanaan proyek kompleks
- Dalam evaluasi GDPval, model ini melampaui atau menyamai pakar industri pada 70,9% tugas kerja pengetahuan di 44 profesi, dengan kecepatan 11 kali lebih tinggi dan biaya di bawah 1%
- Mencapai performa terbaik pada benchmark utama seperti SWE‑Bench Pro 55.6% , GPQA Diamond 92.4% , dan ARC‑AGI‑1 86.2%
- Menunjukkan peningkatan besar dibanding GPT‑5.1 dalam pemahaman konteks panjang (256k token), pemrosesan informasi visual, dan penggunaan alat (98.7%)
- Diluncurkan secara bertahap di ChatGPT dan API, dengan tujuan meningkatkan produktivitas dan keandalan untuk pengguna profesional
Ikhtisar GPT‑5.2
- GPT‑5.2 adalah seri model AI untuk pekerjaan pengetahuan profesional, yang diperkuat untuk pembuatan spreadsheet, pembuatan presentasi, penulisan kode, pengenalan gambar, pemahaman teks panjang, penggunaan alat, dan pelaksanaan proyek kompleks
- Pengguna ChatGPT Enterprise sudah menghemat rata-rata 40~60 menit per hari, lebih dari 10 jam per minggu, dan GPT‑5.2 memperluas efisiensi ini lebih jauh
- Di ChatGPT, model ini tersedia dalam tiga versi: Instant, Thinking, dan Pro; di API tersedia langsung untuk developer
Performa model
- GPT‑5.2 Thinking menjadi yang pertama mencapai performa setara atau di atas pakar dalam evaluasi GDPval
- Melampaui atau menyamai pakar pada 70,9% tugas kerja pengetahuan di 44 profesi
- 11 kali lebih cepat daripada pakar, dengan biaya di bawah 1%
- Dalam evaluasi internal, skor tugas pemodelan spreadsheet untuk analisis investment banking meningkat 9,3% dibanding GPT‑5.1 (59.1% → 68.4%)
- Peningkatan performa software engineering dengan SWE‑Bench Pro 55.6% dan SWE‑Bench Verified 80%
- Lebih andal dalam debugging kode nyata, implementasi fitur, refactoring, dan deployment
- Juga meningkat dibanding GPT‑5.1 dalam pengembangan frontend dan pekerjaan UI 3D
- Tingkat respons yang salah turun 30%, sehingga frekuensi halusinasi (hallucination) berkurang
Pemahaman konteks panjang dan pengenalan visual
- Mencatat skor tertinggi dalam evaluasi OpenAI MRCRv2 untuk pemahaman terpadu dokumen panjang
- Mencapai akurasi hampir 100% hingga 256k token
- Cocok untuk analisis dokumen panjang seperti laporan, kontrak, dan makalah
- Kompatibel dengan endpoint
/compact, mendukung workflow dengan konteks yang diperluas - Peningkatan performa pengenalan visual menurunkan tingkat kesalahan hingga setengahnya pada chart, dashboard, screenshot UI, dan lainnya
- Kemampuan memahami tata letak spasial elemen dalam gambar juga diperkuat
Penggunaan alat dan tugas gabungan
- Mencatat performa tertinggi dalam kemampuan penggunaan alat dengan Tau2‑bench Telecom 98.7%
- Meningkatkan kemampuan menjalankan workflow end-to-end seperti dukungan pelanggan multi-langkah, pengumpulan data, analisis, dan pembuatan hasil
- Contoh: menangani secara lengkap prosedur layanan pelanggan yang kompleks seperti keterlambatan penerbangan, transit, dan permintaan kompensasi
Kemampuan sains, matematika, dan penalaran
- Mencapai skor tertinggi pada benchmark akademik utama dengan GPQA Diamond 92.4% , FrontierMath Tier 1–3 40.3% , ARC‑AGI‑1 86.2% , dan ARC‑AGI‑2 52.9%
- GPT‑5.2 Pro menembus 90% pada ARC‑AGI‑1, dengan efisiensi biaya meningkat 390 kali
- GPT‑5.2 Pro dan Thinking dapat dimanfaatkan untuk mempercepat riset ilmiah
- Disajikan contoh kasus nyata di mana model mengusulkan pembuktian teori statistika dan hasilnya diverifikasi
Pengalaman penggunaan di ChatGPT
- GPT‑5.2 Instant: memberikan respons cepat dan penjelasan yang jelas, untuk pembelajaran dan pekerjaan sehari-hari
- GPT‑5.2 Thinking: cocok untuk tugas kompleks seperti penulisan kode, peringkasan teks panjang, pemecahan masalah matematika dan logika, serta penyusunan rencana
- GPT‑5.2 Pro: memberikan jawaban dengan tingkat keandalan tinggi untuk pertanyaan sulit, dengan tingkat kesalahan yang lebih rendah
Peningkatan keamanan
- GPT‑5.2 meningkatkan respons percakapan terkait bunuh diri, kesehatan mental, dan ketergantungan emosional berdasarkan riset Safe Completion dari GPT‑5
- Rasio respons yang tidak pantas menurun dibanding GPT‑5.1
- Diperkenalkan model prediksi usia untuk membatasi akses ke konten sensitif bagi pengguna di bawah 18 tahun
- Perbaikan terhadap masalah over‑refusal di ChatGPT masih terus dilakukan
Harga dan cara penyediaan
- Diluncurkan bertahap mulai dari paket berbayar ChatGPT (Plus, Pro, Business, Enterprise)
- Di API tersedia sebagai
gpt‑5.2,gpt‑5.2‑chat‑latest, dangpt‑5.2‑pro - Harga: $1.75 per 1 juta token input, $14 per 1 juta token output, diskon 90% untuk cache input
- Harga per unit lebih tinggi daripada GPT‑5.1, tetapi efisiensi token yang lebih baik menurunkan total biaya
- GPT‑5.1 akan dipertahankan selama 3 bulan sebelum dihentikan secara bertahap
- Versi yang dioptimalkan untuk Codex akan diumumkan kemudian
Kemitraan teknologi
- GPT‑5.2 dikembangkan bekerja sama dengan NVIDIA dan Microsoft
- Memanfaatkan infrastruktur GPU H100, H200, GB200‑NVL72 di data center Azure
- Mendukung efisiensi pelatihan skala besar dan peningkatan kecerdasan model
Ringkasan benchmark utama
- GDPval: 70.9% (GPT‑5.1 38.8%)
- SWE‑Bench Verified: 80.0%
- OpenAI MRCRv2 (256k) : 77.0%
- CharXiv Reasoning (w/ Python) : 88.7%
- Tau2‑bench Telecom: 98.7%
- ARC‑AGI‑1 (Verified) : 86.2%
- AIME 2025: 100%
- FrontierMath Tier 1–3: 40.3%
GPT‑5.2 jauh melampaui model generasi sebelumnya dalam kecerdasan, keandalan, dan produktivitas, dan menempatkan diri sebagai AI pendukung kerja profesional setingkat pakar.
1 komentar
Komentar Hacker News
Selama beberapa bulan terakhir saya memakai ChatGPT berbayar untuk hampir semua kebutuhan seperti coding, berita, analisis saham, dan menyelesaikan masalah sehari-hari
Tetapi setelah Gemini 3 dirilis dan saya mencobanya, hasilnya jauh lebih baik di semua skenario penggunaan
Terutama untuk penelusuran informasi terbaru yang membutuhkan integrasi pencarian web, kemampuannya terasa unggul. OCR-nya juga sangat bagus sampai tulisan tangan saya yang jelek pun bisa dikenali
Hanya saja ada banyak bug di aplikasinya, sesi sering terputus, dan ada error saat upload foto.
Hal yang paling membuat kesal adalah semua tautan harus melewati pencarian Google, jadi kalau ingin langsung ke situs tujuan harus diedit dulu.
Secara keseluruhan saya sampai pada kesimpulan bahwa ChatGPT tertinggal dalam kemampuan integrasi pencarian dan akan sulit mengejarnya
Bahkan kalau terputus saja datanya bisa hilang, jadi terasa seperti produk Google yang belum matang pada umumnya
Ide mode suara bagus, tetapi sering rusak dan mengulang pertanyaan sesuka hati
ChatGPT membuka PDF atau screenshot dan memakainya sebagai input OCR, tetapi Gemini mengabaikannya
Tetapi sekarang browser pada dasarnya sudah bisa menangani itu sendiri, jadi tidak perlu mengirim data klik ke Google
Tidak masalah kalau diubah menjadi tautan langsung
Opus 4.5 kualitasnya lebih baik, tetapi batas pemakaiannya ketat, jadi saya sedang mempertimbangkan berlangganan beberapa layanan sekaligus
Karena saya lebih sering memakai fitur suara daripada OCR, ini fatal buat saya
Saya juga tidak paham klaim bahwa “integrasi pencarian adalah keunggulannya”. Saya penasaran contoh nyata ketika ChatGPT memang lebih buruk untuk mencari informasi terbaru
Tidak disebut di pengumuman blog, tetapi ukuran context window sebenarnya 400 ribu token
Itu tertulis di dokumentasi resmi
Katanya kemampuan memanfaatkan seluruh konteks juga membaik, jadi cukup menjanjikan
Saya sempat memakai Codex 5.1 lalu pindah ke Gemini 3 untuk proyek Rust/CUDA; awalnya saya kagum karena dia bagus menemukan bug, tetapi tak lama kemudian saya hampir stres karena mengabaikan perintah, output rusak, dan proses penalaran yang tidak transparan
Setelah kembali ke Codex, semuanya terasa stabil dan umpan balik juga direspons dengan baik. Sekarang bahkan ada mode GPT‑5.2 xhigh, rasanya seperti mendapat hadiah Natal
Saya jadi rindu budaya forum lama yang lebih jujur membahas masalah dan solusinya
Saya sering melihat banyak developer mencampur semua topik seperti memasak, hadiah, coding, dan lain-lain dalam satu sesi, lalu heran ketika mendapat jawaban aneh
LLM terus mengirim seluruh konteks percakapan, jadi untuk tiap topik seharusnya mulai chat baru
Kalau tidak, Anda bisa mendapat jawaban aneh seperti “apa pendapat istri saya tentang variabel global”
Aplikasi seperti Cursor atau ChatGPT mungkin akan sulit dipahami
Kalau tidak paham konsep context window, AI bisa terasa bodoh. Mungkin karena itulah orang cenderung meremehkan AI
Selain itu, kita tidak tahu apakah model sedang dalam A/B test atau apakah token reasoning dibatasi, jadi sulit untuk benar-benar percaya
Untuk benar-benar memisahkannya, opsi itu harus dimatikan
Pada gambar motherboard, posisi RAM, slot PCIe, dan DisplayPort semuanya salah
Tautan gambar
Saya bingung kenapa hal seperti ini dipakai sebagai gambar promosi
Pada benchmark Extended NYT Connections, versi penalaran tinggi GPT‑5.2 meningkat dari 69.9→77.9
Tautan benchmark
Versi penalaran menengah dan rendah juga semuanya membaik, tetapi Gemini 3 Pro dan Grok 4.1 Fast Reasoning masih lebih tinggi
Tes “pelikan naik sepeda” itu menarik
Contoh gambar
Peningkatan skor ARC‑AGI‑2 sangat mengejutkan. Kemampuan generalisasinya tampaknya meningkat besar
Model-model sebelumnya terasa seperti overfit, tetapi sekarang self-correction-nya bekerja dengan baik
Jika peningkatan sebesar ini bisa dicapai tanpa data center baru atau ekspansi model berskala besar, masa depannya jadi terasa menjanjikan
Sekarang saya merasa pengalaman pengguna lebih penting daripada benchmark
Alasan saya tetap berlangganan ChatGPT adalah karena ada fitur pengaturan chat per proyek
Tetapi di semua platform, masalah-masalah dasar seperti berikut sama-sama harus diselesaikan
Masalah usability mendasar seperti ini harus dibenahi
Karena itu benchmark akhirnya menjadi semacam permainan kucing dan tikus
Sepertinya postingan keluhan di r/Codex disensor, jadi saya bicara jujur di sini
Memang lebih cepat, tetapi masih lebih lambat daripada Opus 4.5, dan dibanding 5.1 hampir tidak terasa ada peningkatan
Biaya token naik sampai 40%, tetapi saya tidak merasakan nilainya
Gemini 3 gratis dengan level setara ChatGPT Pro, dan Claude Code $100/bulan juga kuat
OpenAI tampaknya sedang menghadapi krisis eksistensial
Fakta bahwa “knowledge cutoff adalah Agustus 2025” dan kenaikan harga tampaknya mengindikasikan model pretrain baru
GPT‑5.1 diketahui memakai pretrain yang sama dengan GPT‑4o