GPT‑5.2 Diluncurkan

(openai.com)

5 poin oleh GN⁺ 2025-12-12 | 1 komentar | Bagikan ke WhatsApp

GPT‑5.2 adalah seri model AI paling kuat untuk pekerjaan pengetahuan profesional, dengan peningkatan kemampuan dalam penulisan kode, pengenalan gambar, dan pelaksanaan proyek kompleks
Dalam evaluasi GDPval, model ini melampaui atau menyamai pakar industri pada 70,9% tugas kerja pengetahuan di 44 profesi, dengan kecepatan 11 kali lebih tinggi dan biaya di bawah 1%
Mencapai performa terbaik pada benchmark utama seperti SWE‑Bench Pro 55.6% , GPQA Diamond 92.4% , dan ARC‑AGI‑1 86.2%
Menunjukkan peningkatan besar dibanding GPT‑5.1 dalam pemahaman konteks panjang (256k token), pemrosesan informasi visual, dan penggunaan alat (98.7%)
Diluncurkan secara bertahap di ChatGPT dan API, dengan tujuan meningkatkan produktivitas dan keandalan untuk pengguna profesional

Ikhtisar GPT‑5.2

GPT‑5.2 adalah seri model AI untuk pekerjaan pengetahuan profesional, yang diperkuat untuk pembuatan spreadsheet, pembuatan presentasi, penulisan kode, pengenalan gambar, pemahaman teks panjang, penggunaan alat, dan pelaksanaan proyek kompleks
Pengguna ChatGPT Enterprise sudah menghemat rata-rata 40~60 menit per hari, lebih dari 10 jam per minggu, dan GPT‑5.2 memperluas efisiensi ini lebih jauh
Di ChatGPT, model ini tersedia dalam tiga versi: Instant, Thinking, dan Pro; di API tersedia langsung untuk developer

Performa model

GPT‑5.2 Thinking menjadi yang pertama mencapai performa setara atau di atas pakar dalam evaluasi GDPval
- Melampaui atau menyamai pakar pada 70,9% tugas kerja pengetahuan di 44 profesi
- 11 kali lebih cepat daripada pakar, dengan biaya di bawah 1%
Dalam evaluasi internal, skor tugas pemodelan spreadsheet untuk analisis investment banking meningkat 9,3% dibanding GPT‑5.1 (59.1% → 68.4%)
Peningkatan performa software engineering dengan SWE‑Bench Pro 55.6% dan SWE‑Bench Verified 80%
- Lebih andal dalam debugging kode nyata, implementasi fitur, refactoring, dan deployment
Juga meningkat dibanding GPT‑5.1 dalam pengembangan frontend dan pekerjaan UI 3D
Tingkat respons yang salah turun 30%, sehingga frekuensi halusinasi (hallucination) berkurang

Pemahaman konteks panjang dan pengenalan visual

Mencatat skor tertinggi dalam evaluasi OpenAI MRCRv2 untuk pemahaman terpadu dokumen panjang
- Mencapai akurasi hampir 100% hingga 256k token
- Cocok untuk analisis dokumen panjang seperti laporan, kontrak, dan makalah
Kompatibel dengan endpoint /compact, mendukung workflow dengan konteks yang diperluas
Peningkatan performa pengenalan visual menurunkan tingkat kesalahan hingga setengahnya pada chart, dashboard, screenshot UI, dan lainnya
- Kemampuan memahami tata letak spasial elemen dalam gambar juga diperkuat

Penggunaan alat dan tugas gabungan

Mencatat performa tertinggi dalam kemampuan penggunaan alat dengan Tau2‑bench Telecom 98.7%
Meningkatkan kemampuan menjalankan workflow end-to-end seperti dukungan pelanggan multi-langkah, pengumpulan data, analisis, dan pembuatan hasil
- Contoh: menangani secara lengkap prosedur layanan pelanggan yang kompleks seperti keterlambatan penerbangan, transit, dan permintaan kompensasi

Kemampuan sains, matematika, dan penalaran

Mencapai skor tertinggi pada benchmark akademik utama dengan GPQA Diamond 92.4% , FrontierMath Tier 1–3 40.3% , ARC‑AGI‑1 86.2% , dan ARC‑AGI‑2 52.9%
GPT‑5.2 Pro menembus 90% pada ARC‑AGI‑1, dengan efisiensi biaya meningkat 390 kali
GPT‑5.2 Pro dan Thinking dapat dimanfaatkan untuk mempercepat riset ilmiah
- Disajikan contoh kasus nyata di mana model mengusulkan pembuktian teori statistika dan hasilnya diverifikasi

Pengalaman penggunaan di ChatGPT

GPT‑5.2 Instant: memberikan respons cepat dan penjelasan yang jelas, untuk pembelajaran dan pekerjaan sehari-hari
GPT‑5.2 Thinking: cocok untuk tugas kompleks seperti penulisan kode, peringkasan teks panjang, pemecahan masalah matematika dan logika, serta penyusunan rencana
GPT‑5.2 Pro: memberikan jawaban dengan tingkat keandalan tinggi untuk pertanyaan sulit, dengan tingkat kesalahan yang lebih rendah

Peningkatan keamanan

GPT‑5.2 meningkatkan respons percakapan terkait bunuh diri, kesehatan mental, dan ketergantungan emosional berdasarkan riset Safe Completion dari GPT‑5
- Rasio respons yang tidak pantas menurun dibanding GPT‑5.1
Diperkenalkan model prediksi usia untuk membatasi akses ke konten sensitif bagi pengguna di bawah 18 tahun
Perbaikan terhadap masalah over‑refusal di ChatGPT masih terus dilakukan

Harga dan cara penyediaan

Diluncurkan bertahap mulai dari paket berbayar ChatGPT (Plus, Pro, Business, Enterprise)
Di API tersedia sebagai gpt‑5.2, gpt‑5.2‑chat‑latest, dan gpt‑5.2‑pro
Harga: $1.75 per 1 juta token input, $14 per 1 juta token output, diskon 90% untuk cache input
- Harga per unit lebih tinggi daripada GPT‑5.1, tetapi efisiensi token yang lebih baik menurunkan total biaya
GPT‑5.1 akan dipertahankan selama 3 bulan sebelum dihentikan secara bertahap
Versi yang dioptimalkan untuk Codex akan diumumkan kemudian

Kemitraan teknologi

GPT‑5.2 dikembangkan bekerja sama dengan NVIDIA dan Microsoft
- Memanfaatkan infrastruktur GPU H100, H200, GB200‑NVL72 di data center Azure
- Mendukung efisiensi pelatihan skala besar dan peningkatan kecerdasan model

Ringkasan benchmark utama

GDPval: 70.9% (GPT‑5.1 38.8%)
SWE‑Bench Verified: 80.0%
OpenAI MRCRv2 (256k) : 77.0%
CharXiv Reasoning (w/ Python) : 88.7%
Tau2‑bench Telecom: 98.7%
ARC‑AGI‑1 (Verified) : 86.2%
AIME 2025: 100%
FrontierMath Tier 1–3: 40.3%

GPT‑5.2 jauh melampaui model generasi sebelumnya dalam kecerdasan, keandalan, dan produktivitas, dan menempatkan diri sebagai AI pendukung kerja profesional setingkat pakar.

1 komentar

GN⁺ 2025-12-12

Komentar Hacker News

Selama beberapa bulan terakhir saya memakai ChatGPT berbayar untuk hampir semua kebutuhan seperti coding, berita, analisis saham, dan menyelesaikan masalah sehari-hari
Tetapi setelah Gemini 3 dirilis dan saya mencobanya, hasilnya jauh lebih baik di semua skenario penggunaan
Terutama untuk penelusuran informasi terbaru yang membutuhkan integrasi pencarian web, kemampuannya terasa unggul. OCR-nya juga sangat bagus sampai tulisan tangan saya yang jelek pun bisa dikenali
Hanya saja ada banyak bug di aplikasinya, sesi sering terputus, dan ada error saat upload foto.
Hal yang paling membuat kesal adalah semua tautan harus melewati pencarian Google, jadi kalau ingin langsung ke situs tujuan harus diedit dulu.
Secara keseluruhan saya sampai pada kesimpulan bahwa ChatGPT tertinggal dalam kemampuan integrasi pencarian dan akan sulit mengejarnya
- Ungkapan “cuma ada masalah policy” itu terlalu meremehkan. Sampai level bikin emosi karena ada bug yang menghapus seluruh thread beberapa kali sehari
  Bahkan kalau terputus saja datanya bisa hilang, jadi terasa seperti produk Google yang belum matang pada umumnya
  Ide mode suara bagus, tetapi sering rusak dan mengulang pertanyaan sesuka hati
- Saya justru mengalami hal sebaliknya. ChatGPT melakukan beberapa kali pencarian, menganalisis hasilnya, lalu mencari lagi bila perlu, sedangkan Gemini hampir tidak melakukan pencarian
  ChatGPT membuka PDF atau screenshot dan memakainya sebagai input OCR, tetapi Gemini mengabaikannya
- Alasan tautannya melewati pencarian Google adalah karena di balik layar dilakukan pemeriksaan malware dan phishing
  Tetapi sekarang browser pada dasarnya sudah bisa menangani itu sendiri, jadi tidak perlu mengirim data klik ke Google
  Tidak masalah kalau diubah menjadi tautan langsung
- Dalam kasus saya, Gemini 3 Pro justru lebih parah soal halusinasi (hallucination). Bahkan kadang membuat-buat sumber yang tidak ada
  Opus 4.5 kualitasnya lebih baik, tetapi batas pemakaiannya ketat, jadi saya sedang mempertimbangkan berlangganan beberapa layanan sekaligus
- Kualitas pengenalan suara Gemini terlalu buruk sehingga tidak bisa saya pakai
  Karena saya lebih sering memakai fitur suara daripada OCR, ini fatal buat saya
  Saya juga tidak paham klaim bahwa “integrasi pencarian adalah keunggulannya”. Saya penasaran contoh nyata ketika ChatGPT memang lebih buruk untuk mencari informasi terbaru
Tidak disebut di pengumuman blog, tetapi ukuran context window sebenarnya 400 ribu token
Itu tertulis di dokumentasi resmi
Katanya kemampuan memanfaatkan seluruh konteks juga membaik, jadi cukup menjanjikan
Saya sempat memakai Codex 5.1 lalu pindah ke Gemini 3 untuk proyek Rust/CUDA; awalnya saya kagum karena dia bagus menemukan bug, tetapi tak lama kemudian saya hampir stres karena mengabaikan perintah, output rusak, dan proses penalaran yang tidak transparan
Setelah kembali ke Codex, semuanya terasa stabil dan umpan balik juga direspons dengan baik. Sekarang bahkan ada mode GPT‑5.2 xhigh, rasanya seperti mendapat hadiah Natal
- 400 ribu token itu sebenarnya sudah ada di GPT‑5, 5.1, 5‑mini, dan lainnya. Tetapi kalau kinerja pada konteks panjang memang meningkat, itu sangat berarti
- Saya malah merasa hasil mode xhigh lebih buruk daripada high, jadi saya sempat berpikir ini PEBKAC(kesalahan pengguna). Penasaran apakah ada yang pernah membandingkannya
- Melihat komentar belakangan ini, rasanya sulit membedakan mana ulasan sungguhan dan mana promosi sponsor
  Saya jadi rindu budaya forum lama yang lebih jujur membahas masalah dan solusinya
Saya sering melihat banyak developer mencampur semua topik seperti memasak, hadiah, coding, dan lain-lain dalam satu sesi, lalu heran ketika mendapat jawaban aneh
LLM terus mengirim seluruh konteks percakapan, jadi untuk tiap topik seharusnya mulai chat baru
Kalau tidak, Anda bisa mendapat jawaban aneh seperti “apa pendapat istri saya tentang variabel global”
- Kadang saya berpikir begini. Bagi orang yang tidak tahu cara kerja internal LLM, seaneh apa ya alat-alat ini terasa?
  Aplikasi seperti Cursor atau ChatGPT mungkin akan sulit dipahami
- Saya juga merasa sangat terbantu karena pernah mengikuti kursus fast.ai dan mencoba sendiri berbagai model seperti VLLM
  Kalau tidak paham konsep context window, AI bisa terasa bodoh. Mungkin karena itulah orang cenderung meremehkan AI
- Tidak jelas juga konteks seperti apa yang sebaiknya dipertahankan. Saya pernah memasukkan teks dengan gaya serupa, tetapi justru performanya turun
  Selain itu, kita tidak tahu apakah model sedang dalam A/B test atau apakah token reasoning dibatasi, jadi sulit untuk benar-benar percaya
- Opsi “Reference chat history” di ChatGPT aktif secara default, jadi meskipun membuat percakapan baru, isi sebelumnya tetap bisa tercampur
  Untuk benar-benar memisahkannya, opsi itu harus dimatikan
- Saya pernah mendengar podcast tentang orang-orang yang masuk ke “hubungan romantis” dengan LLM, dan tampaknya mereka tidak sadar bahwa cukup dengan mereset konteks, LLM itu akan kembali menjadi sosok yang benar-benar asing
Pada gambar motherboard, posisi RAM, slot PCIe, dan DisplayPort semuanya salah
Tautan gambar
Saya bingung kenapa hal seperti ini dipakai sebagai gambar promosi
- Itu dimaksudkan untuk menunjukkan bahwa kemampuan visi GPT‑5.2 sudah meningkat tetapi belum sempurna. Kalau hanya memilih hasil yang sempurna justru bisa menimbulkan salah paham
- Port USB Type‑A juga bukan tersusun dalam 2 pasang, melainkan 4 buah
- Di isi artikel juga tertulis bahwa “kedua model sama-sama membuat kesalahan, tetapi GPT‑5.2 menunjukkan pemahaman yang lebih baik”
- Menurut saya kesalahan seperti ini muncul karena budaya komunitas AI belakangan cenderung hanya memproduksi hasil generatif tanpa memverifikasi hasilnya
- Meski begitu, resolusi gambarnya memang setingkat ponsel lipat tahun 2003, jadi wajar saja kalau muncul kesalahan
Pada benchmark Extended NYT Connections, versi penalaran tinggi GPT‑5.2 meningkat dari 69.9→77.9
Tautan benchmark
Versi penalaran menengah dan rendah juga semuanya membaik, tetapi Gemini 3 Pro dan Grok 4.1 Fast Reasoning masih lebih tinggi
- Angka 96.8% untuk Gemini 3 Pro Preview pada tes yang sama terdengar mengesankan
- Ada juga orang lain yang menguji dengan puzzle Clues by Sam, dan GPT‑5 Pro sudah berada di peringkat pertama
- Saya penasaran kenapa hasil Grok 4.1 reasoning tidak dimasukkan
Tes “pelikan naik sepeda” itu menarik
Contoh gambar
- Volatilitasnya terlalu tinggi sehingga nilainya sebagai tes rendah. Saya menjalankannya 10 kali dan setengahnya menghasilkan output yang sempurna
- Mungkin ini tanggapan terhadap masukan bahwa versi 5.1 terlalu monoton. Saya juga mengalami hal yang sama pada versi POV‑Ray
- Melihat hasilnya yang makin berevolusi secara aerodinamis, rasanya AI memang semakin pintar
- Sampai-sampai muncul lelucon, “ini satu-satunya benchmark yang saya percaya”
- Tetapi memakai benchmark yang sama terlalu lama juga bukan hal yang baik
Peningkatan skor ARC‑AGI‑2 sangat mengejutkan. Kemampuan generalisasinya tampaknya meningkat besar
Model-model sebelumnya terasa seperti overfit, tetapi sekarang self-correction-nya bekerja dengan baik
Jika peningkatan sebesar ini bisa dicapai tanpa data center baru atau ekspansi model berskala besar, masa depannya jadi terasa menjanjikan
- Saya juga menaruh perhatian pada hasil ARC‑AGI‑2. Ini benar-benar lompatan besar
Sekarang saya merasa pengalaman pengguna lebih penting daripada benchmark
Alasan saya tetap berlangganan ChatGPT adalah karena ada fitur pengaturan chat per proyek
Tetapi di semua platform, masalah-masalah dasar seperti berikut sama-sama harus diselesaikan
- berbohong dengan penuh percaya diri
- tidak mengikuti prompt dengan benar
- tidak mengungkapkan ketidakpastian
- tidak berhenti memberi pujian yang tidak perlu dan jawaban bertele-tele
- kutipan sumber tidak konsisten
- tidak menjelaskan dengan jelas apakah yang dilihat adalah teks asli atau ringkasannya
  Masalah usability mendasar seperti ini harus dibenahi
- Begitu keluar dari metrik objektif, sulit meyakinkan orang bahwa pengukurannya valid, tetapi metrik yang bisa diukur mudah dimanipulasi
  Karena itu benchmark akhirnya menjadi semacam permainan kucing dan tikus
Sepertinya postingan keluhan di r/Codex disensor, jadi saya bicara jujur di sini
Memang lebih cepat, tetapi masih lebih lambat daripada Opus 4.5, dan dibanding 5.1 hampir tidak terasa ada peningkatan
Biaya token naik sampai 40%, tetapi saya tidak merasakan nilainya
Gemini 3 gratis dengan level setara ChatGPT Pro, dan Claude Code $100/bulan juga kuat
OpenAI tampaknya sedang menghadapi krisis eksistensial
- Saat berpindah dari Gemini 2.5 ke 3 pun peningkatannya tidak besar. Secara umum terasa seperti kemajuan nyata sedang stagnan
Fakta bahwa “knowledge cutoff adalah Agustus 2025” dan kenaikan harga tampaknya mengindikasikan model pretrain baru
GPT‑5.1 diketahui memakai pretrain yang sama dengan GPT‑4o
- Pretrain baru biayanya sangat besar, jadi tidak mungkin hanya berakhir sebagai kenaikan versi 0.1 sederhana
- Atau bisa jadi 5.1 adalah checkpoint yang lebih lama, atau quantization-nya lebih agresif
- Atau mungkin saja ini model yang sama tetapi diberi makan data berkualitas rendah (slop) sekali lagi