5 poin oleh GN⁺ 2025-12-12 | 1 komentar | Bagikan ke WhatsApp
  • GPT‑5.2 adalah seri model AI paling kuat untuk pekerjaan pengetahuan profesional, dengan peningkatan kemampuan dalam penulisan kode, pengenalan gambar, dan pelaksanaan proyek kompleks
  • Dalam evaluasi GDPval, model ini melampaui atau menyamai pakar industri pada 70,9% tugas kerja pengetahuan di 44 profesi, dengan kecepatan 11 kali lebih tinggi dan biaya di bawah 1%
  • Mencapai performa terbaik pada benchmark utama seperti SWE‑Bench Pro 55.6% , GPQA Diamond 92.4% , dan ARC‑AGI‑1 86.2%
  • Menunjukkan peningkatan besar dibanding GPT‑5.1 dalam pemahaman konteks panjang (256k token), pemrosesan informasi visual, dan penggunaan alat (98.7%)
  • Diluncurkan secara bertahap di ChatGPT dan API, dengan tujuan meningkatkan produktivitas dan keandalan untuk pengguna profesional

Ikhtisar GPT‑5.2

  • GPT‑5.2 adalah seri model AI untuk pekerjaan pengetahuan profesional, yang diperkuat untuk pembuatan spreadsheet, pembuatan presentasi, penulisan kode, pengenalan gambar, pemahaman teks panjang, penggunaan alat, dan pelaksanaan proyek kompleks
  • Pengguna ChatGPT Enterprise sudah menghemat rata-rata 40~60 menit per hari, lebih dari 10 jam per minggu, dan GPT‑5.2 memperluas efisiensi ini lebih jauh
  • Di ChatGPT, model ini tersedia dalam tiga versi: Instant, Thinking, dan Pro; di API tersedia langsung untuk developer

Performa model

  • GPT‑5.2 Thinking menjadi yang pertama mencapai performa setara atau di atas pakar dalam evaluasi GDPval
    • Melampaui atau menyamai pakar pada 70,9% tugas kerja pengetahuan di 44 profesi
    • 11 kali lebih cepat daripada pakar, dengan biaya di bawah 1%
  • Dalam evaluasi internal, skor tugas pemodelan spreadsheet untuk analisis investment banking meningkat 9,3% dibanding GPT‑5.1 (59.1% → 68.4%)
  • Peningkatan performa software engineering dengan SWE‑Bench Pro 55.6% dan SWE‑Bench Verified 80%
    • Lebih andal dalam debugging kode nyata, implementasi fitur, refactoring, dan deployment
  • Juga meningkat dibanding GPT‑5.1 dalam pengembangan frontend dan pekerjaan UI 3D
  • Tingkat respons yang salah turun 30%, sehingga frekuensi halusinasi (hallucination) berkurang

Pemahaman konteks panjang dan pengenalan visual

  • Mencatat skor tertinggi dalam evaluasi OpenAI MRCRv2 untuk pemahaman terpadu dokumen panjang
    • Mencapai akurasi hampir 100% hingga 256k token
    • Cocok untuk analisis dokumen panjang seperti laporan, kontrak, dan makalah
  • Kompatibel dengan endpoint /compact, mendukung workflow dengan konteks yang diperluas
  • Peningkatan performa pengenalan visual menurunkan tingkat kesalahan hingga setengahnya pada chart, dashboard, screenshot UI, dan lainnya
    • Kemampuan memahami tata letak spasial elemen dalam gambar juga diperkuat

Penggunaan alat dan tugas gabungan

  • Mencatat performa tertinggi dalam kemampuan penggunaan alat dengan Tau2‑bench Telecom 98.7%
  • Meningkatkan kemampuan menjalankan workflow end-to-end seperti dukungan pelanggan multi-langkah, pengumpulan data, analisis, dan pembuatan hasil
    • Contoh: menangani secara lengkap prosedur layanan pelanggan yang kompleks seperti keterlambatan penerbangan, transit, dan permintaan kompensasi

Kemampuan sains, matematika, dan penalaran

  • Mencapai skor tertinggi pada benchmark akademik utama dengan GPQA Diamond 92.4% , FrontierMath Tier 1–3 40.3% , ARC‑AGI‑1 86.2% , dan ARC‑AGI‑2 52.9%
  • GPT‑5.2 Pro menembus 90% pada ARC‑AGI‑1, dengan efisiensi biaya meningkat 390 kali
  • GPT‑5.2 Pro dan Thinking dapat dimanfaatkan untuk mempercepat riset ilmiah
    • Disajikan contoh kasus nyata di mana model mengusulkan pembuktian teori statistika dan hasilnya diverifikasi

Pengalaman penggunaan di ChatGPT

  • GPT‑5.2 Instant: memberikan respons cepat dan penjelasan yang jelas, untuk pembelajaran dan pekerjaan sehari-hari
  • GPT‑5.2 Thinking: cocok untuk tugas kompleks seperti penulisan kode, peringkasan teks panjang, pemecahan masalah matematika dan logika, serta penyusunan rencana
  • GPT‑5.2 Pro: memberikan jawaban dengan tingkat keandalan tinggi untuk pertanyaan sulit, dengan tingkat kesalahan yang lebih rendah

Peningkatan keamanan

  • GPT‑5.2 meningkatkan respons percakapan terkait bunuh diri, kesehatan mental, dan ketergantungan emosional berdasarkan riset Safe Completion dari GPT‑5
    • Rasio respons yang tidak pantas menurun dibanding GPT‑5.1
  • Diperkenalkan model prediksi usia untuk membatasi akses ke konten sensitif bagi pengguna di bawah 18 tahun
  • Perbaikan terhadap masalah over‑refusal di ChatGPT masih terus dilakukan

Harga dan cara penyediaan

  • Diluncurkan bertahap mulai dari paket berbayar ChatGPT (Plus, Pro, Business, Enterprise)
  • Di API tersedia sebagai gpt‑5.2, gpt‑5.2‑chat‑latest, dan gpt‑5.2‑pro
  • Harga: $1.75 per 1 juta token input, $14 per 1 juta token output, diskon 90% untuk cache input
    • Harga per unit lebih tinggi daripada GPT‑5.1, tetapi efisiensi token yang lebih baik menurunkan total biaya
  • GPT‑5.1 akan dipertahankan selama 3 bulan sebelum dihentikan secara bertahap
  • Versi yang dioptimalkan untuk Codex akan diumumkan kemudian

Kemitraan teknologi

  • GPT‑5.2 dikembangkan bekerja sama dengan NVIDIA dan Microsoft
    • Memanfaatkan infrastruktur GPU H100, H200, GB200‑NVL72 di data center Azure
    • Mendukung efisiensi pelatihan skala besar dan peningkatan kecerdasan model

Ringkasan benchmark utama

  • GDPval: 70.9% (GPT‑5.1 38.8%)
  • SWE‑Bench Verified: 80.0%
  • OpenAI MRCRv2 (256k) : 77.0%
  • CharXiv Reasoning (w/ Python) : 88.7%
  • Tau2‑bench Telecom: 98.7%
  • ARC‑AGI‑1 (Verified) : 86.2%
  • AIME 2025: 100%
  • FrontierMath Tier 1–3: 40.3%

GPT‑5.2 jauh melampaui model generasi sebelumnya dalam kecerdasan, keandalan, dan produktivitas, dan menempatkan diri sebagai AI pendukung kerja profesional setingkat pakar.

1 komentar

 
GN⁺ 2025-12-12
Komentar Hacker News
  • Selama beberapa bulan terakhir saya memakai ChatGPT berbayar untuk hampir semua kebutuhan seperti coding, berita, analisis saham, dan menyelesaikan masalah sehari-hari
    Tetapi setelah Gemini 3 dirilis dan saya mencobanya, hasilnya jauh lebih baik di semua skenario penggunaan
    Terutama untuk penelusuran informasi terbaru yang membutuhkan integrasi pencarian web, kemampuannya terasa unggul. OCR-nya juga sangat bagus sampai tulisan tangan saya yang jelek pun bisa dikenali
    Hanya saja ada banyak bug di aplikasinya, sesi sering terputus, dan ada error saat upload foto.
    Hal yang paling membuat kesal adalah semua tautan harus melewati pencarian Google, jadi kalau ingin langsung ke situs tujuan harus diedit dulu.
    Secara keseluruhan saya sampai pada kesimpulan bahwa ChatGPT tertinggal dalam kemampuan integrasi pencarian dan akan sulit mengejarnya

    • Ungkapan “cuma ada masalah policy” itu terlalu meremehkan. Sampai level bikin emosi karena ada bug yang menghapus seluruh thread beberapa kali sehari
      Bahkan kalau terputus saja datanya bisa hilang, jadi terasa seperti produk Google yang belum matang pada umumnya
      Ide mode suara bagus, tetapi sering rusak dan mengulang pertanyaan sesuka hati
    • Saya justru mengalami hal sebaliknya. ChatGPT melakukan beberapa kali pencarian, menganalisis hasilnya, lalu mencari lagi bila perlu, sedangkan Gemini hampir tidak melakukan pencarian
      ChatGPT membuka PDF atau screenshot dan memakainya sebagai input OCR, tetapi Gemini mengabaikannya
    • Alasan tautannya melewati pencarian Google adalah karena di balik layar dilakukan pemeriksaan malware dan phishing
      Tetapi sekarang browser pada dasarnya sudah bisa menangani itu sendiri, jadi tidak perlu mengirim data klik ke Google
      Tidak masalah kalau diubah menjadi tautan langsung
    • Dalam kasus saya, Gemini 3 Pro justru lebih parah soal halusinasi (hallucination). Bahkan kadang membuat-buat sumber yang tidak ada
      Opus 4.5 kualitasnya lebih baik, tetapi batas pemakaiannya ketat, jadi saya sedang mempertimbangkan berlangganan beberapa layanan sekaligus
    • Kualitas pengenalan suara Gemini terlalu buruk sehingga tidak bisa saya pakai
      Karena saya lebih sering memakai fitur suara daripada OCR, ini fatal buat saya
      Saya juga tidak paham klaim bahwa “integrasi pencarian adalah keunggulannya”. Saya penasaran contoh nyata ketika ChatGPT memang lebih buruk untuk mencari informasi terbaru
  • Tidak disebut di pengumuman blog, tetapi ukuran context window sebenarnya 400 ribu token
    Itu tertulis di dokumentasi resmi
    Katanya kemampuan memanfaatkan seluruh konteks juga membaik, jadi cukup menjanjikan
    Saya sempat memakai Codex 5.1 lalu pindah ke Gemini 3 untuk proyek Rust/CUDA; awalnya saya kagum karena dia bagus menemukan bug, tetapi tak lama kemudian saya hampir stres karena mengabaikan perintah, output rusak, dan proses penalaran yang tidak transparan
    Setelah kembali ke Codex, semuanya terasa stabil dan umpan balik juga direspons dengan baik. Sekarang bahkan ada mode GPT‑5.2 xhigh, rasanya seperti mendapat hadiah Natal

    • 400 ribu token itu sebenarnya sudah ada di GPT‑5, 5.1, 5‑mini, dan lainnya. Tetapi kalau kinerja pada konteks panjang memang meningkat, itu sangat berarti
    • Saya malah merasa hasil mode xhigh lebih buruk daripada high, jadi saya sempat berpikir ini PEBKAC(kesalahan pengguna). Penasaran apakah ada yang pernah membandingkannya
    • Melihat komentar belakangan ini, rasanya sulit membedakan mana ulasan sungguhan dan mana promosi sponsor
      Saya jadi rindu budaya forum lama yang lebih jujur membahas masalah dan solusinya
  • Saya sering melihat banyak developer mencampur semua topik seperti memasak, hadiah, coding, dan lain-lain dalam satu sesi, lalu heran ketika mendapat jawaban aneh
    LLM terus mengirim seluruh konteks percakapan, jadi untuk tiap topik seharusnya mulai chat baru
    Kalau tidak, Anda bisa mendapat jawaban aneh seperti “apa pendapat istri saya tentang variabel global”

    • Kadang saya berpikir begini. Bagi orang yang tidak tahu cara kerja internal LLM, seaneh apa ya alat-alat ini terasa?
      Aplikasi seperti Cursor atau ChatGPT mungkin akan sulit dipahami
    • Saya juga merasa sangat terbantu karena pernah mengikuti kursus fast.ai dan mencoba sendiri berbagai model seperti VLLM
      Kalau tidak paham konsep context window, AI bisa terasa bodoh. Mungkin karena itulah orang cenderung meremehkan AI
    • Tidak jelas juga konteks seperti apa yang sebaiknya dipertahankan. Saya pernah memasukkan teks dengan gaya serupa, tetapi justru performanya turun
      Selain itu, kita tidak tahu apakah model sedang dalam A/B test atau apakah token reasoning dibatasi, jadi sulit untuk benar-benar percaya
    • Opsi “Reference chat history” di ChatGPT aktif secara default, jadi meskipun membuat percakapan baru, isi sebelumnya tetap bisa tercampur
      Untuk benar-benar memisahkannya, opsi itu harus dimatikan
    • Saya pernah mendengar podcast tentang orang-orang yang masuk ke “hubungan romantis” dengan LLM, dan tampaknya mereka tidak sadar bahwa cukup dengan mereset konteks, LLM itu akan kembali menjadi sosok yang benar-benar asing
  • Pada gambar motherboard, posisi RAM, slot PCIe, dan DisplayPort semuanya salah
    Tautan gambar
    Saya bingung kenapa hal seperti ini dipakai sebagai gambar promosi

    • Itu dimaksudkan untuk menunjukkan bahwa kemampuan visi GPT‑5.2 sudah meningkat tetapi belum sempurna. Kalau hanya memilih hasil yang sempurna justru bisa menimbulkan salah paham
    • Port USB Type‑A juga bukan tersusun dalam 2 pasang, melainkan 4 buah
    • Di isi artikel juga tertulis bahwa “kedua model sama-sama membuat kesalahan, tetapi GPT‑5.2 menunjukkan pemahaman yang lebih baik”
    • Menurut saya kesalahan seperti ini muncul karena budaya komunitas AI belakangan cenderung hanya memproduksi hasil generatif tanpa memverifikasi hasilnya
    • Meski begitu, resolusi gambarnya memang setingkat ponsel lipat tahun 2003, jadi wajar saja kalau muncul kesalahan
  • Pada benchmark Extended NYT Connections, versi penalaran tinggi GPT‑5.2 meningkat dari 69.9→77.9
    Tautan benchmark
    Versi penalaran menengah dan rendah juga semuanya membaik, tetapi Gemini 3 Pro dan Grok 4.1 Fast Reasoning masih lebih tinggi

    • Angka 96.8% untuk Gemini 3 Pro Preview pada tes yang sama terdengar mengesankan
    • Ada juga orang lain yang menguji dengan puzzle Clues by Sam, dan GPT‑5 Pro sudah berada di peringkat pertama
    • Saya penasaran kenapa hasil Grok 4.1 reasoning tidak dimasukkan
  • Tes “pelikan naik sepeda” itu menarik
    Contoh gambar

    • Volatilitasnya terlalu tinggi sehingga nilainya sebagai tes rendah. Saya menjalankannya 10 kali dan setengahnya menghasilkan output yang sempurna
    • Mungkin ini tanggapan terhadap masukan bahwa versi 5.1 terlalu monoton. Saya juga mengalami hal yang sama pada versi POV‑Ray
    • Melihat hasilnya yang makin berevolusi secara aerodinamis, rasanya AI memang semakin pintar
    • Sampai-sampai muncul lelucon, “ini satu-satunya benchmark yang saya percaya”
    • Tetapi memakai benchmark yang sama terlalu lama juga bukan hal yang baik
  • Peningkatan skor ARC‑AGI‑2 sangat mengejutkan. Kemampuan generalisasinya tampaknya meningkat besar
    Model-model sebelumnya terasa seperti overfit, tetapi sekarang self-correction-nya bekerja dengan baik
    Jika peningkatan sebesar ini bisa dicapai tanpa data center baru atau ekspansi model berskala besar, masa depannya jadi terasa menjanjikan

    • Saya juga menaruh perhatian pada hasil ARC‑AGI‑2. Ini benar-benar lompatan besar
  • Sekarang saya merasa pengalaman pengguna lebih penting daripada benchmark
    Alasan saya tetap berlangganan ChatGPT adalah karena ada fitur pengaturan chat per proyek
    Tetapi di semua platform, masalah-masalah dasar seperti berikut sama-sama harus diselesaikan

    • berbohong dengan penuh percaya diri
    • tidak mengikuti prompt dengan benar
    • tidak mengungkapkan ketidakpastian
    • tidak berhenti memberi pujian yang tidak perlu dan jawaban bertele-tele
    • kutipan sumber tidak konsisten
    • tidak menjelaskan dengan jelas apakah yang dilihat adalah teks asli atau ringkasannya
      Masalah usability mendasar seperti ini harus dibenahi
    • Begitu keluar dari metrik objektif, sulit meyakinkan orang bahwa pengukurannya valid, tetapi metrik yang bisa diukur mudah dimanipulasi
      Karena itu benchmark akhirnya menjadi semacam permainan kucing dan tikus
  • Sepertinya postingan keluhan di r/Codex disensor, jadi saya bicara jujur di sini
    Memang lebih cepat, tetapi masih lebih lambat daripada Opus 4.5, dan dibanding 5.1 hampir tidak terasa ada peningkatan
    Biaya token naik sampai 40%, tetapi saya tidak merasakan nilainya
    Gemini 3 gratis dengan level setara ChatGPT Pro, dan Claude Code $100/bulan juga kuat
    OpenAI tampaknya sedang menghadapi krisis eksistensial

    • Saat berpindah dari Gemini 2.5 ke 3 pun peningkatannya tidak besar. Secara umum terasa seperti kemajuan nyata sedang stagnan
  • Fakta bahwa “knowledge cutoff adalah Agustus 2025” dan kenaikan harga tampaknya mengindikasikan model pretrain baru
    GPT‑5.1 diketahui memakai pretrain yang sama dengan GPT‑4o

    • Pretrain baru biayanya sangat besar, jadi tidak mungkin hanya berakhir sebagai kenaikan versi 0.1 sederhana
    • Atau bisa jadi 5.1 adalah checkpoint yang lebih lama, atau quantization-nya lebih agresif
    • Atau mungkin saja ini model yang sama tetapi diberi makan data berkualitas rendah (slop) sekali lagi