5 poin oleh GN⁺ 2025-12-12 | Belum ada komentar. | Bagikan ke WhatsApp
  • GPT‑5.2 adalah seri model AI paling kuat untuk pekerjaan pengetahuan profesional, dengan peningkatan kemampuan dalam penulisan kode, pengenalan gambar, dan pelaksanaan proyek kompleks
  • Dalam evaluasi GDPval, model ini melampaui atau menyamai pakar industri pada 70,9% tugas kerja pengetahuan di 44 profesi, dengan kecepatan 11 kali lebih tinggi dan biaya di bawah 1%
  • Mencapai performa terbaik pada benchmark utama seperti SWE‑Bench Pro 55.6% , GPQA Diamond 92.4% , dan ARC‑AGI‑1 86.2%
  • Menunjukkan peningkatan besar dibanding GPT‑5.1 dalam pemahaman konteks panjang (256k token), pemrosesan informasi visual, dan penggunaan alat (98.7%)
  • Diluncurkan secara bertahap di ChatGPT dan API, dengan tujuan meningkatkan produktivitas dan keandalan untuk pengguna profesional

Ikhtisar GPT‑5.2

  • GPT‑5.2 adalah seri model AI untuk pekerjaan pengetahuan profesional, yang diperkuat untuk pembuatan spreadsheet, pembuatan presentasi, penulisan kode, pengenalan gambar, pemahaman teks panjang, penggunaan alat, dan pelaksanaan proyek kompleks
  • Pengguna ChatGPT Enterprise sudah menghemat rata-rata 40~60 menit per hari, lebih dari 10 jam per minggu, dan GPT‑5.2 memperluas efisiensi ini lebih jauh
  • Di ChatGPT, model ini tersedia dalam tiga versi: Instant, Thinking, dan Pro; di API tersedia langsung untuk developer

Performa model

  • GPT‑5.2 Thinking menjadi yang pertama mencapai performa setara atau di atas pakar dalam evaluasi GDPval
    • Melampaui atau menyamai pakar pada 70,9% tugas kerja pengetahuan di 44 profesi
    • 11 kali lebih cepat daripada pakar, dengan biaya di bawah 1%
  • Dalam evaluasi internal, skor tugas pemodelan spreadsheet untuk analisis investment banking meningkat 9,3% dibanding GPT‑5.1 (59.1% → 68.4%)
  • Peningkatan performa software engineering dengan SWE‑Bench Pro 55.6% dan SWE‑Bench Verified 80%
    • Lebih andal dalam debugging kode nyata, implementasi fitur, refactoring, dan deployment
  • Juga meningkat dibanding GPT‑5.1 dalam pengembangan frontend dan pekerjaan UI 3D
  • Tingkat respons yang salah turun 30%, sehingga frekuensi halusinasi (hallucination) berkurang

Pemahaman konteks panjang dan pengenalan visual

  • Mencatat skor tertinggi dalam evaluasi OpenAI MRCRv2 untuk pemahaman terpadu dokumen panjang
    • Mencapai akurasi hampir 100% hingga 256k token
    • Cocok untuk analisis dokumen panjang seperti laporan, kontrak, dan makalah
  • Kompatibel dengan endpoint /compact, mendukung workflow dengan konteks yang diperluas
  • Peningkatan performa pengenalan visual menurunkan tingkat kesalahan hingga setengahnya pada chart, dashboard, screenshot UI, dan lainnya
    • Kemampuan memahami tata letak spasial elemen dalam gambar juga diperkuat

Penggunaan alat dan tugas gabungan

  • Mencatat performa tertinggi dalam kemampuan penggunaan alat dengan Tau2‑bench Telecom 98.7%
  • Meningkatkan kemampuan menjalankan workflow end-to-end seperti dukungan pelanggan multi-langkah, pengumpulan data, analisis, dan pembuatan hasil
    • Contoh: menangani secara lengkap prosedur layanan pelanggan yang kompleks seperti keterlambatan penerbangan, transit, dan permintaan kompensasi

Kemampuan sains, matematika, dan penalaran

  • Mencapai skor tertinggi pada benchmark akademik utama dengan GPQA Diamond 92.4% , FrontierMath Tier 1–3 40.3% , ARC‑AGI‑1 86.2% , dan ARC‑AGI‑2 52.9%
  • GPT‑5.2 Pro menembus 90% pada ARC‑AGI‑1, dengan efisiensi biaya meningkat 390 kali
  • GPT‑5.2 Pro dan Thinking dapat dimanfaatkan untuk mempercepat riset ilmiah
    • Disajikan contoh kasus nyata di mana model mengusulkan pembuktian teori statistika dan hasilnya diverifikasi

Pengalaman penggunaan di ChatGPT

  • GPT‑5.2 Instant: memberikan respons cepat dan penjelasan yang jelas, untuk pembelajaran dan pekerjaan sehari-hari
  • GPT‑5.2 Thinking: cocok untuk tugas kompleks seperti penulisan kode, peringkasan teks panjang, pemecahan masalah matematika dan logika, serta penyusunan rencana
  • GPT‑5.2 Pro: memberikan jawaban dengan tingkat keandalan tinggi untuk pertanyaan sulit, dengan tingkat kesalahan yang lebih rendah

Peningkatan keamanan

  • GPT‑5.2 meningkatkan respons percakapan terkait bunuh diri, kesehatan mental, dan ketergantungan emosional berdasarkan riset Safe Completion dari GPT‑5
    • Rasio respons yang tidak pantas menurun dibanding GPT‑5.1
  • Diperkenalkan model prediksi usia untuk membatasi akses ke konten sensitif bagi pengguna di bawah 18 tahun
  • Perbaikan terhadap masalah over‑refusal di ChatGPT masih terus dilakukan

Harga dan cara penyediaan

  • Diluncurkan bertahap mulai dari paket berbayar ChatGPT (Plus, Pro, Business, Enterprise)
  • Di API tersedia sebagai gpt‑5.2, gpt‑5.2‑chat‑latest, dan gpt‑5.2‑pro
  • Harga: $1.75 per 1 juta token input, $14 per 1 juta token output, diskon 90% untuk cache input
    • Harga per unit lebih tinggi daripada GPT‑5.1, tetapi efisiensi token yang lebih baik menurunkan total biaya
  • GPT‑5.1 akan dipertahankan selama 3 bulan sebelum dihentikan secara bertahap
  • Versi yang dioptimalkan untuk Codex akan diumumkan kemudian

Kemitraan teknologi

  • GPT‑5.2 dikembangkan bekerja sama dengan NVIDIA dan Microsoft
    • Memanfaatkan infrastruktur GPU H100, H200, GB200‑NVL72 di data center Azure
    • Mendukung efisiensi pelatihan skala besar dan peningkatan kecerdasan model

Ringkasan benchmark utama

  • GDPval: 70.9% (GPT‑5.1 38.8%)
  • SWE‑Bench Verified: 80.0%
  • OpenAI MRCRv2 (256k) : 77.0%
  • CharXiv Reasoning (w/ Python) : 88.7%
  • Tau2‑bench Telecom: 98.7%
  • ARC‑AGI‑1 (Verified) : 86.2%
  • AIME 2025: 100%
  • FrontierMath Tier 1–3: 40.3%

GPT‑5.2 jauh melampaui model generasi sebelumnya dalam kecerdasan, keandalan, dan produktivitas, dan menempatkan diri sebagai AI pendukung kerja profesional setingkat pakar.

Belum ada komentar.

Belum ada komentar.