3 poin oleh fortune 2025-12-12 | Belum ada komentar. | Bagikan ke WhatsApp

[GPT-5.1 thinking -> GPT-5.2 thinking]

  • Tugas spreadsheet perbankan investasi (internal): 59.1% → 68.4%

    • Tugas pemodelan spreadsheet 3 laporan keuangan/LBO
  • SWE-Bench Pro (publik): 50.8% → 55.6%

    • Penerapan patch repo nyata dalam 4 bahasa
  • OpenAI MRCRv2 (8 jarum, 128k–256k): 29.6% → 77.0%

    • Menemukan dan mereproduksi informasi dari dokumen yang sangat panjang
  • ScreenSpot Pro (termasuk Python): 64.2% → 86.3%

    • Memahami tangkapan layar UI dan menjawab pertanyaan
  • ARC-AGI-2 (terverifikasi): 17.6% → 52.9%

    • Teka-teki penalaran abstrak yang sulit (terverifikasi)

Belum ada komentar.

Belum ada komentar.