GPT-5.2 dirilis

fortune · 2025-12-12T12:00:49+09:00

[GPT-5.1 thinking -> GPT-5.2 thinking] Tugas spreadsheet perbankan investasi (internal): 59.1% → 68.4% Tugas pemodelan spreadsheet 3 laporan keuangan/LBO SWE-Bench Pro (publik): 50.8% → 55.6% Penerapan patch repo nyata dalam 4 bahasa OpenAI MRCRv2 (8 jarum, 128k–256k): 29.6% → 77.0% Menemukan dan mereproduksi informasi dari dokumen yang sangat panjang ScreenSpot Pro (termasuk Python): 64.2% → 86.3% Memahami tangkapan layar UI dan menjawab pertanyaan ARC-AGI-2 (terverifikasi): 17.6% → 52.9% Teka-teki penalaran abstrak yang sulit (terverifikasi)

[GPT-5.1 thinking -> GPT-5.2 thinking]

Tugas spreadsheet perbankan investasi (internal): 59.1% → 68.4%
- Tugas pemodelan spreadsheet 3 laporan keuangan/LBO
SWE-Bench Pro (publik): 50.8% → 55.6%
- Penerapan patch repo nyata dalam 4 bahasa
OpenAI MRCRv2 (8 jarum, 128k–256k): 29.6% → 77.0%
- Menemukan dan mereproduksi informasi dari dokumen yang sangat panjang
ScreenSpot Pro (termasuk Python): 64.2% → 86.3%
- Memahami tangkapan layar UI dan menjawab pertanyaan
ARC-AGI-2 (terverifikasi): 17.6% → 52.9%
- Teka-teki penalaran abstrak yang sulit (terverifikasi)

Bacaan terkait

Belum ada komentar.