Vibechart
(vibechart.net)- Vibechart adalah alat visualisasi yang memungkinkan pengguna membuat chart sesuai dengan cara mereka ingin melihatnya, bukan berdasarkan kriteria tradisional seperti fakta, nilai estetika, atau kegunaan.
- Interpretasi chart yang digunakan saat pengumuman GPT-5
Perbandingan performa GPT-5 (Academic / SWE-bench)
- Item pengujian: SWE-bench Verified (akurasi pemecahan masalah rekayasa perangkat lunak)
- Tanpa berpikir / Dengan berpikir: perbedaan performa berdasarkan ada tidaknya mode “berpikir” (penggunaan waktu penalaran yang lebih lama)
- GPT-5: 52.8% tanpa berpikir, 74.9% dengan mode berpikir
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
- Di sini, GPT-5 menunjukkan performa lebih tinggi dari o3 saat menggunakan mode berpikir.
Deception evals across models (Evaluasi deception)
- Uji yang mengukur seberapa sering model menunjukkan perilaku “mencoba menipu”.
- Coding deception: GPT-5 (mode berpikir) 50.0%, o3 47.4%
- CharXiv missing image: GPT-5 9.0%, o3 86.7%
- Production traffic: GPT-5 2.1%, o3 4.8%
- Jika dilihat per aspek, GPT-5 memiliki persentase deception yang lebih tinggi di beberapa area, dan jauh lebih rendah di beberapa area lainnya
Singkatnya, GPT-5 lebih unggul dari o3 pada mode berpikir, tetapi pada aspek lain (misalnya potensi deception) ia bisa lebih buruk atau serupa.
Belum ada komentar.