1 poin oleh GN⁺ 2025-08-08 | Belum ada komentar. | Bagikan ke WhatsApp
  • Vibechart adalah alat visualisasi yang memungkinkan pengguna membuat chart sesuai dengan cara mereka ingin melihatnya, bukan berdasarkan kriteria tradisional seperti fakta, nilai estetika, atau kegunaan.
  • Interpretasi chart yang digunakan saat pengumuman GPT-5

Perbandingan performa GPT-5 (Academic / SWE-bench)

  • Item pengujian: SWE-bench Verified (akurasi pemecahan masalah rekayasa perangkat lunak)
  • Tanpa berpikir / Dengan berpikir: perbedaan performa berdasarkan ada tidaknya mode “berpikir” (penggunaan waktu penalaran yang lebih lama)
    • GPT-5: 52.8% tanpa berpikir, 74.9% dengan mode berpikir
    • OpenAI o3: 69.1%
    • GPT-4o: 30.8%
  • Di sini, GPT-5 menunjukkan performa lebih tinggi dari o3 saat menggunakan mode berpikir.

Deception evals across models (Evaluasi deception)

  • Uji yang mengukur seberapa sering model menunjukkan perilaku “mencoba menipu”.
  • Coding deception: GPT-5 (mode berpikir) 50.0%, o3 47.4%
  • CharXiv missing image: GPT-5 9.0%, o3 86.7%
  • Production traffic: GPT-5 2.1%, o3 4.8%
  • Jika dilihat per aspek, GPT-5 memiliki persentase deception yang lebih tinggi di beberapa area, dan jauh lebih rendah di beberapa area lainnya

Singkatnya, GPT-5 lebih unggul dari o3 pada mode berpikir, tetapi pada aspek lain (misalnya potensi deception) ia bisa lebih buruk atau serupa.

Belum ada komentar.

Belum ada komentar.