Vibechart

(vibechart.net)

1 poin oleh GN⁺ 2025-08-08 | 1 komentar | Bagikan ke WhatsApp

Vibechart adalah alat visualisasi yang memungkinkan pengguna membuat chart sesuai dengan cara mereka ingin melihatnya, bukan berdasarkan kriteria tradisional seperti fakta, nilai estetika, atau kegunaan.
Interpretasi chart yang digunakan saat pengumuman GPT-5

Perbandingan performa GPT-5 (Academic / SWE-bench)

Item pengujian: SWE-bench Verified (akurasi pemecahan masalah rekayasa perangkat lunak)
Tanpa berpikir / Dengan berpikir: perbedaan performa berdasarkan ada tidaknya mode “berpikir” (penggunaan waktu penalaran yang lebih lama)
- GPT-5: 52.8% tanpa berpikir, 74.9% dengan mode berpikir
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
Di sini, GPT-5 menunjukkan performa lebih tinggi dari o3 saat menggunakan mode berpikir.

Deception evals across models (Evaluasi deception)

Uji yang mengukur seberapa sering model menunjukkan perilaku “mencoba menipu”.
Coding deception: GPT-5 (mode berpikir) 50.0%, o3 47.4%
CharXiv missing image: GPT-5 9.0%, o3 86.7%
Production traffic: GPT-5 2.1%, o3 4.8%
Jika dilihat per aspek, GPT-5 memiliki persentase deception yang lebih tinggi di beberapa area, dan jauh lebih rendah di beberapa area lainnya

Singkatnya, GPT-5 lebih unggul dari o3 pada mode berpikir, tetapi pada aspek lain (misalnya potensi deception) ia bisa lebih buruk atau serupa.

1 komentar

GN⁺ 2025-08-08

Komentar Hacker News

Ada versi dengan angka dan ukuran batang yang lebih masuk akal di bagian "evaluation" pada posting pengumuman GPT-5 milik OpenAI (tautan). Jadi mungkin ini sekadar salah sederhana, tetapi kenyataannya terkesan tidak enak bahwa perusahaan yang mengklaim menghabiskan miliaran dolar untuk merevolusi semua aktivitas manusia tidak bisa membuat satu slide PowerPoint yang layak.
- Ini seperti menampilkan bahwa mereka sendiri sedang mencicipi pakan yang akan mereka jual.
- Mungkin AI baru ini yang membuat grafisnya.
- Orang-orang di OpenAI itu kanon di bidangnya, jadi susah membayangkan mereka membuat kesalahan tingkat ini.
Awalnya aku kira ini indikator terkait vibe coding, ternyata bukan, itu WakaTime.
Aku rasa grafik "Coding deception" juga seharusnya disertakan karena sangat menyesatkan (karena 50.0 itu tidak lebih kecil daripada 47.4) (tautan)
- Aku menempelkan gambar grafik itu ke ChatGPT-5 dan bertanya, "Apakah ada salahnya grafik ini? Bisa temukan apa yang salah?" ChatGPT menjawab, "Pada grafik pertama ‘Coding deception’, batang pink GPT-5 (versi reasoning) tertulis 50,0% dan batang putih OpenAI o3 tertulis 47,4%, tetapi secara visual batang putih digambar lebih pendek daripada batang pink. Persentasenya sedikit lebih rendah, tetapi secara visual tidak cocok." Akhirnya aku merasa slide review-nya seharusnya memakai ChatGPT.
- Butuh waktu lama untuk menemukan masalahnya di kiriman ini dan juga link di atas. Aku tidak bisa mengerti pikirannya orang-orang ini saat membuat ini. Sekarang aku penasaran apakah AI yang menggambar grafiknya lalu tak ada yang mereview.
- Ini begitu jelas salah sampai aku menduga ada yang salah memberi label chart. Mungkin aku terlalu optimistis.
- Sudah aku tambahkan di chart.
- Sebagian hal ini aku paham. ‘Deception’ adalah sifat yang tidak diinginkan dari LLM, jadi untuk audiens, semakin sedikit berarti ‘lebih baik’. Tapi saat dibandingkan dengan hal lain yang tidak punya properti ‘less is more’, aku tidak tahu cara memvisualisasikannya dengan benar di grafik (apalagi grafik itu pun tidak mulai dari 0), jadi ini tampak benar-benar tidak masuk akal.
Aku penasaran bagaimana ini bisa terjadi. Mungkin di menit-menit terakhir ada eksekutif senior yang masuk dan ngasih masukan, “Kalau model baru terlihat tidak jauh lebih baik dari model lama, itu berbahaya. Jadi atur sumbu y-nya agar terlihat ada peningkatan yang lebih besar.”
- Aku merasa sungguh menakutkan melihat orang se-tidak kompeten ini punya uang dan kekuasaan segila ini.
- Mungkin juga mereka meminta GPT-5 untuk mengedit slide.
- Karena ada nuansa urgensi di sekitar OpenAI, maka tidak mengejutkan jika manipulasi hype berlebihan ini memang datang dari level tertinggi.
- Ini jadi standar industri. Contohnya, Nvidia melakukan hal serupa dengan tipe grafik yang sama tiap kali meluncurkan GPU baru. Apple pun melakukan hal yang sama di CPU seri M. Bahkan kerap dibandingkan juga dengan model beberapa generasi sebelumnya untuk memperbesar narasi.
Aku akan selalu memilih grafik yang batang pink-nya lebih banyak daripada abu-abu.
Aku tahu dari awal bahwa OpenAI sudah memperlakukan “data” sebagai bagian dari pemasaran, dan begitu mereka lakukan. Aku tak berpikir ini disengaja, tapi sejak era Dota 2 mereka benar-benar tahu cara menampilkan data dengan cara membesar-besarkan hasil dan menyembunyikan kegagalan.
Ini mirip dengan demo kaca Cybertruck.
Kolom 69.1 tingginya sama dengan kolom 30.8. Mungkin itu karena menyalin kolom 30.8 lalu mengubah angkanya saja tapi lupa mengatur tinggi, dan kelihatan lolos karena sekilas melihat kolomnya memang di bawah model baru. Namun tinggi kolom 50.0 juga tidak bisa dijelaskan dengan cara begitu.
- Sekilas, batang itu tampak tingginya sekitar 15%. Mungkin seharusnya angka 15 ditulis, bukan 50. Tapi seperti itu kalaupun terjadi, lebih masuk akal kalau di presentasi kelas sekolah menengah, bukan di keynote startup paling menonjol dalam sejarah. Catatan: semua orang yang terlibat dalam presentasi ini dipastikan dapat bonus 1,5 juta dolar. Kalau dipikir jadi sedih.
- Aku tidak mengerti kenapa di presentasi profesional mereka membuat batang dan label secara manual. Mereka juga tidak sedang mencoba gaya desain khusus, jadi kalau ini bukan hal yang disengaja, sulit dijelaskan bagaimana bisa terjadi kesalahan begitu pada grafik batang dasar.
Melihat orang-orang berusaha menipu setiap orang juga bikin aku jadi tertawa.