Ulasan hands-on GPT-5 dari Every

(every.to)

11 poin oleh GN⁺ 2025-08-08 | 1 komentar | Bagikan ke WhatsApp

GPT-5 dinilai sebagai model terbaik bagi sebagian besar pengguna umum karena sangat meningkatkan kecepatan, kesederhanaan, dan kualitas respons di ChatGPT
Dalam harga API, model ini memiliki daya saing harga yang kuat dibanding pesaing, khususnya GPT-5-mini yang lebih murah daripada Google Gemini 2.5 Flash, dan GPT-5 Standard yang 12 kali lebih murah dibanding Claude 4 Opus
Sangat unggul untuk tugas harian, pair programming, riset, dan debugging, tetapi memiliki keterbatasan dalam pemrograman agentic dan evaluasi kualitas tulisan
Dalam ulasan tim, GPT-5 menunjukkan keunggulan pada tugas yang terdefinisi, penggabungan kode, penulisan draf, dan analisis mendalam, namun kurang memuaskan untuk kerja otonom jangka panjang dan pengembangan kreatif berskala besar
Dalam uji benchmark, kemampuan menyelesaikan masalah tertentu, mengimplementasikan fitur aplikasi, dan melakukan riset sangat menonjol, tetapi untuk game, desain UI, dan konsistensi penulisan, Opus 4.1 mendapat penilaian lebih tinggi

GPT-5 di ChatGPT

Kecepatan adalah ciri yang paling menonjol: untuk pertanyaan sederhana, respons diberikan seketika, sementara untuk permintaan kompleks model akan menambah waktu sendiri agar dapat memberi jawaban yang lebih mendalam
Menu pemilihan model dihapus dan diganti dengan pendekatan auto-switcher, yang secara otomatis memilih versi non-reasoning atau reasoning sesuai permintaan
- Pertanyaan pengetahuan sederhana memakai versi non-reasoning yang cepat
- Permintaan generasi, coding, atau analisis yang kompleks memakai versi reasoning
Jawaban disusun dengan fokus pada keterbacaan, menggunakan subjudul terstruktur, spasi, huruf tebal, dan lain-lain
Di Canvas, aplikasi frontend dapat dibuat sekaligus dalam satu kali proses (one-shot), tetapi ada batas 1.000 baris kode dan beberapa keterbatasan fitur
Dengan menyediakan model reasoning secara gratis dan default, kualitas pengalaman AI untuk publik meningkat

GPT-5 di API

GPT-5-mini: input $0.25 per 1 juta token → lebih murah daripada Google Gemini 2.5 Flash ($0.30)
GPT-5 Standard: input $1.25 per 1 juta token → sama dengan Google Gemini 2.5 Pro, dan 1/12 dari harga Claude 4 Opus ($15)
Harga token output lebih tinggi daripada o4-mini, tetapi unggul dalam steerability (kemampuan mengikuti instruksi) sehingga kuat untuk pekerjaan dengan arahan yang detail
Dari sisi price-performance, peluang untuk menarik pengguna pesaing di pasar API dinilai tinggi

Rekayasa agentic

Sangat baik untuk pekerjaan backend presisi, debugging, dan pemahaman kode, tetapi tidak efisien untuk penulisan kode otonom jangka panjang dan pekerjaan frontend berskala besar
Cursor dan Codex CLI lebih dirancang untuk pair programming daripada pengembangan fully agentic yang sepenuhnya didelegasikan
Dibanding Claude Code, model ini kurang dalam daya tahan kerja jangka panjang dan otonomi, serta lebih lambat menangani volume pekerjaan

Evaluasi detail per use case

Tugas harian: tanya-jawab cepat tanpa perlu memilih model, pertanyaan yang butuh riset juga ditangani secara menyeluruh, frekuensi halusinasi menurun
Pair programming: sangat unggul dalam memperbaiki bug, mengimplementasikan fitur, dan memahami codebase besar, dengan kecepatan dan akurasi yang tinggi
Menulis: pola kalimat khas AI berkurang dan ekspresi lebih beragam, cocok untuk membuat draf awal, serta dapat mempelajari gaya tertentu
Rekayasa agentic: pada proyek jangka panjang dan generasi kode otonom, model sering berhenti dan kualitas output rendah
Penyuntingan tulisan: kurang konsisten dalam menilai kualitas tulisan dan menentukan kealamian kalimat, sehingga reliabilitasnya rendah

Insight roundtable tim

Kieran Klaassen (pimpinan Cora): GPT-5 cocok untuk pekerjaan berulang berbasis instruksi rinci, dan berada di level yang bisa menggantikan Sonnet 3.5

"GPT-5 melakukan persis seperti yang Anda minta. Dengan hati-hati, langkah demi langkah kecil, dan tidak pernah keluar jalur — dan justru itu masalah saya. Model ini kuat untuk coding, tetapi tidak dioptimalkan untuk agentic. Dalam proses pengembangan iteratif yang lebih tradisional, jika Anda bilang 'ini bagus, sekarang lakukan itu,' model ini mudah diarahkan. Tapi itu adalah cara kita bekerja dengan AI pada 2024. GPT-5 bukan lompatan ke masa depan, melainkan pembunuh Sonnet 3.5."
Danny Aziz (pimpinan Spiral): paling cocok untuk pekerjaan dengan cakupan yang jelas seperti penggabungan kode kompleks, tetapi untuk review jangka panjang dan analisis skala besar ia tetap lebih memilih Claude

"Momen paling ajaib dengan GPT-5 adalah saat menggabungkan dua codebase kompleks. Ketika framework open-source yang saya pakai tidak bisa melakukan fitur yang saya inginkan, saya memintanya menggabungkan kode dari framework lain. Tidak selesai dalam sekali jalan, tetapi terasa seperti kolaborasi untuk mendekati tujuan bersama. Saya senang memakai GPT-5 untuk tugas coding yang jelas dan terdefinisi dengan baik. Untuk pekerjaan agentic jangka panjang seperti code review, saya masih memakai Claude Code, tetapi ketika saya buntu atau malas berpikir terlalu dalam, GPT-5 bisa mengantar saya sampai ke tujuan."
Alex Duffy (kepala pendidikan AI): bagi pengguna gratis, ini adalah peningkatan besar dari GPT-4o; kuat untuk pemrosesan data dalam jumlah besar dan pekerjaan yang terstruktur

"Bagi konsumen, GPT-5 jelas merupakan upgrade dari GPT-4o. Jika Anda pengguna gratis, perbedaannya akan sangat terasa. Pengguna profesional masih bisa memakai alat khusus seperti o3 atau Opus, tetapi bagi developer, nilai GPT-5 adalah sebagai model yang andal dan sangat patuh pada prompt. Model ini sangat cocok untuk merangkum dan menyusun informasi dalam jumlah besar dengan kualitas tinggi. Harga token output memang lebih mahal daripada o4-mini, tetapi kemampuan mengikuti instruksinya sebanding. GPT-5-mini bisa bersaing harga dengan Flash, dan jika kecepatannya mendukung, model ini bisa menjadi dark horse sejati."
Naveen Naidu (EIR): berhasil menyelesaikan bug freezing aplikasi yang tidak terpecahkan selama 4 hari lewat kolaborasi dengan GPT-5

"Di aplikasi dikte AI yang saya buat, 'Monologue', saya tidak bisa menemukan bug freezing selama 4 hari. Saya bahkan menghabiskan 4 jam pada hari Minggu dengan Claude Code dan tetap gagal. Dengan GPT-5, rasanya seperti bekerja bersama rekan tim untuk melacak bagian yang bermasalah, dan akhirnya kami menemukan bug yang tepat."
Katie Parrott (penulis dan AI operations lead): lebih puas daripada Opus saat menulis draf awal, kuat dalam wawancara dan perancangan pertanyaan, tetapi tidak efisien untuk vibe coding

"Saya memakai GPT-5 untuk mengubah outline menjadi draf awal tulisan, dan hasilnya bagus. Setelah beberapa prompt untuk mengajarkannya gaya Every, saya meminta gaya 'persilangan antara artikel Atlantic dan posting Hacker News yang populer' dan hasilnya kuat. Pola klise yang sering muncul dalam tulisan AI seperti 'It's not just X, but Y' jauh berkurang. Saat wawancara pun model ini membantu menyusun kerangka pertanyaan dengan baik. Untuk penulisan draf awal, saya lebih puas dengan GPT-5 daripada Opus.
Tetapi saat melakukan vibe coding di Codex, model ini kurang efisien. Ia cenderung hanya mau memecah pekerjaan menjadi unit kecil, dan saya harus terus menekan 'continue' setiap saat. Model ini juga tidak menjelaskan rencana langkah berikutnya seperti Claude."
Yash Poojary (pimpinan Sparkle): kurang memuaskan untuk coding Swift, tetapi terbaik untuk analisis teknis kompleks, desain, dan evaluasi trade-off

"Bagi saya, hanya Swift yang penting. GPT-5 pada awalnya tidak terlalu mengesankan. Ia baru terasa layak dipakai setelah diberi prompt pengaturan tertentu. Meski begitu, untuk coding Swift, model ini belum sampai level menggantikan Claude.
Namun untuk riset murni, model ini yang terbaik. Misalnya, ketika saya bertanya cara mencari file duplikat di Mac, model ini memberi analisis paling presisi secara teknis yang pernah saya lihat dari AI mana pun. Rasanya seperti berbicara dengan arsitek sistem ber-IQ 140 yang sudah membangun sistem itu tiga kali dan menjelaskan semua pelajaran yang dipetik. Untuk implementasi murni saya akan memakai Claude, tetapi untuk konteks mendalam, analisis trade-off, dan diskusi desain, saya akan memakai GPT-5."
Dan’s mom (perspektif pengguna umum): menilai jumlah informasi, keterbacaan, dan alur jawabannya termasuk yang terbaik di ChatGPT

"Model ini benar-benar luar biasa. Jawabannya jauh lebih komprehensif dibanding apa pun yang pernah saya terima dari ChatGPT. Informasinya mudah dibaca dan alurnya mulus. Model ini benar-benar harta karun."

Hasil benchmark detail

Evaluasi penulisan: kurang konsisten bahkan pada tulisan yang sama, dan reliabilitasnya lebih rendah dibanding Opus
Pembuatan game one-shot: berjalan stabil, tetapi kurang kreatif dan kurang menyenangkan; Opus 4.1 dinilai lebih baik
AI Diplomacy: performa dengan prompt dasar rendah, tetapi dengan instruksi yang dioptimalkan setara dengan Flash; steerability menjadi keunggulan
Puzzle mustahil: terselesaikan dalam 1 menit 10 detik, jauh lebih cepat daripada o3
Pembuatan aplikasi musik one-shot: berhasil mengimplementasikan fitur mirip GarageBand, tetapi UI sederhana; desain Opus 4 lebih disukai
Tes lain: pada benchmark Pelican on a bicycle dan thup, perbedaan karakter dengan Claude terlihat jelas

1 komentar

anveloper 2025-08-11

Sebagian besar hanya mendapat jawaban GPT-5 yang berpikir lebih dari 10 detik. Sampai terasa seperti, kalau begini sih mestinya saya sudah sempat bertanya 3~4 kali, tapi di saat yang sama juga muncul rasa, ah berarti saya seharusnya menanyakan lebih banyak pertanyaan.
Tidak yakin ini unggul secara teknis, rasanya cuma seperti cara menghasilkan hasil yang lebih baik dengan menghabiskan lebih banyak waktu.