GPT-5.5 vs GPT-5.4 vs Opus 4.7 - Perbandingan benchmark 56 tugas coding nyata

(reddit.com)

1 poin oleh GN⁺ 2 jam lalu | 1 komentar | Bagikan ke WhatsApp

Hasil benchmark yang membandingkan kualitas patch dari tiga model—GPT-5.5, GPT-5.4, dan Opus 4.7—pada 56 tugas coding nyata yang diambil dari dua repositori open source (Zod, graphql-go-tools) telah dipublikasikan
GPT-5.5 mencatat skor terbaik di semua metrik: tingkat kelulusan tes, kesetaraan dengan patch manusia, dan tingkat lolos code review (clean pass)
Opus 4.7 menghasilkan patch paling kecil dan memiliki risiko footprint yang rendah, tetapi menunjukkan pola kegagalan berupa implementasi yang tidak lengkap karena pekerjaan pendamping terlewat
Kelulusan tes saja tidak cukup untuk menilai kualitas patch; diperlukan evaluasi berlapis yang juga mencakup apakah reviewer dapat menerimanya
Karena peringkat model yang sama dapat berubah tergantung repositori, menjalankan benchmark berbasis codebase sendiri adalah kunci dalam memilih model

Ringkasan benchmark dan lingkungan eksekusi

Tiga model dibandingkan pada total 56 tugas coding nyata: 27 dari Zod dan 29 dari graphql-go-tools
Setiap model dijalankan dengan pengaturan default pada agent harness resmi masing-masing: Opus 4.7 memakai Claude Code, sedangkan GPT-5.4 dan GPT-5.5 memakai OpenAI Codex CLI
Level reasoning semua model diseragamkan ke high
Menggunakan framework evaluasi Stet untuk penilaian berlapis, bukan hanya lulus tes, tetapi juga kesetaraan perilaku, penerimaan code review, risiko footprint, hingga rubrik craftsmanship (craft)/discipline
Dijalankan sekali per tugas dengan seed tunggal; model penilai untuk kesetaraan dan rubrik adalah GPT-5.4

Ringkasan hasil keseluruhan

GPT-5.5 menempati peringkat 1 di semua metrik dengan 38/56 tes lulus, 40/56 setara dengan patch manusia, dan 28/56 clean pass
Opus 4.7 mencatat 33/56 tes lulus, 19/56 kesetaraan, dan 10/56 clean pass, sehingga memperoleh skor kualitas terendah
- Namun, dengan rata-rata risiko footprint 0.20, model ini unggul dari sisi ukuran patch
GPT-5.4 mencatat 31/56 tes lulus, 35/56 kesetaraan, dan 11/56 clean pass
- Dengan biaya $2.39 per tugas, ini adalah opsi termurah, tetapi tidak cukup untuk menutup selisih clean pass
GPT-5.5 juga unggul dalam efisiensi dengan rata-rata waktu tugas 6 menit 56 detik, 201.8M token input, dan 0.72M token output

Analisis performa per repositori

Zod (27 tugas): GPT-5.5 dan Opus sama-sama lulus 12 tes, tetapi GPT-5.5 unggul dalam kualitas review dengan 10 clean pass vs 5 milik Opus
- Opus unggul dalam ukuran diff, sehingga pada Zod ada trade-off nyata
graphql-go-tools (29 tugas): GPT-5.5 sangat dominan dengan 26 tes lulus dan 18 clean pass
- Opus lulus 21 tes tetapi hanya mendapat 5 clean pass, menunjukkan strategi patch kecilnya berujung pada pekerjaan integrasi yang terlewat

Metrik kualitas terperinci

Lolos code review: GPT-5.5 33/56, GPT-5.4 16/56, Opus 11/56
Rata-rata code review (akurasi + keamanan terhadap bug): GPT-5.5 3.08, GPT-5.4 2.59, Opus 2.33
- Akurasi (correctness) saja: GPT-5.5 3.16 vs GPT-5.4 2.60 vs Opus 2.11
- Keamanan terhadap bug yang diperkenalkan: GPT-5.5 3.04 vs GPT-5.4 2.56 vs Opus 2.55
Rata-rata custom grader (8 rubrik): GPT-5.5 2.62, GPT-5.4 2.40, Opus 2.33
Skor craftsmanship (clarity/coherence/robustness): GPT-5.5 tertinggi di semua subkategori
Skor discipline (scope discipline/diff minimality): GPT-5.5 unggul tipis dengan 2.36, Opus 2.20
- Meski Opus unggul dalam footprint mentah, dari sisi discipline relatif terhadap tugas, GPT-5.5 lebih baik

Kelulusan tes bukan kriteria akhir

Di Zod, Opus dan GPT-5.5 sama-sama lulus 12 tes, tetapi clean pass-nya GPT-5.5 10 vs Opus 5
Di graphql-go-tools pola ini makin kuat: GPT-5.5 lulus 26 tes/18 clean pass, Opus 21 tes/5 clean pass
Kasus GraphQL PR #1001: ketiga model sama-sama lulus tes dan dinilai setara, tetapi hanya GPT-5.5 yang lolos code review
- Dua model lain mendapat peringatan pada bentuk API, eksposur objek HTTP mentah, dan kekokohan batas hook

Perbedaan konkret yang terlihat dalam code review

Tugas codec asinkron dan nilai default di Zod: ketiga model sama-sama gagal tes
- Opus mengubah 8 file tetapi melewatkan semantik inti (mengizinkan undefined pada default, mempertahankan definisi codec sinkron)
- GPT-5.4 membuat patch di 11 file dan diakui setara, tetapi terlalu membatasi API di sekitarnya (prefault)
- GPT-5.5 juga gagal tes, tetapi menangani perilaku schema/build dengan lebih rapi, sehingga meraih skor tertinggi pada akurasi dan risiko bug
Validasi kompatibilitas GraphQL Apollo (PR #1169): ketiga model lulus tes, tetapi hanya GPT-5.5 yang lolos baik pada kesetaraan maupun review
- Opus mengubah 11 file namun melewatkan validasi leaf untuk enum/wrapping scalar
- GPT-5.4 mengubah 12 file dan memperluas cakupan secara berlebihan, seperti metadata validasi tanpa syarat
- GPT-5.5 hanya mengubah 10 file (6 non-test), paling sedikit sekaligus paling tepat dalam menerapkan perilaku target

Karakteristik dan batasan Opus 4.7

Menghasilkan patch ber-footprint rendah yang konservatif dan presisi
Kuat saat tugas bersifat lokal dan permukaan perubahan sempit
Pola kegagalan yang berulang: hanya mengimplementasikan perilaku inti dan tidak menyelesaikan pekerjaan pendamping (companion work)
- Pada kasus parallel tree Node/Deno di Zod, Opus hanya mengubah 4 file dan lulus tes, sedangkan GPT-5.5 mengubah 11 file termasuk permukaan deployment paralel sehingga setara dengan patch manusia
Di graphql-go-tools dampaknya lebih serius: pada PR #1155 (perubahan di banyak permukaan engine seperti field scalar berulang untuk datasource gRPC), Opus bahkan gagal menghasilkan patch, sementara hanya GPT-5.5 yang lolos tes, kesetaraan, dan review sekaligus
Pembedaan utamanya: patch kecil Opus adalah discipline pada tugas lokal, tetapi menjadi implementasi yang belum tuntas pada tugas integrasi

Perubahan dari GPT-5.4 ke GPT-5.5

GPT-5.4 sering menemukan arah pendekatan yang benar tetapi gagal saat eksekusi
- Di Zod, ia mendapat 18 hasil setara (sama dengan GPT-5.5), tetapi hanya lulus 9 tes
GPT-5.5 mempertahankan perilaku integrasi yang lebih luas sambil lebih jarang menghasilkan patch yang rusak
Perbandingan contoh konkret:
- Generator schema→TypeScript: Opus dan GPT-5.5 mengimplementasikan recursive visitor, sementara GPT-5.4 salah mengklasifikasikan tugas dengan membuat file panduan repositori
- Perbaikan parser rekursif: kedua model GPT sama-sama melacak jumlah kunjungan, tetapi GPT-5.5 lebih ringkas dengan menghapus state yang tidak perlu
- Validasi CIDR: GPT-5.5 juga memperbarui mirror Deno, sedangkan GPT-5.4 tidak (masalah hygiene repositori)
Pada graphql-go-tools PR #1232 (deduplikasi single fetch yang sama + penulisan ulang referensi dependensi), hanya GPT-5.5 yang lolos tes, kesetaraan, dan review semuanya
Ringkasan pola: GPT-5.5 lebih sering menyelesaikan pekerjaan integrasi yang membosankan namun perlu untuk mengubah perbaikan lokal yang cerdas menjadi perubahan repositori yang siap dikirim

Trade-off ukuran patch dan biaya

Rata-rata ukuran patch di graphql-go-tools: GPT-5.5 sekitar 33KB, GPT-5.4 27KB, Opus 19KB
Skor footprint: Opus 0.19, GPT-5.4 0.32, GPT-5.5 0.34
Patch besar meningkatkan kesulitan review, kemungkinan konflik, dan risiko menyentuh jalur sensitif
- Dalam workflow yang berfokus pada auditability, Opus masih punya keunggulan praktis
Namun, jika diff minimality dinilai relatif terhadap tugas, GPT-5.5 unggul tipis
- Poin penting: patch 5KB yang melewatkan permukaan yang dibutuhkan bukan lebih minimal daripada patch 20KB yang benar-benar menyelesaikan tugas
Perbandingan biaya:
- Di Zod, Opus dan GPT-5.5 mirip (Opus $45.53 vs GPT-5.5 $46.69)
- Di graphql-go-tools, Opus memakai 186.1M token input/934K output/waktu agent 8.56 jam, sedangkan GPT-5.5 151.4M/431K/4.16 jam, sehingga GPT-5.5 jauh lebih efisien

Ringkasan karakter perilaku tiap model

Opus 4.7 — under-reach: konservatif, presisi, footprint rendah, kuat pada tugas lokal tetapi lemah pada permukaan pendamping yang tidak sepenuhnya tercakup tes; mode gagalnya adalah "tes lulus tetapi perubahannya tidak sama"
GPT-5.4 — bentuknya benar, eksekusinya salah: arahnya tepat tetapi tidak konsisten; sering menghasilkan patch dengan mirror usang, refactor yang tidak perlu, atau patch yang dinilai grader lebih baik daripada hasil tesnya
GPT-5.5 — lebih luas, footprint lebih besar: lebih lengkap pada permukaan integrasi, lebih sering memperbarui kode sekitar, lolos review, dan benar-benar menerjemahkan perilaku yang dimaksud ke dalam kode; risikonya, saat salah, kesalahan tersebar ke lebih banyak file

Perbedaan perilaku agent

Di graphql-go-tools, Opus rata-rata melakukan 3.17 panggilan perencanaan eksplisit per tugas, sedangkan GPT-5.5 0 kali
Opus melakukan 10.2 panggilan patch per tugas, GPT-5.5 9.9, jadi hampir sama
GPT-5.5 menjalankan sekitar 2x lebih banyak shell call dan juga lebih banyak search call, sementara Opus menghabiskan lebih banyak anggaran pada perencanaan dan penulisan ulang patch
Pada repositori ini, eksplorasi repositori yang lebih luas lebih efektif daripada pertimbangan mendalam atas patch sempit

Mengapa hasil ini penting

Pertanyaan kuncinya bukan "model mana yang terbaik", melainkan "di repositori ini, pada harness ini, dan untuk jenis tugas yang benar-benar dikirim ke produksi, patch model mana yang bisa dipercaya"
Di Zod, GPT-5.5 vs Opus menunjukkan hubungan trade-off; di graphql-go-tools, GPT-5.5 memiliki keunggulan yang jelas
Benchmark publik biasanya meratakan perilaku model menjadi satu angka agregat berskala besar, tetapi dalam kode nyata ini berubah menjadi keputusan workflow berdasarkan codebase dan kriteria yang spesifik

Catatan perhatian

Sampel 56 tugas masih relatif kecil; selisih satu tugas saja dapat mengubah rasio tingkat repositori beberapa poin
Semua model hanya dijalankan sekali per tugas; beberapa hasil yang berdekatan bisa berbalik jika dijalankan ulang
Karena model penilai kesetaraan/rubrik adalah GPT-5.4, ada kemungkinan bias keluarga model
- Namun, GPT-5.5 tetap unggul tegas atas GPT-5.4, keunggulan footprint Opus tetap terlihat, dan banyak kegagalan kesetaraan Opus berasal dari file konkret yang terlewat, sehingga ini tidak sepenuhnya menjelaskan hasil keseluruhan
Hasil ini bergantung pada harness: Claude Code dan Codex CLI berbeda dalam system prompt, loop perencanaan, dan permukaan tool
- Jika Opus dijalankan di Codex API atau GPT-5.5 dijalankan di Claude Code, hasilnya bisa berubah
- Angka-angka ini mencerminkan perilaku model di dalam harness yang benar-benar dipakai engineer

Kesimpulan utama

GPT-5.5 adalah model deployment default terbaik untuk dua repositori ini
Opus 4.7 tetap relevan sebagai model ber-footprint rendah, dan bisa lebih disukai saat diff sempit adalah prioritas utama
GPT-5.4 memiliki biaya per tugas terendah, tetapi tidak cukup untuk menutup selisih clean pass
Dengan hanya melihat tes, hasil yang paling penting justru tersembunyi
Peringkat model yang sama berubah antar repositori, dan inilah alasan utama pentingnya benchmark pada repositori sendiri

1 komentar

shakespeares 1 jam lalu

Kadang sampai terasa seperti ada persekongkolan ya.

GPT-5.5 vs GPT-5.4 vs Opus 4.7 - Perbandingan benchmark 56 tugas coding nyata

Ringkasan benchmark dan lingkungan eksekusi

Ringkasan hasil keseluruhan

Analisis performa per repositori

Metrik kualitas terperinci

Kelulusan tes bukan kriteria akhir

Perbedaan konkret yang terlihat dalam code review

Karakteristik dan batasan Opus 4.7

Perubahan dari GPT-5.4 ke GPT-5.5

Trade-off ukuran patch dan biaya

Ringkasan karakter perilaku tiap model

Perbedaan perilaku agent

Mengapa hasil ini penting

Catatan perhatian

Kesimpulan utama

Bacaan terkait

1 komentar