- Hasil benchmark yang membandingkan kualitas patch dari tiga model—GPT-5.5, GPT-5.4, dan Opus 4.7—pada 56 tugas coding nyata yang diambil dari dua repositori open source (Zod, graphql-go-tools) telah dipublikasikan
- GPT-5.5 mencatat skor terbaik di semua metrik: tingkat kelulusan tes, kesetaraan dengan patch manusia, dan tingkat lolos code review (clean pass)
- Opus 4.7 menghasilkan patch paling kecil dan memiliki risiko footprint yang rendah, tetapi menunjukkan pola kegagalan berupa implementasi yang tidak lengkap karena pekerjaan pendamping terlewat
- Kelulusan tes saja tidak cukup untuk menilai kualitas patch; diperlukan evaluasi berlapis yang juga mencakup apakah reviewer dapat menerimanya
- Karena peringkat model yang sama dapat berubah tergantung repositori, menjalankan benchmark berbasis codebase sendiri adalah kunci dalam memilih model
Ringkasan benchmark dan lingkungan eksekusi
- Tiga model dibandingkan pada total 56 tugas coding nyata: 27 dari Zod dan 29 dari graphql-go-tools
- Setiap model dijalankan dengan pengaturan default pada agent harness resmi masing-masing: Opus 4.7 memakai Claude Code, sedangkan GPT-5.4 dan GPT-5.5 memakai OpenAI Codex CLI
- Level reasoning semua model diseragamkan ke high
- Menggunakan framework evaluasi Stet untuk penilaian berlapis, bukan hanya lulus tes, tetapi juga kesetaraan perilaku, penerimaan code review, risiko footprint, hingga rubrik craftsmanship (craft)/discipline
- Dijalankan sekali per tugas dengan seed tunggal; model penilai untuk kesetaraan dan rubrik adalah GPT-5.4
Ringkasan hasil keseluruhan
- GPT-5.5 menempati peringkat 1 di semua metrik dengan 38/56 tes lulus, 40/56 setara dengan patch manusia, dan 28/56 clean pass
- Opus 4.7 mencatat 33/56 tes lulus, 19/56 kesetaraan, dan 10/56 clean pass, sehingga memperoleh skor kualitas terendah
- Namun, dengan rata-rata risiko footprint 0.20, model ini unggul dari sisi ukuran patch
- GPT-5.4 mencatat 31/56 tes lulus, 35/56 kesetaraan, dan 11/56 clean pass
- Dengan biaya $2.39 per tugas, ini adalah opsi termurah, tetapi tidak cukup untuk menutup selisih clean pass
- GPT-5.5 juga unggul dalam efisiensi dengan rata-rata waktu tugas 6 menit 56 detik, 201.8M token input, dan 0.72M token output
Analisis performa per repositori
- Zod (27 tugas): GPT-5.5 dan Opus sama-sama lulus 12 tes, tetapi GPT-5.5 unggul dalam kualitas review dengan 10 clean pass vs 5 milik Opus
- Opus unggul dalam ukuran diff, sehingga pada Zod ada trade-off nyata
- graphql-go-tools (29 tugas): GPT-5.5 sangat dominan dengan 26 tes lulus dan 18 clean pass
- Opus lulus 21 tes tetapi hanya mendapat 5 clean pass, menunjukkan strategi patch kecilnya berujung pada pekerjaan integrasi yang terlewat
Metrik kualitas terperinci
- Lolos code review: GPT-5.5 33/56, GPT-5.4 16/56, Opus 11/56
- Rata-rata code review (akurasi + keamanan terhadap bug): GPT-5.5 3.08, GPT-5.4 2.59, Opus 2.33
- Akurasi (correctness) saja: GPT-5.5 3.16 vs GPT-5.4 2.60 vs Opus 2.11
- Keamanan terhadap bug yang diperkenalkan: GPT-5.5 3.04 vs GPT-5.4 2.56 vs Opus 2.55
- Rata-rata custom grader (8 rubrik): GPT-5.5 2.62, GPT-5.4 2.40, Opus 2.33
- Skor craftsmanship (clarity/coherence/robustness): GPT-5.5 tertinggi di semua subkategori
- Skor discipline (scope discipline/diff minimality): GPT-5.5 unggul tipis dengan 2.36, Opus 2.20
- Meski Opus unggul dalam footprint mentah, dari sisi discipline relatif terhadap tugas, GPT-5.5 lebih baik
Kelulusan tes bukan kriteria akhir
- Di Zod, Opus dan GPT-5.5 sama-sama lulus 12 tes, tetapi clean pass-nya GPT-5.5 10 vs Opus 5
- Di graphql-go-tools pola ini makin kuat: GPT-5.5 lulus 26 tes/18 clean pass, Opus 21 tes/5 clean pass
- Kasus GraphQL PR #1001: ketiga model sama-sama lulus tes dan dinilai setara, tetapi hanya GPT-5.5 yang lolos code review
- Dua model lain mendapat peringatan pada bentuk API, eksposur objek HTTP mentah, dan kekokohan batas hook
Perbedaan konkret yang terlihat dalam code review
- Tugas codec asinkron dan nilai default di Zod: ketiga model sama-sama gagal tes
- Opus mengubah 8 file tetapi melewatkan semantik inti (mengizinkan
undefined pada default, mempertahankan definisi codec sinkron)
- GPT-5.4 membuat patch di 11 file dan diakui setara, tetapi terlalu membatasi API di sekitarnya (
prefault)
- GPT-5.5 juga gagal tes, tetapi menangani perilaku schema/build dengan lebih rapi, sehingga meraih skor tertinggi pada akurasi dan risiko bug
- Validasi kompatibilitas GraphQL Apollo (PR #1169): ketiga model lulus tes, tetapi hanya GPT-5.5 yang lolos baik pada kesetaraan maupun review
- Opus mengubah 11 file namun melewatkan validasi leaf untuk enum/wrapping scalar
- GPT-5.4 mengubah 12 file dan memperluas cakupan secara berlebihan, seperti metadata validasi tanpa syarat
- GPT-5.5 hanya mengubah 10 file (6 non-test), paling sedikit sekaligus paling tepat dalam menerapkan perilaku target
Karakteristik dan batasan Opus 4.7
- Menghasilkan patch ber-footprint rendah yang konservatif dan presisi
- Kuat saat tugas bersifat lokal dan permukaan perubahan sempit
- Pola kegagalan yang berulang: hanya mengimplementasikan perilaku inti dan tidak menyelesaikan pekerjaan pendamping (companion work)
- Pada kasus parallel tree Node/Deno di Zod, Opus hanya mengubah 4 file dan lulus tes, sedangkan GPT-5.5 mengubah 11 file termasuk permukaan deployment paralel sehingga setara dengan patch manusia
- Di graphql-go-tools dampaknya lebih serius: pada PR #1155 (perubahan di banyak permukaan engine seperti field scalar berulang untuk datasource gRPC), Opus bahkan gagal menghasilkan patch, sementara hanya GPT-5.5 yang lolos tes, kesetaraan, dan review sekaligus
- Pembedaan utamanya: patch kecil Opus adalah discipline pada tugas lokal, tetapi menjadi implementasi yang belum tuntas pada tugas integrasi
Perubahan dari GPT-5.4 ke GPT-5.5
- GPT-5.4 sering menemukan arah pendekatan yang benar tetapi gagal saat eksekusi
- Di Zod, ia mendapat 18 hasil setara (sama dengan GPT-5.5), tetapi hanya lulus 9 tes
- GPT-5.5 mempertahankan perilaku integrasi yang lebih luas sambil lebih jarang menghasilkan patch yang rusak
- Perbandingan contoh konkret:
- Generator schema→TypeScript: Opus dan GPT-5.5 mengimplementasikan recursive visitor, sementara GPT-5.4 salah mengklasifikasikan tugas dengan membuat file panduan repositori
- Perbaikan parser rekursif: kedua model GPT sama-sama melacak jumlah kunjungan, tetapi GPT-5.5 lebih ringkas dengan menghapus state yang tidak perlu
- Validasi CIDR: GPT-5.5 juga memperbarui mirror Deno, sedangkan GPT-5.4 tidak (masalah hygiene repositori)
- Pada graphql-go-tools PR #1232 (deduplikasi single fetch yang sama + penulisan ulang referensi dependensi), hanya GPT-5.5 yang lolos tes, kesetaraan, dan review semuanya
- Ringkasan pola: GPT-5.5 lebih sering menyelesaikan pekerjaan integrasi yang membosankan namun perlu untuk mengubah perbaikan lokal yang cerdas menjadi perubahan repositori yang siap dikirim
Trade-off ukuran patch dan biaya
- Rata-rata ukuran patch di graphql-go-tools: GPT-5.5 sekitar 33KB, GPT-5.4 27KB, Opus 19KB
- Skor footprint: Opus 0.19, GPT-5.4 0.32, GPT-5.5 0.34
- Patch besar meningkatkan kesulitan review, kemungkinan konflik, dan risiko menyentuh jalur sensitif
- Dalam workflow yang berfokus pada auditability, Opus masih punya keunggulan praktis
- Namun, jika diff minimality dinilai relatif terhadap tugas, GPT-5.5 unggul tipis
- Poin penting: patch 5KB yang melewatkan permukaan yang dibutuhkan bukan lebih minimal daripada patch 20KB yang benar-benar menyelesaikan tugas
- Perbandingan biaya:
- Di Zod, Opus dan GPT-5.5 mirip (Opus $45.53 vs GPT-5.5 $46.69)
- Di graphql-go-tools, Opus memakai 186.1M token input/934K output/waktu agent 8.56 jam, sedangkan GPT-5.5 151.4M/431K/4.16 jam, sehingga GPT-5.5 jauh lebih efisien
Ringkasan karakter perilaku tiap model
- Opus 4.7 — under-reach: konservatif, presisi, footprint rendah, kuat pada tugas lokal tetapi lemah pada permukaan pendamping yang tidak sepenuhnya tercakup tes; mode gagalnya adalah "tes lulus tetapi perubahannya tidak sama"
- GPT-5.4 — bentuknya benar, eksekusinya salah: arahnya tepat tetapi tidak konsisten; sering menghasilkan patch dengan mirror usang, refactor yang tidak perlu, atau patch yang dinilai grader lebih baik daripada hasil tesnya
- GPT-5.5 — lebih luas, footprint lebih besar: lebih lengkap pada permukaan integrasi, lebih sering memperbarui kode sekitar, lolos review, dan benar-benar menerjemahkan perilaku yang dimaksud ke dalam kode; risikonya, saat salah, kesalahan tersebar ke lebih banyak file
Perbedaan perilaku agent
- Di graphql-go-tools, Opus rata-rata melakukan 3.17 panggilan perencanaan eksplisit per tugas, sedangkan GPT-5.5 0 kali
- Opus melakukan 10.2 panggilan patch per tugas, GPT-5.5 9.9, jadi hampir sama
- GPT-5.5 menjalankan sekitar 2x lebih banyak shell call dan juga lebih banyak search call, sementara Opus menghabiskan lebih banyak anggaran pada perencanaan dan penulisan ulang patch
- Pada repositori ini, eksplorasi repositori yang lebih luas lebih efektif daripada pertimbangan mendalam atas patch sempit
Mengapa hasil ini penting
- Pertanyaan kuncinya bukan "model mana yang terbaik", melainkan "di repositori ini, pada harness ini, dan untuk jenis tugas yang benar-benar dikirim ke produksi, patch model mana yang bisa dipercaya"
- Di Zod, GPT-5.5 vs Opus menunjukkan hubungan trade-off; di graphql-go-tools, GPT-5.5 memiliki keunggulan yang jelas
- Benchmark publik biasanya meratakan perilaku model menjadi satu angka agregat berskala besar, tetapi dalam kode nyata ini berubah menjadi keputusan workflow berdasarkan codebase dan kriteria yang spesifik
Catatan perhatian
- Sampel 56 tugas masih relatif kecil; selisih satu tugas saja dapat mengubah rasio tingkat repositori beberapa poin
- Semua model hanya dijalankan sekali per tugas; beberapa hasil yang berdekatan bisa berbalik jika dijalankan ulang
- Karena model penilai kesetaraan/rubrik adalah GPT-5.4, ada kemungkinan bias keluarga model
- Namun, GPT-5.5 tetap unggul tegas atas GPT-5.4, keunggulan footprint Opus tetap terlihat, dan banyak kegagalan kesetaraan Opus berasal dari file konkret yang terlewat, sehingga ini tidak sepenuhnya menjelaskan hasil keseluruhan
- Hasil ini bergantung pada harness: Claude Code dan Codex CLI berbeda dalam system prompt, loop perencanaan, dan permukaan tool
- Jika Opus dijalankan di Codex API atau GPT-5.5 dijalankan di Claude Code, hasilnya bisa berubah
- Angka-angka ini mencerminkan perilaku model di dalam harness yang benar-benar dipakai engineer
Kesimpulan utama
- GPT-5.5 adalah model deployment default terbaik untuk dua repositori ini
- Opus 4.7 tetap relevan sebagai model ber-footprint rendah, dan bisa lebih disukai saat diff sempit adalah prioritas utama
- GPT-5.4 memiliki biaya per tugas terendah, tetapi tidak cukup untuk menutup selisih clean pass
- Dengan hanya melihat tes, hasil yang paling penting justru tersembunyi
- Peringkat model yang sama berubah antar repositori, dan inilah alasan utama pentingnya benchmark pada repositori sendiri
1 komentar
Kadang sampai terasa seperti ada persekongkolan ya.