- Hasil benchmark yang membandingkan kualitas patch dari tiga model—GPT-5.5, GPT-5.4, dan Opus 4.7—pada 56 tugas coding nyata yang diambil dari dua repositori open source (Zod, graphql-go-tools) telah dipublikasikan
- GPT-5.5 mencatat skor terbaik di semua metrik: tingkat kelulusan tes, kesetaraan dengan patch manusia, dan tingkat lolos code review (clean pass)
- Opus 4.7 menghasilkan patch paling kecil dan memiliki risiko footprint yang rendah, tetapi menunjukkan pola kegagalan berupa implementasi yang tidak lengkap karena pekerjaan pendamping terlewat
- Kelulusan tes saja tidak cukup untuk menilai kualitas patch; diperlukan evaluasi berlapis yang juga mencakup apakah reviewer dapat menerimanya
- Karena peringkat model yang sama dapat berubah tergantung repositori, menjalankan benchmark berbasis codebase sendiri adalah kunci dalam memilih model
Ringkasan benchmark dan lingkungan eksekusi
- Tiga model dibandingkan pada total 56 tugas coding nyata: 27 dari Zod dan 29 dari graphql-go-tools
- Setiap model dijalankan dengan pengaturan default pada agent harness resmi masing-masing: Opus 4.7 memakai Claude Code, sedangkan GPT-5.4 dan GPT-5.5 memakai OpenAI Codex CLI
- Level reasoning semua model diseragamkan ke high
- Menggunakan framework evaluasi Stet untuk penilaian berlapis, bukan hanya lulus tes, tetapi juga kesetaraan perilaku, penerimaan code review, risiko footprint, hingga rubrik craftsmanship (craft)/discipline
- Dijalankan sekali per tugas dengan seed tunggal; model penilai untuk kesetaraan dan rubrik adalah GPT-5.4
Ringkasan hasil keseluruhan
- GPT-5.5 menempati peringkat 1 di semua metrik dengan 38/56 tes lulus, 40/56 setara dengan patch manusia, dan 28/56 clean pass
- Opus 4.7 mencatat 33/56 tes lulus, 19/56 kesetaraan, dan 10/56 clean pass, sehingga memperoleh skor kualitas terendah
- Namun, dengan rata-rata risiko footprint 0.20, model ini unggul dari sisi ukuran patch
- GPT-5.4 mencatat 31/56 tes lulus, 35/56 kesetaraan, dan 11/56 clean pass
- Dengan biaya $2.39 per tugas, ini adalah opsi termurah, tetapi tidak cukup untuk menutup selisih clean pass
- GPT-5.5 juga unggul dalam efisiensi dengan rata-rata waktu tugas 6 menit 56 detik, 201.8M token input, dan 0.72M token output
Analisis performa per repositori
- Zod (27 tugas): GPT-5.5 dan Opus sama-sama lulus 12 tes, tetapi GPT-5.5 unggul dalam kualitas review dengan 10 clean pass vs 5 milik Opus
- Opus unggul dalam ukuran diff, sehingga pada Zod ada trade-off nyata
- graphql-go-tools (29 tugas): GPT-5.5 sangat dominan dengan 26 tes lulus dan 18 clean pass
- Opus lulus 21 tes tetapi hanya mendapat 5 clean pass, menunjukkan strategi patch kecilnya berujung pada pekerjaan integrasi yang terlewat
Metrik kualitas terperinci
- Lolos code review: GPT-5.5 33/56, GPT-5.4 16/56, Opus 11/56
- Rata-rata code review (akurasi + keamanan terhadap bug): GPT-5.5 3.08, GPT-5.4 2.59, Opus 2.33
- Akurasi (correctness) saja: GPT-5.5 3.16 vs GPT-5.4 2.60 vs Opus 2.11
- Keamanan terhadap bug yang diperkenalkan: GPT-5.5 3.04 vs GPT-5.4 2.56 vs Opus 2.55
- Rata-rata custom grader (8 rubrik): GPT-5.5 2.62, GPT-5.4 2.40, Opus 2.33
- Skor craftsmanship (clarity/coherence/robustness): GPT-5.5 tertinggi di semua subkategori
- Skor discipline (scope discipline/diff minimality): GPT-5.5 unggul tipis dengan 2.36, Opus 2.20
- Meski Opus unggul dalam footprint mentah, dari sisi discipline relatif terhadap tugas, GPT-5.5 lebih baik
Kelulusan tes bukan kriteria akhir
- Di Zod, Opus dan GPT-5.5 sama-sama lulus 12 tes, tetapi clean pass-nya GPT-5.5 10 vs Opus 5
- Di graphql-go-tools pola ini makin kuat: GPT-5.5 lulus 26 tes/18 clean pass, Opus 21 tes/5 clean pass
- Kasus GraphQL PR #1001: ketiga model sama-sama lulus tes dan dinilai setara, tetapi hanya GPT-5.5 yang lolos code review
- Dua model lain mendapat peringatan pada bentuk API, eksposur objek HTTP mentah, dan kekokohan batas hook
Perbedaan konkret yang terlihat dalam code review
- Tugas codec asinkron dan nilai default di Zod: ketiga model sama-sama gagal tes
- Opus mengubah 8 file tetapi melewatkan semantik inti (mengizinkan
undefinedpada default, mempertahankan definisi codec sinkron) - GPT-5.4 membuat patch di 11 file dan diakui setara, tetapi terlalu membatasi API di sekitarnya (
prefault) - GPT-5.5 juga gagal tes, tetapi menangani perilaku schema/build dengan lebih rapi, sehingga meraih skor tertinggi pada akurasi dan risiko bug
- Opus mengubah 8 file tetapi melewatkan semantik inti (mengizinkan
- Validasi kompatibilitas GraphQL Apollo (PR #1169): ketiga model lulus tes, tetapi hanya GPT-5.5 yang lolos baik pada kesetaraan maupun review
- Opus mengubah 11 file namun melewatkan validasi leaf untuk enum/wrapping scalar
- GPT-5.4 mengubah 12 file dan memperluas cakupan secara berlebihan, seperti metadata validasi tanpa syarat
- GPT-5.5 hanya mengubah 10 file (6 non-test), paling sedikit sekaligus paling tepat dalam menerapkan perilaku target
Karakteristik dan batasan Opus 4.7
- Menghasilkan patch ber-footprint rendah yang konservatif dan presisi
- Kuat saat tugas bersifat lokal dan permukaan perubahan sempit
- Pola kegagalan yang berulang: hanya mengimplementasikan perilaku inti dan tidak menyelesaikan pekerjaan pendamping (companion work)
- Pada kasus parallel tree Node/Deno di Zod, Opus hanya mengubah 4 file dan lulus tes, sedangkan GPT-5.5 mengubah 11 file termasuk permukaan deployment paralel sehingga setara dengan patch manusia
- Di graphql-go-tools dampaknya lebih serius: pada PR #1155 (perubahan di banyak permukaan engine seperti field scalar berulang untuk datasource gRPC), Opus bahkan gagal menghasilkan patch, sementara hanya GPT-5.5 yang lolos tes, kesetaraan, dan review sekaligus
- Pembedaan utamanya: patch kecil Opus adalah discipline pada tugas lokal, tetapi menjadi implementasi yang belum tuntas pada tugas integrasi
Perubahan dari GPT-5.4 ke GPT-5.5
- GPT-5.4 sering menemukan arah pendekatan yang benar tetapi gagal saat eksekusi
- Di Zod, ia mendapat 18 hasil setara (sama dengan GPT-5.5), tetapi hanya lulus 9 tes
- GPT-5.5 mempertahankan perilaku integrasi yang lebih luas sambil lebih jarang menghasilkan patch yang rusak
- Perbandingan contoh konkret:
- Generator schema→TypeScript: Opus dan GPT-5.5 mengimplementasikan recursive visitor, sementara GPT-5.4 salah mengklasifikasikan tugas dengan membuat file panduan repositori
- Perbaikan parser rekursif: kedua model GPT sama-sama melacak jumlah kunjungan, tetapi GPT-5.5 lebih ringkas dengan menghapus state yang tidak perlu
- Validasi CIDR: GPT-5.5 juga memperbarui mirror Deno, sedangkan GPT-5.4 tidak (masalah hygiene repositori)
- Pada graphql-go-tools PR #1232 (deduplikasi single fetch yang sama + penulisan ulang referensi dependensi), hanya GPT-5.5 yang lolos tes, kesetaraan, dan review semuanya
- Ringkasan pola: GPT-5.5 lebih sering menyelesaikan pekerjaan integrasi yang membosankan namun perlu untuk mengubah perbaikan lokal yang cerdas menjadi perubahan repositori yang siap dikirim
Trade-off ukuran patch dan biaya
- Rata-rata ukuran patch di graphql-go-tools: GPT-5.5 sekitar 33KB, GPT-5.4 27KB, Opus 19KB
- Skor footprint: Opus 0.19, GPT-5.4 0.32, GPT-5.5 0.34
- Patch besar meningkatkan kesulitan review, kemungkinan konflik, dan risiko menyentuh jalur sensitif
- Dalam workflow yang berfokus pada auditability, Opus masih punya keunggulan praktis
- Namun, jika diff minimality dinilai relatif terhadap tugas, GPT-5.5 unggul tipis
- Poin penting: patch 5KB yang melewatkan permukaan yang dibutuhkan bukan lebih minimal daripada patch 20KB yang benar-benar menyelesaikan tugas
- Perbandingan biaya:
- Di Zod, Opus dan GPT-5.5 mirip (Opus $45.53 vs GPT-5.5 $46.69)
- Di graphql-go-tools, Opus memakai 186.1M token input/934K output/waktu agent 8.56 jam, sedangkan GPT-5.5 151.4M/431K/4.16 jam, sehingga GPT-5.5 jauh lebih efisien
Ringkasan karakter perilaku tiap model
- Opus 4.7 — under-reach: konservatif, presisi, footprint rendah, kuat pada tugas lokal tetapi lemah pada permukaan pendamping yang tidak sepenuhnya tercakup tes; mode gagalnya adalah "tes lulus tetapi perubahannya tidak sama"
- GPT-5.4 — bentuknya benar, eksekusinya salah: arahnya tepat tetapi tidak konsisten; sering menghasilkan patch dengan mirror usang, refactor yang tidak perlu, atau patch yang dinilai grader lebih baik daripada hasil tesnya
- GPT-5.5 — lebih luas, footprint lebih besar: lebih lengkap pada permukaan integrasi, lebih sering memperbarui kode sekitar, lolos review, dan benar-benar menerjemahkan perilaku yang dimaksud ke dalam kode; risikonya, saat salah, kesalahan tersebar ke lebih banyak file
Perbedaan perilaku agent
- Di graphql-go-tools, Opus rata-rata melakukan 3.17 panggilan perencanaan eksplisit per tugas, sedangkan GPT-5.5 0 kali
- Opus melakukan 10.2 panggilan patch per tugas, GPT-5.5 9.9, jadi hampir sama
- GPT-5.5 menjalankan sekitar 2x lebih banyak shell call dan juga lebih banyak search call, sementara Opus menghabiskan lebih banyak anggaran pada perencanaan dan penulisan ulang patch
- Pada repositori ini, eksplorasi repositori yang lebih luas lebih efektif daripada pertimbangan mendalam atas patch sempit
Mengapa hasil ini penting
- Pertanyaan kuncinya bukan "model mana yang terbaik", melainkan "di repositori ini, pada harness ini, dan untuk jenis tugas yang benar-benar dikirim ke produksi, patch model mana yang bisa dipercaya"
- Di Zod, GPT-5.5 vs Opus menunjukkan hubungan trade-off; di graphql-go-tools, GPT-5.5 memiliki keunggulan yang jelas
- Benchmark publik biasanya meratakan perilaku model menjadi satu angka agregat berskala besar, tetapi dalam kode nyata ini berubah menjadi keputusan workflow berdasarkan codebase dan kriteria yang spesifik
Catatan perhatian
- Sampel 56 tugas masih relatif kecil; selisih satu tugas saja dapat mengubah rasio tingkat repositori beberapa poin
- Semua model hanya dijalankan sekali per tugas; beberapa hasil yang berdekatan bisa berbalik jika dijalankan ulang
- Karena model penilai kesetaraan/rubrik adalah GPT-5.4, ada kemungkinan bias keluarga model
- Namun, GPT-5.5 tetap unggul tegas atas GPT-5.4, keunggulan footprint Opus tetap terlihat, dan banyak kegagalan kesetaraan Opus berasal dari file konkret yang terlewat, sehingga ini tidak sepenuhnya menjelaskan hasil keseluruhan
- Hasil ini bergantung pada harness: Claude Code dan Codex CLI berbeda dalam system prompt, loop perencanaan, dan permukaan tool
- Jika Opus dijalankan di Codex API atau GPT-5.5 dijalankan di Claude Code, hasilnya bisa berubah
- Angka-angka ini mencerminkan perilaku model di dalam harness yang benar-benar dipakai engineer
Kesimpulan utama
- GPT-5.5 adalah model deployment default terbaik untuk dua repositori ini
- Opus 4.7 tetap relevan sebagai model ber-footprint rendah, dan bisa lebih disukai saat diff sempit adalah prioritas utama
- GPT-5.4 memiliki biaya per tugas terendah, tetapi tidak cukup untuk menutup selisih clean pass
- Dengan hanya melihat tes, hasil yang paling penting justru tersembunyi
- Peringkat model yang sama berubah antar repositori, dan inilah alasan utama pentingnya benchmark pada repositori sendiri
2 komentar
Akhir-akhir ini Claude terlalu merepotkan. Ia jauh lebih sering gagal mengikuti instruksi yang jelas dibanding sebelumnya. Bahkan sering terasa lebih buruk daripada saat Sonnet 3.7.
Kadang sampai terasa seperti ada persekongkolan ya.