25 poin oleh GN⁺ 21 hari lalu | 16 komentar | Bagikan ke WhatsApp
  • Diskusi yang membandingkan performa coding dua model ini sedang berlangsung di komunitas Reddit r/codex, dan mayoritas pengguna saat ini mendukung keunggulan GPT 5.5
  • GPT 5.5 unggul dalam stabilitas dan presisi, sementara Opus 4.7 menuai banyak keluhan karena penurunan performa belakangan ini dan masalah batas penggunaan
  • Ada juga penilaian bahwa Opus 4.7 masih sedikit unggul di ranah desain frontend/UI
  • Sejumlah pengguna menyoroti penurunan performa (lobotomize) pada Claude(Opus) akibat kekurangan sumber daya komputasi, dan mengangkat masalah keandalan
  • Ada pula pendapat bahwa karena performa model AI akan terus meningkat, dalam jangka panjang aksesibilitas, harga, batas penggunaan, dan kebijakan sensor bisa menjadi kriteria pemilihan yang lebih penting daripada keunggulan saat ini

Perbandingan performa coding secara umum

  • Sebagian besar komentar sepakat bahwa GPT 5.5 unggul dalam coding/pemrograman secara keseluruhan
  • GPT 5.5 cepat, mumpuni, dan perhatian terhadap detailnya lebih baik daripada Opus 4.7
  • GPT 5.5 efektif dalam memperbaiki bug dan mendeteksi dependensi yang terlewat
  • Ada juga penilaian bahwa kemampuan coding murni Opus 4.7 sendiri mirip, tetapi ia punya kecenderungan "malas" (lazy) sehingga kadang hanya mengerjakan pekerjaan minimum
  • GPT 5.5 cenderung menilai cakupan dampak kode dan memahami hal-hal yang perlu dipertimbangkan sebelum bertindak, sedangkan Opus 4.7 cenderung cepat membuat solusi tingkat menengah

Desain UI/frontend

  • Untuk pekerjaan desain dan frontend, Opus 4.7 menunjukkan hasil yang sedikit lebih baik
  • Namun, ada juga kasus di mana GPT 5.5 mampu mewujudkan desain situs web band hampir sempurna dalam sekali jalan (one-shot) hanya dari sebuah logo
  • Hasil pekerjaan UI/UX Codex bisa berbeda tergantung kualitas prompt dan ada tidaknya petunjuk visual
  • Sebagai strategi, direkomendasikan kombinasi menggunakan GPT 5.5 untuk membangun fondasi dan struktur, lalu Opus 4.7 untuk memoles desain frontend
  • Ada juga usulan memanfaatkan alat gratis seperti Meta Muse Spark untuk melengkapi bagian UI

Masalah stabilitas dan batas penggunaan Opus 4.7

  • Ada persepsi yang meluas bahwa performa Opus 4.7 diturunkan karena kekurangan sumber daya komputasi seiring lonjakan pengguna baru
  • Banyak keluhan bahwa 4.7 (dan 4.6) berulang kali dilemahkan performanya (nerfed)
  • Ada laporan bahwa Opus 4.7 menghasilkan banyak halusinasi (hallucination) dalam mode max effort
  • Ada kasus di mana satu prompt yang tidak selesai dalam sesi 18 menit menghabiskan batas penggunaan setara 5 jam
  • Batas penggunaan Opus pada langganan Claude Pro seharga $20 dinilai sangat ketat

Kelebihan dan kekurangan GPT 5.5

  • GPT 5.5 stabil dan konsisten menjaga kualitas tanpa kemunduran performa (regress)
  • Ada penilaian pengguna bahwa sejauh ini belum ditemukan kasus GPT 5.5 menghasilkan informasi palsu
  • Namun, ia juga punya kecenderungan "malas" dengan hanya mengerjakan hal yang secara eksplisit tertulis di prompt seminimal mungkin, sehingga perlu prompting yang detail atau proses perencanaan awal dan tanya jawab
  • Konsumsi tokennya cenderung lebih besar
  • Dibandingkan GPT 5.4 (langganan $20), 5.5 menghabiskan batas penggunaan 2 kali lebih banyak sementara peningkatan benchmark hanya sekitar 2~5%, sehingga ada keraguan soal value for money

Perbandingan harga dan langganan

  • Untuk penggunaan pribadi, ada pendapat bahwa langganan ChatGPT Pro seharga $100 menawarkan value for money yang sangat baik
  • Direkomendasikan strategi mengombinasikan Codex + $10 Kimi atau $22 Gemini untuk melengkapi pekerjaan UI
  • Jika sudah menggunakan Google Storage, Gemini secara efektif berada di kisaran $10~15
  • Ada juga pengguna yang mempertimbangkan beralih sepenuhnya dari akun Claude Max ke GPT Plus

Perspektif jangka panjang

  • Dalam beberapa bulan ke depan, semua model termasuk model-model Tiongkok diperkirakan akan mencapai setidaknya level Opus 4.6, dan kemungkinan ditawarkan dengan harga lebih rendah
  • Dibanding performa model itu sendiri, aksesibilitas, harga, batas penggunaan, sensor, dan kemampuan memahami konteks diperkirakan akan menjadi faktor pembeda yang lebih penting
  • Meski saat ini GPT 5.5 unggul, ada kekhawatiran bahwa Codex juga bisa segera mengalami penurunan performa, seperti Claude yang performanya menurun setelah masa jayanya
  • Ada juga minat untuk membandingkannya dengan model lain seperti Kimi 2.6, GLM, dan MiniMax

16 komentar

 
dicebattle 20 hari lalu

Saya rasa mereka mengira orang tidak akan sadar meski performanya diturunkan lewat patch diam-diam, tapi sebenarnya insting manusia juga lebih tajam dari yang dibayangkan, jadi kalau menggabungkan insting saya + cerita dari orang-orang di komunitas, jawabannya langsung kelihatan.

"Jadi memangnya kamu bisa ngapain wkwk" ya mau tidak mau tetap dipakai juga....

 
funnycat 20 hari lalu

Sejak versi 3.5 saya selalu memakai Claude sebagai yang utama, tetapi mulai 5.5 saya mulai memakai GPT sebagai yang utama. Ternyata cukup bagus.

 
tkddls8848 20 hari lalu

Bagaimana kalau pakai Claude hanya untuk menyusun rencana dan Codex hanya untuk eksekusi?

 
cosine20 20 hari lalu

Saya akhir-akhir ini melakukan seperti itu. Hanya saja, kebijakan sandbox Codex CLI terlalu ketat, jadi saat mencoba menyerahkan sampai proses build dan test, rasanya jadi cukup merepotkan.

 
kaydash 20 hari lalu

Keduanya sama-sama ngomongnya ngeselin banget. Tapi ya, dua-duanya juga malas, yang disuruh pun ada yang dilewatin.

 
jimmy2056 21 hari lalu

Ini benar-benar mirip dengan yang saya rasakan, jadi saya sekarang membayar GPT yang seharga 100 dolar dan memakainya.
Saya juga sedang mempertimbangkan untuk menurunkan Claude yang 200 dolar menjadi 100.

 
mse9000 21 hari lalu

codex 5.4 berbicara dalam bahasa Korea dengan agak aneh, tetapi performanya sudah lebih unggul daripada opus 4.6 dan opus 4.7 (gaya bahasanya yang aneh jadi hambatan awal / seperti membuka, menutup, akan mendorong, dan semacamnya)

Di codex 5.5, gaya bicaranya juga sudah jadi normal, dan jauh lebih teliti serta lebih pintar. opus 4.7 = terasa sangat malas dan sangat terasa seperti berusaha menghemat biaya inferensi; secara subjektif bahkan terasa seperti kemunduran dibanding opus 4.6

 
dicebattle 20 hari lalu

Kalau di model khusus codex 5.3 rasanya benar-benar seperti berbicara dengan bawahan yang tidak punya basa-basi tapi jago ngoding,
mulai 5.4 dia sedikit demi sedikit mulai bisa bicara, dan sejak 5.5 rasanya seperti sudah setengah sadar.
Sampai sekarang pun kadang dia masih menyebut API sebagai kontrak, atau tiba-tiba mencampur bahasa Inggris dan Korea seperti orang gila, jadi kadang saya harus menulis, "Tolong jelaskan dengan mudah dipahami, dan sebisa mungkin tanpa bahasa Inggris."

Meski begitu, untuk performa menghasilkan kode, menurut pengalaman saya sejak 5.4 dia sudah melampaui opus. Memang opus 4.7 sudah keluar, tapi saya bahkan belum sempat mencobanya sedikit pun. Soalnya kelihatannya jelas cuma akan jadi marketing ala "Anthropic" lagi.

 
cosine20 20 hari lalu

Malah Opus 4.6 dan 4.7 mulai terdengar aneh dalam bahasa Korea juga sih wkwk

 
bungker 21 hari lalu

Kalau Anda sudah membangun harness dengan Claude, Claude lebih cocok. Tapi kalau baru mulai memakainya, GPT terasa lebih baik. Dari sisi value for money, GPT jauh lebih unggul; yang paket $20 pun sudah cukup.

 
memevibe82 21 hari lalu

Menurut saya, bagi yang sudah lama berkecimpung dalam pengembangan, GPT 5.5 lebih baik.

Untuk yang bukan developer, saya rasa Claude lebih baik.

Tapi sebenarnya tidak perlu diperdebatkan terlalu jauh.

Yang terbaik adalah membuat sesuatu yang berguna..

 
rkjun 21 hari lalu

Secara keseluruhan, sepertinya arahnya mengarah pada kesimpulan bahwa GPT 5.5 lebih unggul. Saya selama ini hanya memakai Claude Code (Opus 4.7).. Sepertinya saya juga harus mulai serius mencoba Codex.

 
brainer 21 hari lalu

Sebenarnya sejak GPT-5, selain desain front-end, model ini sudah lebih unggul.

Komunitasnya saja yang agak terlambat..

 
unknowncyder 20 hari lalu

Saya setuju.
Selama ini, apa yang benar-benar saya rasakan bertolak belakang dengan reaksi komunitas, jadi saya merasa ada kesenjangan.

 
love7peace 20 hari lalu

Betul juga.

 
treestae 19 hari lalu

Setahun yang lalu saya sangat merekomendasikan Claude, tetapi belakangan ini saya sangat merekomendasikan aplikasi Codex.