24 poin oleh GN⁺ 3 hari lalu | 16 komentar | Bagikan ke WhatsApp
  • Di komunitas Reddit r/codex sedang berlangsung diskusi yang membandingkan performa coding dari dua model ini, dan mayoritas pengguna saat ini mendukung keunggulan GPT 5.5
  • GPT 5.5 unggul dalam stabilitas dan presisi, sementara Opus 4.7 banyak dikeluhkan karena penurunan performa belakangan ini dan masalah batas penggunaan
  • Ada juga penilaian bahwa Opus 4.7 masih sedikit unggul di area desain frontend/UI
  • Sejumlah pengguna menyoroti penurunan kemampuan (lobotomize) pada Claude(Opus) akibat kekurangan sumber daya komputasi, sehingga memunculkan masalah keandalan
  • Ada pula pendapat bahwa karena performa model AI akan terus meningkat, dalam jangka panjang aksesibilitas, harga, batas penggunaan, dan kebijakan sensor bisa menjadi kriteria pemilihan yang lebih penting daripada siapa yang unggul saat ini

Perbandingan performa coding secara umum

  • Sebagian besar komentar sepakat bahwa GPT 5.5 unggul dalam coding/pemrograman secara keseluruhan
  • GPT 5.5 cepat, kompeten, dan perhatiannya terhadap detail lebih baik daripada Opus 4.7
  • GPT 5.5 efektif dalam memperbaiki bug dan mendeteksi dependensi yang terlewat
  • Opus 4.7 dinilai memiliki kemampuan coding murni yang mirip, tetapi kadang memiliki kecenderungan "malas" sehingga hanya melakukan pekerjaan seminimal mungkin
  • GPT 5.5 cenderung menilai cakupan dampak kode dan memahami hal-hal yang perlu dipertimbangkan sebelum bertindak, sedangkan Opus 4.7 cenderung cepat membuat solusi tingkat menengah

Desain UI/frontend

  • Untuk pekerjaan desain dan frontend, Opus 4.7 menunjukkan hasil yang sedikit lebih baik
  • Namun, ada juga contoh GPT 5.5 yang berhasil mewujudkan desain situs web band hampir sempurna dalam satu kali pengerjaan (one-shot) hanya dari logo
  • Hasil pekerjaan UI/UX di Codex dapat berbeda tergantung pada kualitas prompt dan apakah petunjuk visual disediakan
  • Strategi yang direkomendasikan adalah memakai GPT 5.5 untuk membangun fondasi dan struktur, lalu menggunakan Opus 4.7 untuk menyempurnakan desain frontend
  • Ada juga usulan memanfaatkan alat gratis seperti Meta Muse Spark untuk melengkapi bagian UI

Masalah stabilitas dan batas penggunaan pada Opus 4.7

  • Ada persepsi yang luas bahwa performa Opus 4.7 diturunkan karena kekurangan sumber daya komputasi seiring lonjakan pengguna baru
  • Banyak keluhan bahwa 4.7 (dan 4.6) berulang kali diturunkan performanya (nerfed)
  • Ada laporan bahwa Opus 4.7 dalam mode max effort menghasilkan banyak halusinasi (hallucination)
  • Ada kasus satu prompt yang tidak selesai dalam sesi 18 menit menghabiskan batas penggunaan setara 5 jam
  • Batas penggunaan Opus pada langganan Claude Pro seharga $20 dinilai sangat ketat

Kelebihan dan kekurangan GPT 5.5

  • GPT 5.5 stabil dan konsisten menjaga kualitas tanpa kemunduran performa (regress)
  • Ada penilaian pengguna bahwa belum ditemukan kasus model ini menghasilkan informasi palsu
  • Namun, model ini juga memiliki kecenderungan "malas" dengan hanya mengerjakan hal yang secara eksplisit tertulis di prompt, sehingga sering membutuhkan prompt yang rinci atau proses perencanaan awal dan tanya-jawab
  • Konsumsi tokennya cenderung lebih besar
  • Dibandingkan GPT 5.4 (langganan $20), 5.5 menghabiskan batas penggunaan 2 kali lebih banyak sementara peningkatan benchmark hanya sekitar 2~5%, sehingga efisiensi biayanya juga dipertanyakan

Perbandingan harga dan langganan

  • Untuk penggunaan pribadi, ada pendapat bahwa langganan ChatGPT Pro $100 menawarkan value for money yang sangat baik
  • Direkomendasikan strategi menggabungkan Codex + Kimi $10 atau Gemini $22 untuk melengkapi pekerjaan UI
  • Jika sudah memakai Google Storage, Gemini pada praktiknya bisa setara $10~15
  • Ada juga pengguna yang mempertimbangkan beralih sepenuhnya dari akun Claude Max ke GPT Plus

Perspektif jangka panjang

  • Dalam beberapa bulan ke depan, semua model termasuk model Tiongkok kemungkinan akan mencapai atau melampaui level Opus 4.6, dan mungkin tersedia dengan harga lebih rendah
  • Dibanding performa model itu sendiri, aksesibilitas, harga, batas penggunaan, sensor, dan kemampuan memahami konteks diperkirakan akan menjadi pembeda yang lebih penting
  • Meski saat ini GPT 5.5 unggul, ada kekhawatiran bahwa seperti Claude yang pernah menurun dari masa puncaknya, Codex juga bisa segera mengalami penurunan performa
  • Ada juga minat untuk membandingkannya dengan model lain seperti Kimi 2.6, GLM, dan MiniMax

16 komentar

 
dicebattle 2 hari lalu

Saya rasa mereka mengira orang tidak akan sadar meski performanya diturunkan lewat patch diam-diam, tapi sebenarnya insting manusia juga lebih tajam dari yang dibayangkan, jadi kalau menggabungkan insting saya + cerita dari orang-orang di komunitas, jawabannya langsung kelihatan.

"Jadi memangnya kamu bisa ngapain wkwk" ya mau tidak mau tetap dipakai juga....

 
funnycat 2 hari lalu

Sejak versi 3.5 saya selalu memakai Claude sebagai yang utama, tetapi mulai 5.5 saya mulai memakai GPT sebagai yang utama. Ternyata cukup bagus.

 
tkddls8848 2 hari lalu

Bagaimana kalau pakai Claude hanya untuk menyusun rencana dan Codex hanya untuk eksekusi?

 
cosine20 2 hari lalu

Saya akhir-akhir ini melakukan seperti itu. Hanya saja, kebijakan sandbox Codex CLI terlalu ketat, jadi saat mencoba menyerahkan sampai proses build dan test, rasanya jadi cukup merepotkan.

 
kaydash 2 hari lalu

Keduanya sama-sama ngomongnya ngeselin banget. Tapi ya, dua-duanya juga malas, yang disuruh pun ada yang dilewatin.

 
jimmy2056 2 hari lalu

Ini benar-benar mirip dengan yang saya rasakan, jadi saya sekarang membayar GPT yang seharga 100 dolar dan memakainya.
Saya juga sedang mempertimbangkan untuk menurunkan Claude yang 200 dolar menjadi 100.

 
mse9000 2 hari lalu

codex 5.4 berbicara dalam bahasa Korea dengan agak aneh, tetapi performanya sudah lebih unggul daripada opus 4.6 dan opus 4.7 (gaya bahasanya yang aneh jadi hambatan awal / seperti membuka, menutup, akan mendorong, dan semacamnya)

Di codex 5.5, gaya bicaranya juga sudah jadi normal, dan jauh lebih teliti serta lebih pintar. opus 4.7 = terasa sangat malas dan sangat terasa seperti berusaha menghemat biaya inferensi; secara subjektif bahkan terasa seperti kemunduran dibanding opus 4.6

 
dicebattle 2 hari lalu

Kalau di model khusus codex 5.3 rasanya benar-benar seperti berbicara dengan bawahan yang tidak punya basa-basi tapi jago ngoding,
mulai 5.4 dia sedikit demi sedikit mulai bisa bicara, dan sejak 5.5 rasanya seperti sudah setengah sadar.
Sampai sekarang pun kadang dia masih menyebut API sebagai kontrak, atau tiba-tiba mencampur bahasa Inggris dan Korea seperti orang gila, jadi kadang saya harus menulis, "Tolong jelaskan dengan mudah dipahami, dan sebisa mungkin tanpa bahasa Inggris."

Meski begitu, untuk performa menghasilkan kode, menurut pengalaman saya sejak 5.4 dia sudah melampaui opus. Memang opus 4.7 sudah keluar, tapi saya bahkan belum sempat mencobanya sedikit pun. Soalnya kelihatannya jelas cuma akan jadi marketing ala "Anthropic" lagi.

 
cosine20 2 hari lalu

Malah Opus 4.6 dan 4.7 mulai terdengar aneh dalam bahasa Korea juga sih wkwk

 
bungker 2 hari lalu

Kalau Anda sudah membangun harness dengan Claude, Claude lebih cocok. Tapi kalau baru mulai memakainya, GPT terasa lebih baik. Dari sisi value for money, GPT jauh lebih unggul; yang paket $20 pun sudah cukup.

 
memevibe82 2 hari lalu

Menurut saya, bagi yang sudah lama berkecimpung dalam pengembangan, GPT 5.5 lebih baik.

Untuk yang bukan developer, saya rasa Claude lebih baik.

Tapi sebenarnya tidak perlu diperdebatkan terlalu jauh.

Yang terbaik adalah membuat sesuatu yang berguna..

 
rkjun 3 hari lalu

Secara keseluruhan, sepertinya arahnya mengarah pada kesimpulan bahwa GPT 5.5 lebih unggul. Saya selama ini hanya memakai Claude Code (Opus 4.7).. Sepertinya saya juga harus mulai serius mencoba Codex.

 
brainer 3 hari lalu

Sebenarnya sejak GPT-5, selain desain front-end, model ini sudah lebih unggul.

Komunitasnya saja yang agak terlambat..

 
unknowncyder 2 hari lalu

Saya setuju.
Selama ini, apa yang benar-benar saya rasakan bertolak belakang dengan reaksi komunitas, jadi saya merasa ada kesenjangan.

 
love7peace 2 hari lalu

Betul juga.

 
treestae 1 hari lalu

Setahun yang lalu saya sangat merekomendasikan Claude, tetapi belakangan ini saya sangat merekomendasikan aplikasi Codex.