Clustering token penalaran GPT-5.5 Codex dapat menyebabkan penurunan performa
(github.com/openai)- Isu OpenAI Codex #30364 melaporkan bahwa
reasoning_output_tokenspada responsgpt-5.5cenderung berkumpul pada nilai tetap seperti 516, 1034, dan 1552, dan fenomena ini mungkin berkaitan dengan penurunan kualitas pada tugas Codex yang kompleks - Analisis mencakup metadata
token_countCodex pada 1 Februari–27 Juni 2026 UTC, dengan 390.195 record respons dan 3.363 kejadian exact 516 yang teridentifikasi di 865 sesi gpt-5.5hanya mencakup 19,3% dari seluruh respons, tetapi menyumbang 82,0% dari kejadian exact-516; di antarareasoning_output_tokens >= 516, rasio exact 516 adalah 44,0%, jauh lebih tinggi daripada 1,3% pada non-GPT-5.5- Rasio exact-516 bulanan naik dari 0,11% pada Februari 2026 menjadi 53,30% pada Mei dan 35,84% pada Juni, tetapi rata-rata dan P90 jumlah token penalaran pada periode yang sama justru menurun, sehingga ini bukan sekadar peningkatan penggunaan token penalaran
- Dalam komentar berikutnya, pengguna membagikan clustering 516 serupa dan beberapa reproduksi jawaban salah di Codex CLI, Codex Desktop, dan OpenCode; sebagai mitigasi sementara, juga diusulkan proxy lokal yang mendeteksi pola
518·n−2dan melanjutkan penalaran
Masalah utama dalam isu ini
- Isu Codex #30364 melaporkan pola konsentrasi berlebihan pada
reasoning_output_tokens = 516dalam metadatatoken_countresponsgpt-5.5 - Selain itu, disebutkan ada spike di sekitar
1034dan1552yang terlihat seperti batas tetap - Cakupan klaim yang diajukan bukan klaim bahwa hal ini membuktikan pemotongan chain-of-thought tersembunyi
- Klaim yang lebih sempit adalah bahwa telemetri Codex menunjukkan anomali clustering token tetap yang spesifik pada
gpt-5.5 - Masalah yang diangkat sebatas bahwa pola ini tampak konsisten dengan perilaku anggaran penalaran berbasis ambang batas
- Klaim yang lebih sempit adalah bahwa telemetri Codex menunjukkan anomali clustering token tetap yang spesifik pada
- Isu terkait #29353 membahas reproduksi unit tugas ketika eksekusi
gpt-5.5berhenti tepat pada 516 reasoning tokens dan mengembalikan jawaban salah; isu kali ini menambahkan bukti agregat dari periode yang lebih panjang
Lingkungan analisis dan data
- Produknya adalah Codex, dan model yang paling terkait adalah
gpt-5.5 - Sumber data adalah metadata
token_countCodex - Periode analisis adalah 1 Februari–27 Juni 2026 UTC
- Angka agregat:
- Record token tingkat respons: 390.195
- Sesi: 865
- Kejadian exact
reasoning_output_tokens = 516: 3.363 - Porsi
gpt-5.5dari seluruh respons: 19,3% - Porsi
gpt-5.5dari kejadian exact-516: 82,0% - Rasio exact-516 / >=516 pada
gpt-5.5: 44,0% - Rasio exact-516 / >=516 pada non-GPT-5.5: 1,3%
Pola per model dan per bulan
- Rasio exact 516 / >=516 per model paling menonjol pada
gpt-5.5gpt-5.5: 75.401 record, 44,0%gpt-5.4: 25.214 record, 19,8%gpt-5.2: 247.575 record, 0,34%gpt-5.3-codex: 13.333 record, 0,0%gpt-5.3-codex-spark: 26.179 record, 0,0%
- Clustering exact-516 bulanan melonjak tajam pada Mei 2026
- Februari: 0,11%
- Maret: 2,45%
- April: 4,25%
- Mei: 53,30%
- Juni: 35,84%
- Pada periode yang sama, intensitas token penalaran keseluruhan menurun
- Rata-rata reasoning tokens: Februari 268,1 → Mei 106,9 → Juni 168,5
- P90 reasoning tokens: Februari 772 → Mei 344 → Juni 515
- Karena kombinasi ini, muncul keberatan bahwa kenaikan exact-516 sulit dijelaskan sebagai sekadar peningkatan penggunaan token penalaran
Item verifikasi internal yang diminta
- Tim Codex diminta menyelidiki apakah anggaran penalaran, routing, pemotongan, fallback, atau perilaku scheduler pada
gpt-5.5menyebabkan penghentian di sekitar 516/1034/1552 - Jika perilaku tersebut memang disengaja, permintaan tersebut juga mencakup klarifikasi apakah exact 516 adalah titik penghentian normal, batas anggaran, degraded tier, atau ambang internal lain
- Prosedur verifikasi yang diusulkan:
- Mengambil event
token_countyang memuatreasoning_output_tokensper model - Membandingkan jumlah exact-value
0,516,1034,1552 - Menghitung
count(reasoning_output_tokens = 516) / count(reasoning_output_tokens >= 516)per model dan tanggal - Membandingkan
gpt-5.5dengangpt-5.2,gpt-5.4, serta varian khusus Codex - Menjalankan ulang tugas kompleks pada GPT-5.2 dan GPT-5.5, lalu memisahkan respons exact-516 dan respons dengan reasoning lebih panjang untuk menilai kualitasnya
- Mengambil event
Reproduksi tambahan dan data silang dari komentar
- GitHub Actions menandai #29353 sebagai kandidat duplikat terkait
- Beberapa pengguna berkomentar bahwa mereka mengalami masalah yang sama, dan salah satu pengguna menilai isu kali ini sebagai laporan yang lebih berbasis data dibanding isu sebelumnya
sinnet3000menyajikan data lintas klien dari penyimpanan sesi lokal Codex CLI dan OpenCode- Dari sekitar 22,7 ribu event
token_countdi Codex~/.codex/sessionsdanarchived_sessions,gpt-5.5memiliki records 4.300, >=516 156, exact 516 88, rasio 56,4% - Dari sekitar 32,1 ribu assistant messages di
opencode.dbOpenCode,gpt-5.5memiliki records 6.977, >=516 126, exact 516 90, rasio 71,4% - Pada gabungan sekitar 24 ribu records dari model non-OpenAI bervolume besar seperti Kimi, DeepSeek, MiMo, MiniMax, Gemini, Qwen, dan GLM, exact 516 berjumlah 0
- Data ini diberi caveat bahwa data tersebut tidak menilai benar atau salahnya jawaban, dan hanya memeriksa ada tidaknya clustering exact 516
- Dari sekitar 22,7 ribu event
kyleboddymelaporkan perbedaan perilaku terkait pada Codex Desktop di Windows 11- Menjalankan candy prompt yang sama pada 5 thread fresh projectless Codex Desktop
- Eksekusi direct-
final_answeryang cepat mengembalikan29, yaitu jawaban salah - Eksekusi yang lebih lambat dan diawali
commentarymengembalikan21, yaitu jawaban benar - Karena exact
reasoning_output_tokenstidak dapat diekstrak dari thread fresh Windows-host Desktop, ia menyatakan bahwa tidak bisa dikatakan eksekusi salah tersebut tepat berada di 516
- Pengguna yang sama juga mengagregasi clustering nilai tetap
gpt-5.5 / xhighdari metadata sesi lokal- records 16.141, sessions 51, rata-rata reasoning 149,7, P90 429
=516438 kasus,>=5161.298 kasus, rasio 33,74%=103452 kasus,=155214 kasus,=207016 kasus,=258812 kasus,=31065 kasus
Hasil reproduksi Codex Linux CLI
kyleboddymengatakan ia juga berhasil mereproduksi di Codex Linux CLI dengan candy prompt yang sama- Lingkungan:
- Produk: Codex CLI
- Versi:
codex-cli 0.142.5 - Platform: Ubuntu Linux
6.8.0-111-generic, x86_64 - Node:
v24.14.0 - Mode autentikasi: ChatGPT
- Model uji:
gpt-5.5 - reasoning efforts:
xhigh,high - Model pembanding:
gpt-5.4 xhigh
- Prompt-nya meminta jumlah draw minimum untuk masalah kantong permen dengan shape yang bisa dibedakan lewat sentuhan, tanpa memakai tool eksternal
- Jawaban yang diharapkan dikonfirmasi secara independen lewat brute-force enumeration sebagai 21
- Penjelasannya mencakup bahwa karena shape bisa dibedakan lewat sentuhan, bisa direncanakan 9 permen round + 12 permen star
- Hasil:
- 4 eksekusi selesai
gpt-5.5 xhighsemuanya memilikireasoning_output_tokens = 516, dan jawaban akhir23,26,28,15, semuanya salah - 3 eksekusi
gpt-5.5 highjuga semuanya516, dengan jawaban22,21,27, hanya 1 yang benar - 3 eksekusi
gpt-5.4 xhighmemakai 6211, 12274, 10876 reasoning tokens dan semuanya menjawab21dengan benar
- 4 eksekusi selesai
- Hasil ini memperkuat klaim sempit bahwa
gpt-5.5dapat masuk ke jalur tetap 516-token di Codex, dan jalur tersebut mungkin berkorelasi dengan penurunan kualitas tugas
Usulan workaround sementara
dzshzxmengusulkan proxy Responses lokal codexcomp yang ditempatkan di depan Codex sambil menunggu fix upstream- Cara kerjanya adalah menganggap pola
518·n−2sebagai pemotongan dan melanjutkan penalaran- Round yang berakhir dengan
reasoning_tokens == 518·n − 2, yaitu 516, 1034, 1552, dan seterusnya, diperlakukan sebagai truncated - Tentative output dibuang, lalu reasoning items dan
encrypted_contentdari round tersebut diputar ulang sebagai input berikutnya - Pesan
phase:"commentary"dan"Continue thinking..."ikut disisipkan - Semua round dilipat menjadi satu downstream response sehingga terlihat oleh Codex seperti jawaban yang sudah selesai
- Round yang berakhir dengan
- Konfigurasinya memakai key resmi top-level
openai_base_url- Contoh:
openai_base_url = "http://127.0.0.1:8787/v1" - Provider built-in
openaitetap dipertahankan, sehingga session grouping, remote compaction, dan remote-control disebut tetap berjalan
- Contoh:
- Contoh log aktual menunjukkan kasus ketika setelah dua kali 516 berturut-turut, round ketiga berakhir clean dan jawaban akhirnya benar
- round 1: reason=516 → continue
- round 2: reason=516 → continue
- round 3: reason=291 → clean
- Caveat:
- Ini adalah workaround tidak resmi dan bergantung pada perilaku upstream yang bukan bagian dari kontrak
- Round continuation memakai token nyata tambahan
- Dibatasi oleh window
ndan batas 3 continuation - Disebut hanya loopback, auth passthrough, dan tidak membaca atau menyimpan credentials
1 komentar
Pendapat di Hacker News
Ini terlihat cukup serius, dan juga mudah direproduksi dengan codex cli
Jika diberi prompt teka-teki yang membutuhkan penalaran, kadang-kadang tiba-tiba seperti terputus, hanya memakai tepat 516 token pemikiran, lalu memberi jawaban yang salah
Saat memakai 6.000–8.000 token pemikiran, jawabannya benar
Bisa jadi ini masalah di sisi adaptive thinking, dan ini juga satu poin lagi untuk model lokal karena tidak perlu khawatir soal perubahan diam-diam di sisi server
Saya menjalankan prompt yang sama 10 kali, dan 4 kali terkena masalah 516 token ini; keempatnya semuanya salah. Sampelnya kecil, tetapi tampaknya 5.5 xhigh bisa terpotong hampir separuh waktu sehingga performanya turun
Ruang masalahnya tak terbatas luasnya, dan sulit menilai seberapa lama harus berpikir hanya dari kemiripan antar-prompt. Model bahkan sudah menghentikan pemikiran sebelum mencapai anggaran berpikir
Saya tidak paham kenapa begitu banyak upaya dicurahkan untuk mengimplementasikan adaptive thinking; bukankah lebih baik melatih model agar lebih baik mengeluarkan token akhir pemikiran?
Ini terasa seperti tambal sulam. Model seharusnya dilatih untuk melakukan penalaran dalam jumlah yang tepat: bernalar → memperkirakan ketidakpastian yang tersisa → memutuskan apakah akan lanjut → bernalar lagi → ulangi
Hampir setiap hari saya mengalami kualitas yang turun bertahap seperti anak tangga, dan biasanya saya memakai xhigh
Pengalaman awal tahun ini saat mengandalkan ketelitian luar biasa Codex dalam coding sudah hilang, dan karena sesekali muncul implementasi yang absurd bodoh, saya pindah ke Claude sampai OpenAI menangani masalah ini secara serius
Secara pribadi saya sudah melihat ini selama berbulan-bulan, tetapi OpenAI tidak tampak menganggapnya serius
Jadi saya berpindah dari 5.5 high → 5.5 xhigh → 5.4 high
5.4 high sepenuhnya stabil selama 3 minggu terakhir, dan sekarang saya puas dengan itu
Sesekali saya menjalankan pekerjaan dengan 5.5 xhigh untuk memeriksa apakah sudah kembali 100% stabil, tetapi saat ini saya melihat mereka lebih menunggu rilis 5.6 daripada memperbaiki masalah keandalan ini
Rasanya seperti déjà vu. Ini terlihat persis seperti regresi performa Claude Code pada April. Waktu itu saya menghentikan langganan Claude dan pindah ke Codex
Sekarang saya mempertimbangkan untuk memakai keduanya dengan penagihan per token, menggunakan GLM 5.2 dari Fireworks untuk sebagian besar pekerjaan, lalu membayar model besar hanya saat diperlukan. Namun saya belum yakin titik impasnya masuk akal
Meski tidak disengaja, saya tidak ingin menerima atau memungkinkan struktur yang membuat mereka mendapat keuntungan dari produk yang kualitasnya menurun
Untuk pertama kalinya sejak peluncuran ChatGPT, model open-source dan lingkungan eksekusi terbuka, misalnya hal seperti Pi, terlihat jauh lebih menarik
Sekarang saya berpikir bagaimana bisa mendapat tambahan 65.000 dolar supaya tidak perlu khawatir lagi dengan omong kosong seperti ini. Saya tahu keekonomian layanan seperti OpenRouter
Ini mengingatkan saya pada sekitar 2008, saat “cloud” mulai muncul sebagai istilah pemasaran. Terlihat seperti kemasan untuk menurunkan ekspektasi terhadap rich client, mengikis kepemilikan lokal, dan memperbesar margin perusahaan lewat model berlangganan
Setelah itu saya muak dengan antusiasme dan absolutisme soal “perangkat lunak yang benar-benar bebas dan open-source”, lalu menganggap diri saya dulu masih muda dan melupakannya
Sebenarnya banyak model berlangganan masih bisa saya pahami atau toleransi sampai batas tertentu. Membuat perangkat lunak itu mahal, dan mungkin tidak adil menilai nilai upgrade tahunan Photoshop pada 2026 sebesar 200 dolar. Namun mengubah UI yang sudah berfungsi baik selama 20 tahun secara seenaknya dan menghapus sama sekali hal seperti swatch warna klasik itu bodoh
Kalau begitu, dengan Codex sebagai alat kerja penting seharga 200 dolar per bulan, saya bisa membuat plugin swatch klasik
Apakah 200 dolar per bulan adil untuk penggunaan token saya? Pada bulan ketika saya sangat banyak memakai, mungkin saya menggunakan sekitar 1 miliar token
Namun justru itulah masalahnya. Mereka akan terus menarik tuas tanpa mengetahui secara konkret tingkat profitabilitas seperti apa yang cocok, dan dari “membaca daun teh” seperti jatuh tempo utang, tampaknya itu akan berlangsung setidaknya sampai 2030 atau 2032
Saya sama sekali tidak ingin memikirkan hal seperti itu. Saya tidak ingin terus menilai preferensi model dan penurunan performa, serta terus memperbarui nuansa cara berbicara kepada AI sesuai eksperimen backend misterius apa yang sedang berjalan pada output yang saya pakai untuk hasil kerja yang benar-benar dibayar untuk saya buat dan pelihara
AI berada di antara alat dan rekan kerja, dan perubahan “kepribadian” yang berubah-ubah akibat orang mengutak-atik kenop dan tuas yang kurang dipahami pada tahap penalaran membuat saya gila. Jadi saya ingin bisa menunjuk ke sebuah kotak di sudut ruangan dan tahu persis kualitas output yang tidak diubah siapa pun selain saya
Yang akhir-akhir ini berubah secara bertahap bukan performa model, melainkan jumlah rengekan dan keluhan para coder
Saya suka bahwa karena Codex bersifat open source, isu seperti ini bisa muncul dan ditangani secara terbuka
Secara umum saya berterima kasih karena Codex open source, tetapi untuk jenis masalah ini modelnya tetap tertutup, jadi tampaknya tidak terlalu berarti
Mungkin ingatan saya buruk, tetapi dari sisi penggunaan token dan kualitas kode, menurut saya 5.3 adalah yang terbaik. 5.5 memang bekerja lebih baik, tetapi benar-benar melahap token
Tidak seperti 5.5 atau Opus, model itu cukup murah dan efisien untuk dipakai pada hampir semua pekerjaan, tetapi tetap cukup bagus, dan saya lebih memilihnya dibanding Sonnet
Beberapa hari lalu rasanya ada yang mengatakan di sini bahwa OpenAI telah memangkas biaya komputasi menjadi setengah lewat optimasi terobosan. Apakah ini yang dimaksud?
Isinya, menurut seseorang yang mengetahui diskusi itu, “para insinyur OpenAI mengatakan kepada sebagian kolega awal bulan ini bahwa berkat optimasi yang baru ditemukan, mereka telah menemukan cara untuk memangkas biaya menjalankan model yang sudah ada, yaitu biaya inferensi, lebih dari setengah”
Dalam kasus saya, efek ini terlihat jika melihat isi penalaran terenkripsi dari panjang string base64. Namun tidak terlihat pada token penalaran yang dilaporkan server
Jadi saya menganggapnya murni bagian dari enkripsi atau obfuscation, dan bukan masalah nyata
Kelemahan terbesar GPT adalah proses berpikirnya dienkripsi, sehingga lebih black box dibanding Kimi, GLM, dan DeepSeek. Meski begitu, ringkasan pemikirannya masih bisa didapat, jadi meskipun canggung tetap bisa dipakai
Apakah ini kasus langka di mana ucapan “modelnya dibuat bodoh” bukan delusi pengguna seperti biasanya, melainkan memang modelnya dibuat bodoh?
Detail isu ini bukan bukti pelemahan diam-diam yang disengaja; justru lebih mendekati kebalikannya. Akar masalahnya kasar, dan tidak terlalu tersembunyi sampai-sampai pengguna biasa bisa melaporkannya dengan detail akurat yang bisa diverifikasi secara independen
Ungkapan “delusi pengguna seperti biasanya” tidak adil dan juga tidak sesuai selera saya. Jika yang Anda miliki hanya endpoint API seperti wastafel ajaib yang menelan context window lalu memuntahkan output lanjutan, yang tersisa hanyalah penilaian subjektif, dugaan, dan kecurigaan
Bahkan dengan rangkaian pengujian model yang distandardisasi, klaim pelemahan diam-diam pada akhirnya berarti membaca niat orang-orang di perusahaan itu. Kualitas model bisa menurun bahkan tanpa niat eksplisit atau downgrade infrastruktur dasar
Membuat teori konspirasi bercanda atau mempertimbangkan kemungkinan pelemahan nyata itu sendiri bukan penyakit mental. Saya tidak suka tren penyalahgunaan istilah diagnosis psikologis seperti ini
Tentu saja ada orang yang terlalu yakin dalam penilaian semacam ini, dan itu bisa berlaku bagi mereka, tetapi mereka minoritas. Pada akhirnya itu hanya hiperbola dan tidak membantu siapa pun
Lucu juga mereka menjual langganan model frontier lalu dengan cepat melakukan nerf seiring waktu, sementara tidak ada yang membicarakannya
Kalau diam-diam menurunkan intensitas penalaran di sisi server, seharusnya setidaknya mereka memberi diskon
Sebaliknya, saya memakai 5.5-high setiap hari dalam alur kerja paralel multi-tugas, dan saya baru hampir menghabiskan batas mingguan. Saya sebagai Human-as-a-Service tidak cukup cepat untuk membaca dan mengikuti semua rencana serta implementasinya. Memang ada sisi seperti itu juga
Tampaknya jelas bahwa demi optimasi throughput, mereka mengelompokkan dan mem-batch inferensi penalaran dalam kelipatan 512 token
Bisa saja ini cara yang sangat tidak jujur untuk melakukan scaling mengikuti permintaan pada jam sibuk. Saya tahu di topik ini sudah ada orang yang menertawakan subjektivitas kesan performa model, tetapi setidaknya dalam pengujian saya sepanjang bulan Mei, model tampak kurang pintar pada jam ketika AS mulai online
Dalam posting blog perusahaan beberapa minggu lalu pun, ini terasa sebagai pola yang lebih konsisten pada jam-jam yang beririsan, sehingga saya merasa perlu menyorotnya. Seharusnya saya menyimpan log sesi untuk analisis lebih lanjut https://webesque.agency/blog/2026-06-19-llms.html