1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Isu OpenAI Codex #30364 melaporkan bahwa reasoning_output_tokens pada respons gpt-5.5 cenderung berkumpul pada nilai tetap seperti 516, 1034, dan 1552, dan fenomena ini mungkin berkaitan dengan penurunan kualitas pada tugas Codex yang kompleks
  • Analisis mencakup metadata token_count Codex pada 1 Februari–27 Juni 2026 UTC, dengan 390.195 record respons dan 3.363 kejadian exact 516 yang teridentifikasi di 865 sesi
  • gpt-5.5 hanya mencakup 19,3% dari seluruh respons, tetapi menyumbang 82,0% dari kejadian exact-516; di antara reasoning_output_tokens >= 516, rasio exact 516 adalah 44,0%, jauh lebih tinggi daripada 1,3% pada non-GPT-5.5
  • Rasio exact-516 bulanan naik dari 0,11% pada Februari 2026 menjadi 53,30% pada Mei dan 35,84% pada Juni, tetapi rata-rata dan P90 jumlah token penalaran pada periode yang sama justru menurun, sehingga ini bukan sekadar peningkatan penggunaan token penalaran
  • Dalam komentar berikutnya, pengguna membagikan clustering 516 serupa dan beberapa reproduksi jawaban salah di Codex CLI, Codex Desktop, dan OpenCode; sebagai mitigasi sementara, juga diusulkan proxy lokal yang mendeteksi pola 518·n−2 dan melanjutkan penalaran

Masalah utama dalam isu ini

  • Isu Codex #30364 melaporkan pola konsentrasi berlebihan pada reasoning_output_tokens = 516 dalam metadata token_count respons gpt-5.5
  • Selain itu, disebutkan ada spike di sekitar 1034 dan 1552 yang terlihat seperti batas tetap
  • Cakupan klaim yang diajukan bukan klaim bahwa hal ini membuktikan pemotongan chain-of-thought tersembunyi
    • Klaim yang lebih sempit adalah bahwa telemetri Codex menunjukkan anomali clustering token tetap yang spesifik pada gpt-5.5
    • Masalah yang diangkat sebatas bahwa pola ini tampak konsisten dengan perilaku anggaran penalaran berbasis ambang batas
  • Isu terkait #29353 membahas reproduksi unit tugas ketika eksekusi gpt-5.5 berhenti tepat pada 516 reasoning tokens dan mengembalikan jawaban salah; isu kali ini menambahkan bukti agregat dari periode yang lebih panjang

Lingkungan analisis dan data

  • Produknya adalah Codex, dan model yang paling terkait adalah gpt-5.5
  • Sumber data adalah metadata token_count Codex
  • Periode analisis adalah 1 Februari–27 Juni 2026 UTC
  • Angka agregat:
    • Record token tingkat respons: 390.195
    • Sesi: 865
    • Kejadian exact reasoning_output_tokens = 516: 3.363
    • Porsi gpt-5.5 dari seluruh respons: 19,3%
    • Porsi gpt-5.5 dari kejadian exact-516: 82,0%
    • Rasio exact-516 / >=516 pada gpt-5.5: 44,0%
    • Rasio exact-516 / >=516 pada non-GPT-5.5: 1,3%

Pola per model dan per bulan

  • Rasio exact 516 / >=516 per model paling menonjol pada gpt-5.5
    • gpt-5.5: 75.401 record, 44,0%
    • gpt-5.4: 25.214 record, 19,8%
    • gpt-5.2: 247.575 record, 0,34%
    • gpt-5.3-codex: 13.333 record, 0,0%
    • gpt-5.3-codex-spark: 26.179 record, 0,0%
  • Clustering exact-516 bulanan melonjak tajam pada Mei 2026
    • Februari: 0,11%
    • Maret: 2,45%
    • April: 4,25%
    • Mei: 53,30%
    • Juni: 35,84%
  • Pada periode yang sama, intensitas token penalaran keseluruhan menurun
    • Rata-rata reasoning tokens: Februari 268,1 → Mei 106,9 → Juni 168,5
    • P90 reasoning tokens: Februari 772 → Mei 344 → Juni 515
  • Karena kombinasi ini, muncul keberatan bahwa kenaikan exact-516 sulit dijelaskan sebagai sekadar peningkatan penggunaan token penalaran

Item verifikasi internal yang diminta

  • Tim Codex diminta menyelidiki apakah anggaran penalaran, routing, pemotongan, fallback, atau perilaku scheduler pada gpt-5.5 menyebabkan penghentian di sekitar 516/1034/1552
  • Jika perilaku tersebut memang disengaja, permintaan tersebut juga mencakup klarifikasi apakah exact 516 adalah titik penghentian normal, batas anggaran, degraded tier, atau ambang internal lain
  • Prosedur verifikasi yang diusulkan:
    • Mengambil event token_count yang memuat reasoning_output_tokens per model
    • Membandingkan jumlah exact-value 0, 516, 1034, 1552
    • Menghitung count(reasoning_output_tokens = 516) / count(reasoning_output_tokens >= 516) per model dan tanggal
    • Membandingkan gpt-5.5 dengan gpt-5.2, gpt-5.4, serta varian khusus Codex
    • Menjalankan ulang tugas kompleks pada GPT-5.2 dan GPT-5.5, lalu memisahkan respons exact-516 dan respons dengan reasoning lebih panjang untuk menilai kualitasnya

Reproduksi tambahan dan data silang dari komentar

  • GitHub Actions menandai #29353 sebagai kandidat duplikat terkait
  • Beberapa pengguna berkomentar bahwa mereka mengalami masalah yang sama, dan salah satu pengguna menilai isu kali ini sebagai laporan yang lebih berbasis data dibanding isu sebelumnya
  • sinnet3000 menyajikan data lintas klien dari penyimpanan sesi lokal Codex CLI dan OpenCode
    • Dari sekitar 22,7 ribu event token_count di Codex ~/.codex/sessions dan archived_sessions, gpt-5.5 memiliki records 4.300, >=516 156, exact 516 88, rasio 56,4%
    • Dari sekitar 32,1 ribu assistant messages di opencode.db OpenCode, gpt-5.5 memiliki records 6.977, >=516 126, exact 516 90, rasio 71,4%
    • Pada gabungan sekitar 24 ribu records dari model non-OpenAI bervolume besar seperti Kimi, DeepSeek, MiMo, MiniMax, Gemini, Qwen, dan GLM, exact 516 berjumlah 0
    • Data ini diberi caveat bahwa data tersebut tidak menilai benar atau salahnya jawaban, dan hanya memeriksa ada tidaknya clustering exact 516
  • kyleboddy melaporkan perbedaan perilaku terkait pada Codex Desktop di Windows 11
    • Menjalankan candy prompt yang sama pada 5 thread fresh projectless Codex Desktop
    • Eksekusi direct-final_answer yang cepat mengembalikan 29, yaitu jawaban salah
    • Eksekusi yang lebih lambat dan diawali commentary mengembalikan 21, yaitu jawaban benar
    • Karena exact reasoning_output_tokens tidak dapat diekstrak dari thread fresh Windows-host Desktop, ia menyatakan bahwa tidak bisa dikatakan eksekusi salah tersebut tepat berada di 516
  • Pengguna yang sama juga mengagregasi clustering nilai tetap gpt-5.5 / xhigh dari metadata sesi lokal
    • records 16.141, sessions 51, rata-rata reasoning 149,7, P90 429
    • =516 438 kasus, >=516 1.298 kasus, rasio 33,74%
    • =1034 52 kasus, =1552 14 kasus, =2070 16 kasus, =2588 12 kasus, =3106 5 kasus

Hasil reproduksi Codex Linux CLI

  • kyleboddy mengatakan ia juga berhasil mereproduksi di Codex Linux CLI dengan candy prompt yang sama
  • Lingkungan:
    • Produk: Codex CLI
    • Versi: codex-cli 0.142.5
    • Platform: Ubuntu Linux 6.8.0-111-generic, x86_64
    • Node: v24.14.0
    • Mode autentikasi: ChatGPT
    • Model uji: gpt-5.5
    • reasoning efforts: xhigh, high
    • Model pembanding: gpt-5.4 xhigh
  • Prompt-nya meminta jumlah draw minimum untuk masalah kantong permen dengan shape yang bisa dibedakan lewat sentuhan, tanpa memakai tool eksternal
  • Jawaban yang diharapkan dikonfirmasi secara independen lewat brute-force enumeration sebagai 21
    • Penjelasannya mencakup bahwa karena shape bisa dibedakan lewat sentuhan, bisa direncanakan 9 permen round + 12 permen star
  • Hasil:
    • 4 eksekusi selesai gpt-5.5 xhigh semuanya memiliki reasoning_output_tokens = 516, dan jawaban akhir 23, 26, 28, 15, semuanya salah
    • 3 eksekusi gpt-5.5 high juga semuanya 516, dengan jawaban 22, 21, 27, hanya 1 yang benar
    • 3 eksekusi gpt-5.4 xhigh memakai 6211, 12274, 10876 reasoning tokens dan semuanya menjawab 21 dengan benar
  • Hasil ini memperkuat klaim sempit bahwa gpt-5.5 dapat masuk ke jalur tetap 516-token di Codex, dan jalur tersebut mungkin berkorelasi dengan penurunan kualitas tugas

Usulan workaround sementara

  • dzshzx mengusulkan proxy Responses lokal codexcomp yang ditempatkan di depan Codex sambil menunggu fix upstream
  • Cara kerjanya adalah menganggap pola 518·n−2 sebagai pemotongan dan melanjutkan penalaran
    • Round yang berakhir dengan reasoning_tokens == 518·n − 2, yaitu 516, 1034, 1552, dan seterusnya, diperlakukan sebagai truncated
    • Tentative output dibuang, lalu reasoning items dan encrypted_content dari round tersebut diputar ulang sebagai input berikutnya
    • Pesan phase:"commentary" dan "Continue thinking..." ikut disisipkan
    • Semua round dilipat menjadi satu downstream response sehingga terlihat oleh Codex seperti jawaban yang sudah selesai
  • Konfigurasinya memakai key resmi top-level openai_base_url
    • Contoh: openai_base_url = "http://127.0.0.1:8787/v1";
    • Provider built-in openai tetap dipertahankan, sehingga session grouping, remote compaction, dan remote-control disebut tetap berjalan
  • Contoh log aktual menunjukkan kasus ketika setelah dua kali 516 berturut-turut, round ketiga berakhir clean dan jawaban akhirnya benar
    • round 1: reason=516 → continue
    • round 2: reason=516 → continue
    • round 3: reason=291 → clean
  • Caveat:
    • Ini adalah workaround tidak resmi dan bergantung pada perilaku upstream yang bukan bagian dari kontrak
    • Round continuation memakai token nyata tambahan
    • Dibatasi oleh window n dan batas 3 continuation
    • Disebut hanya loopback, auth passthrough, dan tidak membaca atau menyimpan credentials

1 komentar

 
GN⁺ 4 jam lalu
Pendapat di Hacker News
  • Ini terlihat cukup serius, dan juga mudah direproduksi dengan codex cli
    Jika diberi prompt teka-teki yang membutuhkan penalaran, kadang-kadang tiba-tiba seperti terputus, hanya memakai tepat 516 token pemikiran, lalu memberi jawaban yang salah
    Saat memakai 6.000–8.000 token pemikiran, jawabannya benar
    Bisa jadi ini masalah di sisi adaptive thinking, dan ini juga satu poin lagi untuk model lokal karena tidak perlu khawatir soal perubahan diam-diam di sisi server
    Saya menjalankan prompt yang sama 10 kali, dan 4 kali terkena masalah 516 token ini; keempatnya semuanya salah. Sampelnya kecil, tetapi tampaknya 5.5 xhigh bisa terpotong hampir separuh waktu sehingga performanya turun

    • Menurut saya adaptive thinking juga bermasalah secara filosofis. Mekanismenya seperti menebak berapa banyak anggaran berpikir yang akan dialokasikan sebelum berpikir, padahal dalam konteks LLM sepertinya hampir tidak ada cara untuk mengetahui sebelumnya berapa banyak pemikiran yang dibutuhkan, yaitu jumlah token yang perlu dihasilkan
      Ruang masalahnya tak terbatas luasnya, dan sulit menilai seberapa lama harus berpikir hanya dari kemiripan antar-prompt. Model bahkan sudah menghentikan pemikiran sebelum mencapai anggaran berpikir
      Saya tidak paham kenapa begitu banyak upaya dicurahkan untuk mengimplementasikan adaptive thinking; bukankah lebih baik melatih model agar lebih baik mengeluarkan token akhir pemikiran?
      Ini terasa seperti tambal sulam. Model seharusnya dilatih untuk melakukan penalaran dalam jumlah yang tepat: bernalar → memperkirakan ketidakpastian yang tersisa → memutuskan apakah akan lanjut → bernalar lagi → ulangi
    • Model lokal juga tetap perlu dikhawatirkan soal kesalahan konfigurasi. Bahkan para ahli pun bisa salah, jadi performa model lokal bisa naik-turun tergantung penyedianya
    • Saya penasaran apakah ada pola yang terlihat saat diuji berdasarkan zona waktu atau hari dalam seminggu. Misalnya, bisa dilihat apakah fenomena terpotong ini lebih sering terjadi saat puncak jam kerja
    • Kalau pengguna juga yang membayar biaya token yang terbuang itu, mungkin sebaiknya meminta pengembalian dana
  • Hampir setiap hari saya mengalami kualitas yang turun bertahap seperti anak tangga, dan biasanya saya memakai xhigh
    Pengalaman awal tahun ini saat mengandalkan ketelitian luar biasa Codex dalam coding sudah hilang, dan karena sesekali muncul implementasi yang absurd bodoh, saya pindah ke Claude sampai OpenAI menangani masalah ini secara serius
    Secara pribadi saya sudah melihat ini selama berbulan-bulan, tetapi OpenAI tidak tampak menganggapnya serius

    • Tiga bulan lalu Claude menjadi terlalu bodoh sehingga saya pindah ke Codex, dan enam bulan lalu justru kebalikannya. Entah Codex atau Claude, pada akhirnya keduanya akan membuat kita kesal. Meski begitu Codex mungkin masih lebih mending
    • Sejak awal Juni, saya merasa keandalan 5.5 turun ke level Claude dalam pengalaman saya
      Jadi saya berpindah dari 5.5 high → 5.5 xhigh → 5.4 high
      5.4 high sepenuhnya stabil selama 3 minggu terakhir, dan sekarang saya puas dengan itu
      Sesekali saya menjalankan pekerjaan dengan 5.5 xhigh untuk memeriksa apakah sudah kembali 100% stabil, tetapi saat ini saya melihat mereka lebih menunggu rilis 5.6 daripada memperbaiki masalah keandalan ini
    • Saya tidak percaya ini masalah teknis. Memperbaikinya akan mahal, dan karena pengguna tidak membayar cukup banyak, saya menganggapnya sebagai keputusan bisnis untuk menurunkan performa
  • Rasanya seperti déjà vu. Ini terlihat persis seperti regresi performa Claude Code pada April. Waktu itu saya menghentikan langganan Claude dan pindah ke Codex
    Sekarang saya mempertimbangkan untuk memakai keduanya dengan penagihan per token, menggunakan GLM 5.2 dari Fireworks untuk sebagian besar pekerjaan, lalu membayar model besar hanya saat diperlukan. Namun saya belum yakin titik impasnya masuk akal

    • Saya juga awalnya bereaksi sama soal penagihan per token, tetapi karena secara ekonomi menguntungkan bagi kedua lab untuk memindahkan pelanggan ke konsumsi per token, saya jadi ingin menghindarinya secara prinsip
      Meski tidak disengaja, saya tidak ingin menerima atau memungkinkan struktur yang membuat mereka mendapat keuntungan dari produk yang kualitasnya menurun
      Untuk pertama kalinya sejak peluncuran ChatGPT, model open-source dan lingkungan eksekusi terbuka, misalnya hal seperti Pi, terlihat jauh lebih menarik
    • Betul. Saya juga berhenti memakai Claude Code dan beralih ke Codex karena kejadian itu
      Sekarang saya berpikir bagaimana bisa mendapat tambahan 65.000 dolar supaya tidak perlu khawatir lagi dengan omong kosong seperti ini. Saya tahu keekonomian layanan seperti OpenRouter
      Ini mengingatkan saya pada sekitar 2008, saat “cloud” mulai muncul sebagai istilah pemasaran. Terlihat seperti kemasan untuk menurunkan ekspektasi terhadap rich client, mengikis kepemilikan lokal, dan memperbesar margin perusahaan lewat model berlangganan
      Setelah itu saya muak dengan antusiasme dan absolutisme soal “perangkat lunak yang benar-benar bebas dan open-source”, lalu menganggap diri saya dulu masih muda dan melupakannya
      Sebenarnya banyak model berlangganan masih bisa saya pahami atau toleransi sampai batas tertentu. Membuat perangkat lunak itu mahal, dan mungkin tidak adil menilai nilai upgrade tahunan Photoshop pada 2026 sebesar 200 dolar. Namun mengubah UI yang sudah berfungsi baik selama 20 tahun secara seenaknya dan menghapus sama sekali hal seperti swatch warna klasik itu bodoh
      Kalau begitu, dengan Codex sebagai alat kerja penting seharga 200 dolar per bulan, saya bisa membuat plugin swatch klasik
      Apakah 200 dolar per bulan adil untuk penggunaan token saya? Pada bulan ketika saya sangat banyak memakai, mungkin saya menggunakan sekitar 1 miliar token
      Namun justru itulah masalahnya. Mereka akan terus menarik tuas tanpa mengetahui secara konkret tingkat profitabilitas seperti apa yang cocok, dan dari “membaca daun teh” seperti jatuh tempo utang, tampaknya itu akan berlangsung setidaknya sampai 2030 atau 2032
      Saya sama sekali tidak ingin memikirkan hal seperti itu. Saya tidak ingin terus menilai preferensi model dan penurunan performa, serta terus memperbarui nuansa cara berbicara kepada AI sesuai eksperimen backend misterius apa yang sedang berjalan pada output yang saya pakai untuk hasil kerja yang benar-benar dibayar untuk saya buat dan pelihara
      AI berada di antara alat dan rekan kerja, dan perubahan “kepribadian” yang berubah-ubah akibat orang mengutak-atik kenop dan tuas yang kurang dipahami pada tahap penalaran membuat saya gila. Jadi saya ingin bisa menunjuk ke sebuah kotak di sudut ruangan dan tahu persis kualitas output yang tidak diubah siapa pun selain saya
    • Fireworks?
    • Yang dimaksud regresi performa Claude Code berbasis “perasaan”, kan. Dalam sistem nondeterministik, jangan berharap performa yang konsisten. Tidak ada data empiris sama sekali yang mendukung adanya penurunan performa
      Yang akhir-akhir ini berubah secara bertahap bukan performa model, melainkan jumlah rengekan dan keluhan para coder
  • Saya suka bahwa karena Codex bersifat open source, isu seperti ini bisa muncul dan ditangani secara terbuka

    • Namun ini adalah perilaku model, dan adanya issue tracker publik rasanya sama saja dengan Claude Code, hanya tanpa kodenya. Untuk masalah seperti ini, saya tidak tahu bedanya dengan https://github.com/anthropics/claude-code
      Secara umum saya berterima kasih karena Codex open source, tetapi untuk jenis masalah ini modelnya tetap tertutup, jadi tampaknya tidak terlalu berarti
    • Secara umum OpenAI terasa jauh lebih terbuka dan lebih seperti perusahaan sungguhan dibanding Anthropic. Anthropic itu sekadar black box
  • Mungkin ingatan saya buruk, tetapi dari sisi penggunaan token dan kualitas kode, menurut saya 5.3 adalah yang terbaik. 5.5 memang bekerja lebih baik, tetapi benar-benar melahap token

    • Bukan cuma saya. Menurut saya 5.3-codex adalah model yang hebat dalam keseimbangan antara kualitas output dan biaya
      Tidak seperti 5.5 atau Opus, model itu cukup murah dan efisien untuk dipakai pada hampir semua pekerjaan, tetapi tetap cukup bagus, dan saya lebih memilihnya dibanding Sonnet
    • Beberapa minggu lalu, 5.3 menjadi tidak layak pakai menurut standar saya. Ia hanya berhenti atau memberikan jawaban yang buruk
  • Beberapa hari lalu rasanya ada yang mengatakan di sini bahwa OpenAI telah memangkas biaya komputasi menjadi setengah lewat optimasi terobosan. Apakah ini yang dimaksud?

    • Itu artikel The Information, tetapi tidak terlihat seperti tulisan yang bagus. Saya tidak mendapat kesan bahwa penulisnya adalah ahli teknis yang cukup memahami cara kerja LLM untuk bisa menilai rumor internal secara andal: https://www.theinformation.com/newsletters/ai-agenda/openai-...
      Isinya, menurut seseorang yang mengetahui diskusi itu, “para insinyur OpenAI mengatakan kepada sebagian kolega awal bulan ini bahwa berkat optimasi yang baru ditemukan, mereka telah menemukan cara untuk memangkas biaya menjalankan model yang sudah ada, yaitu biaya inferensi, lebih dari setengah”
    • Saya memahami rumor itu bukan tentang OpenAI sendiri, melainkan salah satu kelompok yang pecah dari OpenAI setelah kejadian tersebut, mungkin Thinking Machines, yang membuat terobosan dan sedang menawarkannya ke OpenAI. Menurut saya OpenAI belum benar-benar mengimplementasikannya
  • Dalam kasus saya, efek ini terlihat jika melihat isi penalaran terenkripsi dari panjang string base64. Namun tidak terlihat pada token penalaran yang dilaporkan server
    Jadi saya menganggapnya murni bagian dari enkripsi atau obfuscation, dan bukan masalah nyata
    Kelemahan terbesar GPT adalah proses berpikirnya dienkripsi, sehingga lebih black box dibanding Kimi, GLM, dan DeepSeek. Meski begitu, ringkasan pemikirannya masih bisa didapat, jadi meskipun canggung tetap bisa dipakai

  • Apakah ini kasus langka di mana ucapan “modelnya dibuat bodoh” bukan delusi pengguna seperti biasanya, melainkan memang modelnya dibuat bodoh?

    • Ini justru lebih terlihat seperti cacat atau salah konfigurasi pada mesin inferensi atau lingkungan eksekusi agent
      Detail isu ini bukan bukti pelemahan diam-diam yang disengaja; justru lebih mendekati kebalikannya. Akar masalahnya kasar, dan tidak terlalu tersembunyi sampai-sampai pengguna biasa bisa melaporkannya dengan detail akurat yang bisa diverifikasi secara independen
      Ungkapan “delusi pengguna seperti biasanya” tidak adil dan juga tidak sesuai selera saya. Jika yang Anda miliki hanya endpoint API seperti wastafel ajaib yang menelan context window lalu memuntahkan output lanjutan, yang tersisa hanyalah penilaian subjektif, dugaan, dan kecurigaan
      Bahkan dengan rangkaian pengujian model yang distandardisasi, klaim pelemahan diam-diam pada akhirnya berarti membaca niat orang-orang di perusahaan itu. Kualitas model bisa menurun bahkan tanpa niat eksplisit atau downgrade infrastruktur dasar
      Membuat teori konspirasi bercanda atau mempertimbangkan kemungkinan pelemahan nyata itu sendiri bukan penyakit mental. Saya tidak suka tren penyalahgunaan istilah diagnosis psikologis seperti ini
      Tentu saja ada orang yang terlalu yakin dalam penilaian semacam ini, dan itu bisa berlaku bagi mereka, tetapi mereka minoritas. Pada akhirnya itu hanya hiperbola dan tidak membantu siapa pun
  • Lucu juga mereka menjual langganan model frontier lalu dengan cepat melakukan nerf seiring waktu, sementara tidak ada yang membicarakannya
    Kalau diam-diam menurunkan intensitas penalaran di sisi server, seharusnya setidaknya mereka memberi diskon
    Sebaliknya, saya memakai 5.5-high setiap hari dalam alur kerja paralel multi-tugas, dan saya baru hampir menghabiskan batas mingguan. Saya sebagai Human-as-a-Service tidak cukup cepat untuk membaca dan mengikuti semua rencana serta implementasinya. Memang ada sisi seperti itu juga

  • Tampaknya jelas bahwa demi optimasi throughput, mereka mengelompokkan dan mem-batch inferensi penalaran dalam kelipatan 512 token

    • Pikiran pertama saya, jika mengacu pada llama.cpp, adalah bahwa penyesuaian parameter anggaran penalaran bisa menghasilkan hal seperti ini. Namun tanpa pengumuman OpenAI, tidak ada cara untuk tahu pasti
      Bisa saja ini cara yang sangat tidak jujur untuk melakukan scaling mengikuti permintaan pada jam sibuk. Saya tahu di topik ini sudah ada orang yang menertawakan subjektivitas kesan performa model, tetapi setidaknya dalam pengujian saya sepanjang bulan Mei, model tampak kurang pintar pada jam ketika AS mulai online
      Dalam posting blog perusahaan beberapa minggu lalu pun, ini terasa sebagai pola yang lebih konsisten pada jam-jam yang beririsan, sehingga saya merasa perlu menyorotnya. Seharusnya saya menyimpan log sesi untuk analisis lebih lanjut https://webesque.agency/blog/2026-06-19-llms.html
    • Bukankah standarnya memakai continuous batching? Jika memakai continuous batching, saya penasaran mengapa panjang token yang dihasilkan penting, dan mengapa perlu dikelompokkan berdasarkan panjang. Jika tidak, saya penasaran mengapa tidak dipakai dan apa trade-off-nya