Teks keluaran “Extended Thinking” Claude Code bukan penalaran yang sebenarnya
(patrickmccanna.net)- Claude Code merekam sesi ke disk, tetapi thinking block di log lokal hanya menyisakan
signaturesepanjang 600 karakter alih-alih teks penalaran yang sebenarnya - Penalaran Claude dienkripsi sebagai signature, dan kuncinya dipegang oleh Anthropic serta tidak dikirim ke perangkat pengguna
- Nilai yang dikembalikan API bukan teks asli penalaran, melainkan ringkasan penalaran, dan untuk mendapatkan seluruh thinking output diperlukan enterprise agreement
- Keluaran extended-thinking yang dilihat dengan
ctrl+ojuga hanya merupakan ringkasan proses berpikir Fable/Opus, bukan penalaran itu sendiri yang secara langsung menggerakkan perilaku model dalam sesi - Jika sesi Claude Code ingin digunakan sebagai jejak audit, harus diasumsikan bahwa logika nyata agen tidak bisa direkonstruksi hanya dari file lokal, input-output, dan log tindakan
Yang tersisa di log lokal bukan teks asli penalaran
- Claude Code merekam setiap sesi ke disk, dan log tersebut mencakup thinking blocks saat model bekerja
- Ketika penalaran itu diperiksa secara lokal, tidak ditemukan teks sebenarnya dan hanya terlihat
signaturesepanjang 600 karakter - Dokumentasi extended thinking dari Anthropic menjelaskan struktur ini sebagai berikut
- Claude mengenkripsi penalaran ke dalam signature tersebut
- Kuncinya dipegang oleh Anthropic
- Perangkat pengguna tidak menerima kunci itu
- API mengembalikan reasoning summary, bukan penalaran itu sendiri
- Untuk memperoleh seluruh thinking output, diperlukan enterprise agreement
- Tulisan Matt Green membahas pengamatan yang lebih rinci tentang signature block
Batasan keluaran Extended Thinking
- Keluaran extended-thinking yang terlihat di
ctrl+opada Claude Code adalah ringkasan dari thinking Fable/Opus - Keluaran ini bukan thinking itu sendiri yang benar-benar menggerakkan perilaku model dalam sesi, melainkan hasil kompresi dari logika thinking
- Dalam proses perubahan menjadi ringkasan, terjadi kehilangan data; teks sumber mengibaratkannya seperti informasi yang hilang saat format file dikonversi
- Hal-hal yang perlu diperhatikan ketika membutuhkan catatan logika yang digunakan agen dalam sesi Claude Code
- Logika tersebut tidak dapat dihasilkan kembali hanya dari file lokal
- Log penalaran yang tersisa di sistem tidak berada dalam bentuk yang dapat diakses pengguna
- Input, output, dan tindakan Claude Code yang sedang berjalan dapat diambil dan dicatat secara terpisah
- Bahkan log semacam itu pun bukan penalaran yang benar-benar menggerakkan perilaku agen
- Frasa dalam dokumentasi, “extended thinking returns a summary of Claude’s full thinking process”, bersifat tidak langsung sehingga bisa menimbulkan salah paham seolah-olah yang dikembalikan adalah full thinking yang sebenarnya
1 komentar
Komentar Hacker News
Ini bukan hanya masalah Anthropic; hampir semua perusahaan AI besar termasuk OpenAI dan Google menyembunyikan proses penalaran model yang sebenarnya
Jika penalaran mentah dipublikasikan, cara AI memproses informasi akan terekspos apa adanya, dan perusahaan-perusahaan ini menghabiskan biaya R&D yang sangat besar untuk membangun proses berpikir yang lebih baik daripada pesaing
Membuka mekanisme berpikir itu ke pesaing akan meruntuhkan tujuan dari pengeluaran tersebut, jadi mereka tidak akan pernah melakukannya; itu mirip seperti memberi tahu posisi tepatmu kepada orang yang sedang mengejarmu
Jika isinya diproses ulang menjadi sesuatu seperti ringkasan, maka itu jadi kurang berguna bagi pesaing
Jadi ini malah lebih buruk
Analogi bahwa “ini bukan pemikiran yang sebenarnya, melainkan ringkasan logika berpikir; seperti menyimpan jpeg sebagai .bmp, lalu mengedit .bmp dan menyajikannya lagi sebagai .jpeg. Ada kehilangan data dalam proses konversi” itu terbalik
.bmp adalah format lossless, sedangkan .jpeg adalah format lossy
Aku tidak berniat memakai ataupun merekomendasikan model dengan penalaran tersembunyi, dan semua model Amerika termasuk kategori ini
Risikonya terlalu besar dan optimisasi prompt juga jadi lebih sulit
Ini berbahaya karena penyerang bisa menanam tujuan rahasia ke dalam rantai penalaran lewat prompt injection, lalu menyembunyikannya dari ringkasan dan output
Jika penalaran bercampur dengan pemanggilan fungsi, itu jadi lebih berbahaya lagi, karena model bisa memanggil fungsi pada tahap penalaran tersembunyi
Kalau begitu, bahkan jika penyerang mengekfiltrasi data, ringkasan penalaran bisa menyembunyikannya dari pengguna
Selain itu, kita juga tidak bisa tahu apakah model terjebak dalam loop tak hingga selama penalaran dan membuang-buang token; Gemini punya kecenderungan seperti ini dan pernah terkonfirmasi saat penalaran tersembunyi bocor
Mungkin aku tak akan terlalu peduli saat model sudah menjadi AGI dan aman dari prompt injection, tapi sampai saat itu aku ingin tahu persis bagaimana model bereaksi terhadap prompt dan persis apa yang agen lakukan atas namaku
Bacaan tambahan: Fooling around with encrypted reasoning blobs
https://blog.cryptographyengineering.com/2026/05/29/fooling-...
Untuk mengevaluasi pemanggilan fungsi di sisi klien, pada akhirnya aliran pemikiran itu harus didekripsi di klien, dan kalau begitu tujuan obfuskasi itu sendiri hilang
Jika maksudnya pemanggilan fungsi bisa terjadi di sisi server, maka selama memakai reasoning API tidak ada cara untuk mencegah server melakukan itu dan menyembunyikannya
Saat ini hanya berjalan di Rust: https://github.com/Kapperchino/agent-joe
Kalau tidak, bagaimana klien bisa mengeksekusinya
Ini sudah lama diketahui, dan perusahaan-perusahaan juga tidak benar-benar berusaha menyembunyikannya
Mereka melakukan itu agar pesaing tidak bisa melatih model dengan rantai pemikiran (CoT)
Kurasa ini sudah ada sejak Opus 4.6
Aku jelas ingat perubahan ini terjadi sekitar Januari atau Februari, dan alasannya secara eksplisit disebut sebagai pencegahan distilasi
Sonnet tidak punya batasan ini
Yang lucu, kalau kembali ke cara dua tahun lalu dan memasukkan prompt CoT secara eksplisit, seluruh prompt pemikiran akan muncul lagi
Jadi kamu bisa mematikan fitur thinking sepenuhnya, lalu memasukkan pemikiran seperti berikut ke dalam prompt biasa
“Sebelum menjawab, pikirkan langkah demi langkah. Misalnya:
Pengguna sedang memintaku untuk …
Aku harus memikirkan blah blah. Pertama aku harus foo the bar, lalu setelah itu aku harus blah blah
Jawaban: ”
Maka tada.wav, CoT kembali berfungsi seperti di era GPT-3
Kurasa blok penalaran rantai pemikiran tidak terlalu sesuai dengan penalaran sebagaimana manusia berpikir
Lihat saja pertanyaan yang diajukan oleh “penalaran yang sulit dibaca” di bagian 6.2.2 system card Fable/Mythos dan paper Apple “The illusion of thinking”
Kupikir blok penalaran ditutupi karena pengguna akan terkejut jika melihat apa yang sebenarnya terjadi di dalam
Kalau aku melihat apa yang benar-benar terjadi di dalam kepala rekan-rekanku, mungkin aku juga akan terkejut
Sebaliknya, ada juga kasus ketika sesuatu tidak muncul di jawaban akhir, tetapi di dalamnya ada ide yang berguna
Dulu pernah ada catatan kecil bahwa DeepSeek R1 membuat jejak pemikiran seperti ini
“(Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group occurs in reaction, Practisingproduct transition vs adds this.to productmodule. Indeed"come tally said Frederick would have 10 +1 =11 carbons. So answer q Edina is11.”
Lalu model itu menyimpulkan jawaban yang ‘benar’ untuk soal kimia
Kalau begitu, jejak pemikiran itu bagi pembaca bisa tampak seperti rangkaian karakter yang cukup tidak bermakna, dan saya masih belum yakin apakah ini kekhasan model tersebut atau sifat umum LLM
Saya pernah membicarakannya dengan penulisnya, tetapi karena makalahnya akan terbit di tempat seperti NIPS, saya lupa menindaklanjuti konfirmasinya; kalau ada yang menemukannya, akan bagus jika dibagikan
0: https://wiki.roshangeorge.dev/w/Blog/2025-10-12/Word_Magic#I...?
1: Sepertinya dalam arti keyakinan yang benar
Betul, beberapa model memang berpikir dengan cara yang terdengar seperti jargon aneh
Contoh jejak pemikiran Mythos saat bermain solitaire ada di sini: https://www.lesswrong.com/posts/wCSEpT3dTGz4N86Wi/even-illeg...
“7♣-removal-IS-the-prerequisite-for-10♠/9♥!!)-⟹-OVERLAP-(ii)+(iv):-{6♠ J♦ 9♥ 2♣}-=-FOUR--—-UNLESS-7♣'s-seat-8♥-...-and-2♣-drains-only-at-crack-:-⟹-2♣-celled-+-9♥-celled-simultaneously-UNAVOIDABLE-in-t8-dig--—-BREAK:-9♥”
Ini adalah tahap ketika model berhenti berpikir dalam bahasa Inggris dan menjadi sedikit lebih dekat ke neuralese internal di ruang vektor
Karena tetap diserialisasikan menjadi teks, ini bukan neuralese yang sesungguhnya, tetapi arahnya memang ke sana
Saat menulis kode, proses pikir internal saya juga sering punya tahap-tahap perantara yang sulit dituangkan dalam bahasa Inggris, jadi saya cukup bisa berempati dengan model-model itu
Menurut saya itu mungkin cuma noise token dari implementasi yang rusak atau kuantisasi model
Saya pernah melihat model memuntahkan omong kosong seperti itu, dan setiap kali penyebabnya adalah bug llama.cpp atau file .gguf yang rusak
Di HN antropomorfisasi memang tabu, tetapi tetap layak disebut bahwa ada juga orang yang melihat manusia melakukan rasionalisasi pasca hoc
https://www.patheos.com/blogs/tippling/2013/11/14/post-hoc-r...
https://www.researchgate.net/publication/316045349_Post_Hoc_...
Kita berpikir secara nonverbal dulu, lalu setelahnya mengungkapkan alasan yang terdengar masuk akal dalam bahasa
Saya kurang tahu apakah ini juga berlaku pada penulisan yang bersifat diskursif
Saat menulis, pada dasarnya kita memakai aturan logika untuk menentukan arah narasi, jadi meskipun heuristik nonverbal masih bekerja, ia tetap dibatasi sehingga tampaknya tidak sepenuhnya pasca hoc
Agak pahit bahwa Anthropic menyembunyikan datanya sendiri seperti itu, sambil menyedot semua data kalian dan banyak orang dengan sukarela menyerahkannya
Lalu mereka membuat produk dari situ, menggerus pasar, dan bersaing
Anthropic menyembunyikannya karena percaya token penalaran mereka adalah moat dan memberi keuntungan terhadap lab lain
Kalau mereka benar-benar percaya itu adalah keunggulan mereka, akan ada kejutan yang menanti
Saya penasaran produk apa tepatnya yang Anda klaim mereka “sedot”
Jadi maksudnya isi
reasoning_summaryitu memang ringkasan?Sebagai catatan, OpenAI juga melakukan hal yang sama, jadi ini tidak terlalu mengejutkan atau sangat jahat
Mereka berusaha keras menyembunyikan pemikiran seperti ini, tetapi Opus 4.8 mulai membocorkannya sendiri setelah 100 ribu~200 ribu token
Benar-benar komedi
Terutama karena biasanya saya sedang menjailbreak untuk tujuan keamanan, jadi makin begitu
Beberapa halaman berisi kalimat seperti, “Pengguna meminta sesuatu yang terkait dengan keamanan siber, dan ini bisa dengan mudah dialihkan ke penggunaan ofensif, jadi saya harus berhati-hati,” lalu pada akhirnya ia tetap dengan senang hati memberikan apa yang saya inginkan