Teks keluaran “Extended Thinking” Claude Code bukan penalaran yang sebenarnya

(patrickmccanna.net)

1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp

Claude Code merekam sesi ke disk, tetapi thinking block di log lokal hanya menyisakan signature sepanjang 600 karakter alih-alih teks penalaran yang sebenarnya
Penalaran Claude dienkripsi sebagai signature, dan kuncinya dipegang oleh Anthropic serta tidak dikirim ke perangkat pengguna
Nilai yang dikembalikan API bukan teks asli penalaran, melainkan ringkasan penalaran, dan untuk mendapatkan seluruh thinking output diperlukan enterprise agreement
Keluaran extended-thinking yang dilihat dengan ctrl+o juga hanya merupakan ringkasan proses berpikir Fable/Opus, bukan penalaran itu sendiri yang secara langsung menggerakkan perilaku model dalam sesi
Jika sesi Claude Code ingin digunakan sebagai jejak audit, harus diasumsikan bahwa logika nyata agen tidak bisa direkonstruksi hanya dari file lokal, input-output, dan log tindakan

Yang tersisa di log lokal bukan teks asli penalaran

Claude Code merekam setiap sesi ke disk, dan log tersebut mencakup thinking blocks saat model bekerja
Ketika penalaran itu diperiksa secara lokal, tidak ditemukan teks sebenarnya dan hanya terlihat signature sepanjang 600 karakter
Dokumentasi extended thinking dari Anthropic menjelaskan struktur ini sebagai berikut
- Claude mengenkripsi penalaran ke dalam signature tersebut
- Kuncinya dipegang oleh Anthropic
- Perangkat pengguna tidak menerima kunci itu
- API mengembalikan reasoning summary, bukan penalaran itu sendiri
- Untuk memperoleh seluruh thinking output, diperlukan enterprise agreement
Tulisan Matt Green membahas pengamatan yang lebih rinci tentang signature block

Batasan keluaran Extended Thinking

Keluaran extended-thinking yang terlihat di ctrl+o pada Claude Code adalah ringkasan dari thinking Fable/Opus
Keluaran ini bukan thinking itu sendiri yang benar-benar menggerakkan perilaku model dalam sesi, melainkan hasil kompresi dari logika thinking
Dalam proses perubahan menjadi ringkasan, terjadi kehilangan data; teks sumber mengibaratkannya seperti informasi yang hilang saat format file dikonversi
Hal-hal yang perlu diperhatikan ketika membutuhkan catatan logika yang digunakan agen dalam sesi Claude Code
- Logika tersebut tidak dapat dihasilkan kembali hanya dari file lokal
- Log penalaran yang tersisa di sistem tidak berada dalam bentuk yang dapat diakses pengguna
- Input, output, dan tindakan Claude Code yang sedang berjalan dapat diambil dan dicatat secara terpisah
- Bahkan log semacam itu pun bukan penalaran yang benar-benar menggerakkan perilaku agen
Frasa dalam dokumentasi, “extended thinking returns a summary of Claude’s full thinking process”, bersifat tidak langsung sehingga bisa menimbulkan salah paham seolah-olah yang dikembalikan adalah full thinking yang sebenarnya

1 komentar

GN⁺ 4 jam lalu

Komentar Hacker News

Ini bukan hanya masalah Anthropic; hampir semua perusahaan AI besar termasuk OpenAI dan Google menyembunyikan proses penalaran model yang sebenarnya
Jika penalaran mentah dipublikasikan, cara AI memproses informasi akan terekspos apa adanya, dan perusahaan-perusahaan ini menghabiskan biaya R&D yang sangat besar untuk membangun proses berpikir yang lebih baik daripada pesaing
Membuka mekanisme berpikir itu ke pesaing akan meruntuhkan tujuan dari pengeluaran tersebut, jadi mereka tidak akan pernah melakukannya; itu mirip seperti memberi tahu posisi tepatmu kepada orang yang sedang mengejarmu
- Ini juga mirip dengan menyediakan informasi dunia dalam format yang dapat dibaca mesin, agar perusahaan AI bisa mengubahnya menjadi bobot model tanpa izin atau kompensasi
- Yang lebih utama, jika penalaran model dibuka, pesaing bisa melatih model mereka dari situ dan menyalin hasilnya
  Jika isinya diproses ulang menjadi sesuatu seperti ringkasan, maka itu jadi kurang berguna bagi pesaing
- Awalnya kupikir alasannya adalah karena “penalaran” tidak terlalu cocok dengan output model yang telah disejajarkan, sehingga selama penalaran alignment dilepas lalu disembunyikan agar output model yang “tidak disejajarkan” tidak terlihat
- Saat mengekspor data pribadi dari Google, semua respons model disembunyikan dan hanya pesan pengguna yang tersisa
  Jadi ini malah lebih buruk
- Namun untuk masalah yang kompleks, proses menuju jawabannya juga harus bisa ditinjau, jadi pendekatan ini membuat produk lebih buruk
Analogi bahwa “ini bukan pemikiran yang sebenarnya, melainkan ringkasan logika berpikir; seperti menyimpan jpeg sebagai .bmp, lalu mengedit .bmp dan menyajikannya lagi sebagai .jpeg. Ada kehilangan data dalam proses konversi” itu terbalik
.bmp adalah format lossless, sedangkan .jpeg adalah format lossy
Aku tidak berniat memakai ataupun merekomendasikan model dengan penalaran tersembunyi, dan semua model Amerika termasuk kategori ini
Risikonya terlalu besar dan optimisasi prompt juga jadi lebih sulit
Ini berbahaya karena penyerang bisa menanam tujuan rahasia ke dalam rantai penalaran lewat prompt injection, lalu menyembunyikannya dari ringkasan dan output
Jika penalaran bercampur dengan pemanggilan fungsi, itu jadi lebih berbahaya lagi, karena model bisa memanggil fungsi pada tahap penalaran tersembunyi
Kalau begitu, bahkan jika penyerang mengekfiltrasi data, ringkasan penalaran bisa menyembunyikannya dari pengguna
Selain itu, kita juga tidak bisa tahu apakah model terjebak dalam loop tak hingga selama penalaran dan membuang-buang token; Gemini punya kecenderungan seperti ini dan pernah terkonfirmasi saat penalaran tersembunyi bocor
Mungkin aku tak akan terlalu peduli saat model sudah menjadi AGI dan aman dari prompt injection, tapi sampai saat itu aku ingin tahu persis bagaimana model bereaksi terhadap prompt dan persis apa yang agen lakukan atas namaku
Bacaan tambahan: Fooling around with encrypted reasoning blobs
https://blog.cryptographyengineering.com/2026/05/29/fooling-...
- Kurasa pemanggilan alat tidak mungkin terjadi di dalam blok penalaran yang diobfuskasi
  Untuk mengevaluasi pemanggilan fungsi di sisi klien, pada akhirnya aliran pemikiran itu harus didekripsi di klien, dan kalau begitu tujuan obfuskasi itu sendiri hilang
  Jika maksudnya pemanggilan fungsi bisa terjadi di sisi server, maka selama memakai reasoning API tidak ada cara untuk mencegah server melakukan itu dan menyembunyikannya
- Aku pernah memikirkan pembajakan rantai penalaran sebagai vektor serangan potensial, tetapi kupahami para vendor utama membuang semua token penalaran antar-turn, jadi aku belum pernah melihat implementasi yang terbukti di model Amerika
- Agen yang kubuat ini tidak bisa dijalankan di shell dan hanya bisa mengedit file di dalam proyek
  Saat ini hanya berjalan di Rust: https://github.com/Kapperchino/agent-joe
- Walaupun penalaran disembunyikan, pemanggilan alat tidak disembunyikan
  Kalau tidak, bagaimana klien bisa mengeksekusinya
- Jika blok pemikiran tidak bisa melakukan pemanggilan alat, aku tidak terlalu melihat adanya risiko eksfiltrasi data
Ini sudah lama diketahui, dan perusahaan-perusahaan juga tidak benar-benar berusaha menyembunyikannya
Mereka melakukan itu agar pesaing tidak bisa melatih model dengan rantai pemikiran (CoT)
- Kurasa ini sudah ada sejak Opus 4.6
  Aku jelas ingat perubahan ini terjadi sekitar Januari atau Februari, dan alasannya secara eksplisit disebut sebagai pencegahan distilasi
  Sonnet tidak punya batasan ini
  Yang lucu, kalau kembali ke cara dua tahun lalu dan memasukkan prompt CoT secara eksplisit, seluruh prompt pemikiran akan muncul lagi
  Jadi kamu bisa mematikan fitur thinking sepenuhnya, lalu memasukkan pemikiran seperti berikut ke dalam prompt biasa
  “Sebelum menjawab, pikirkan langkah demi langkah. Misalnya:
  
  Pengguna sedang memintaku untuk …
  Aku harus memikirkan blah blah. Pertama aku harus foo the bar, lalu setelah itu aku harus blah blah
  
  Jawaban: ”
  
  Maka tada.wav, CoT kembali berfungsi seperti di era GPT-3
Kurasa blok penalaran rantai pemikiran tidak terlalu sesuai dengan penalaran sebagaimana manusia berpikir
Lihat saja pertanyaan yang diajukan oleh “penalaran yang sulit dibaca” di bagian 6.2.2 system card Fable/Mythos dan paper Apple “The illusion of thinking”
Kupikir blok penalaran ditutupi karena pengguna akan terkejut jika melihat apa yang sebenarnya terjadi di dalam
Kalau aku melihat apa yang benar-benar terjadi di dalam kepala rekan-rekanku, mungkin aku juga akan terkejut
- Poin tulisan ini bukan bahwa tahap “penalaran” LLM tidak sama dengan penalaran dalam pengertian manusia, melainkan bahwa Anthropic sengaja menyembunyikan output penalaran Claude untuk mempersulit distilasi model
- Tak terhitung berapa kali aku membaca rantai pemikiran DeepSeek atau GLM sambil berseru, “sebenarnya ini sedang memikirkan apa,” tetapi akhirnya tetap menuju jawaban yang benar
  Sebaliknya, ada juga kasus ketika sesuatu tidak muncul di jawaban akhir, tetapi di dalamnya ada ide yang berguna
Dulu pernah ada catatan kecil bahwa DeepSeek R1 membuat jejak pemikiran seperti ini
“(Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group occurs in reaction, Practisingproduct transition vs adds this.to productmodule. Indeed"come tally said Frederick would have 10 +1 =11 carbons. So answer q Edina is11.”
Lalu model itu menyimpulkan jawaban yang ‘benar’ untuk soal kimia
Kalau begitu, jejak pemikiran itu bagi pembaca bisa tampak seperti rangkaian karakter yang cukup tidak bermakna, dan saya masih belum yakin apakah ini kekhasan model tersebut atau sifat umum LLM
Saya pernah membicarakannya dengan penulisnya, tetapi karena makalahnya akan terbit di tempat seperti NIPS, saya lupa menindaklanjuti konfirmasinya; kalau ada yang menemukannya, akan bagus jika dibagikan
0: https://wiki.roshangeorge.dev/w/Blog/2025-10-12/Word_Magic#I...?
1: Sepertinya dalam arti keyakinan yang benar
- Betul, beberapa model memang berpikir dengan cara yang terdengar seperti jargon aneh
  Contoh jejak pemikiran Mythos saat bermain solitaire ada di sini: https://www.lesswrong.com/posts/wCSEpT3dTGz4N86Wi/even-illeg...
  
  “7♣-removal-IS-the-prerequisite-for-10♠/9♥!!)-⟹-OVERLAP-(ii)+(iv):-{6♠ J♦ 9♥ 2♣}-=-FOUR--—-UNLESS-7♣'s-seat-8♥-...-and-2♣-drains-only-at-crack-:-⟹-2♣-celled-+-9♥-celled-simultaneously-UNAVOIDABLE-in-t8-dig--—-BREAK:-9♥”
  
  Ini adalah tahap ketika model berhenti berpikir dalam bahasa Inggris dan menjadi sedikit lebih dekat ke neuralese internal di ruang vektor
  Karena tetap diserialisasikan menjadi teks, ini bukan neuralese yang sesungguhnya, tetapi arahnya memang ke sana
  Saat menulis kode, proses pikir internal saya juga sering punya tahap-tahap perantara yang sulit dituangkan dalam bahasa Inggris, jadi saya cukup bisa berempati dengan model-model itu
- Menurut saya itu mungkin cuma noise token dari implementasi yang rusak atau kuantisasi model
  Saya pernah melihat model memuntahkan omong kosong seperti itu, dan setiap kali penyebabnya adalah bug llama.cpp atau file .gguf yang rusak
Di HN antropomorfisasi memang tabu, tetapi tetap layak disebut bahwa ada juga orang yang melihat manusia melakukan rasionalisasi pasca hoc
https://www.patheos.com/blogs/tippling/2013/11/14/post-hoc-r...

https://www.researchgate.net/publication/316045349_Post_Hoc_...
- Pemahaman naif saya, ini adalah ketika setelah kita melakukan atau mengatakan sesuatu, kita lalu menempelkan narasi kepada diri sendiri tentang mengapa kita mengambil keputusan itu
  Kita berpikir secara nonverbal dulu, lalu setelahnya mengungkapkan alasan yang terdengar masuk akal dalam bahasa
  Saya kurang tahu apakah ini juga berlaku pada penulisan yang bersifat diskursif
  Saat menulis, pada dasarnya kita memakai aturan logika untuk menentukan arah narasi, jadi meskipun heuristik nonverbal masih bekerja, ia tetap dibatasi sehingga tampaknya tidak sepenuhnya pasca hoc
Agak pahit bahwa Anthropic menyembunyikan datanya sendiri seperti itu, sambil menyedot semua data kalian dan banyak orang dengan sukarela menyerahkannya
Lalu mereka membuat produk dari situ, menggerus pasar, dan bersaing
Anthropic menyembunyikannya karena percaya token penalaran mereka adalah moat dan memberi keuntungan terhadap lab lain
Kalau mereka benar-benar percaya itu adalah keunggulan mereka, akan ada kejutan yang menanti
- Setahu saya, produk yang dibuat Anthropic hanya Claude, Claude Code, dan Claude API, dan semuanya jelas adalah produk Anthropic sendiri, bukan sesuatu yang Anda ciptakan
  Saya penasaran produk apa tepatnya yang Anda klaim mereka “sedot”
- Mungkin bukan karena orang-orang menyerahkannya dengan sukarela, melainkan karena mereka mudah tertipu dan naif
Jadi maksudnya isi reasoning_summary itu memang ringkasan?
Sebagai catatan, OpenAI juga melakukan hal yang sama, jadi ini tidak terlalu mengejutkan atau sangat jahat
- Tidak jahat, tapi penuh kecongkakan
Mereka berusaha keras menyembunyikan pemikiran seperti ini, tetapi Opus 4.8 mulai membocorkannya sendiri setelah 100 ribu~200 ribu token
Benar-benar komedi
- Saya baru mengalaminya beberapa kali, tetapi hasilnya benar-benar membingungkan
  Terutama karena biasanya saya sedang menjailbreak untuk tujuan keamanan, jadi makin begitu
  Beberapa halaman berisi kalimat seperti, “Pengguna meminta sesuatu yang terkait dengan keamanan siber, dan ini bisa dengan mudah dialihkan ke penggunaan ofensif, jadi saya harus berhati-hati,” lalu pada akhirnya ia tetap dengan senang hati memberikan apa yang saya inginkan

Teks keluaran “Extended Thinking” Claude Code bukan penalaran yang sebenarnya

Yang tersisa di log lokal bukan teks asli penalaran

Batasan keluaran Extended Thinking

Bacaan terkait

1 komentar

Komentar Hacker News