1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Claude Code merekam sesi ke disk, tetapi thinking block di log lokal hanya menyisakan signature sepanjang 600 karakter alih-alih teks penalaran yang sebenarnya
  • Penalaran Claude dienkripsi sebagai signature, dan kuncinya dipegang oleh Anthropic serta tidak dikirim ke perangkat pengguna
  • Nilai yang dikembalikan API bukan teks asli penalaran, melainkan ringkasan penalaran, dan untuk mendapatkan seluruh thinking output diperlukan enterprise agreement
  • Keluaran extended-thinking yang dilihat dengan ctrl+o juga hanya merupakan ringkasan proses berpikir Fable/Opus, bukan penalaran itu sendiri yang secara langsung menggerakkan perilaku model dalam sesi
  • Jika sesi Claude Code ingin digunakan sebagai jejak audit, harus diasumsikan bahwa logika nyata agen tidak bisa direkonstruksi hanya dari file lokal, input-output, dan log tindakan

Yang tersisa di log lokal bukan teks asli penalaran

  • Claude Code merekam setiap sesi ke disk, dan log tersebut mencakup thinking blocks saat model bekerja
  • Ketika penalaran itu diperiksa secara lokal, tidak ditemukan teks sebenarnya dan hanya terlihat signature sepanjang 600 karakter
  • Dokumentasi extended thinking dari Anthropic menjelaskan struktur ini sebagai berikut
    • Claude mengenkripsi penalaran ke dalam signature tersebut
    • Kuncinya dipegang oleh Anthropic
    • Perangkat pengguna tidak menerima kunci itu
    • API mengembalikan reasoning summary, bukan penalaran itu sendiri
    • Untuk memperoleh seluruh thinking output, diperlukan enterprise agreement
  • Tulisan Matt Green membahas pengamatan yang lebih rinci tentang signature block

Batasan keluaran Extended Thinking

  • Keluaran extended-thinking yang terlihat di ctrl+o pada Claude Code adalah ringkasan dari thinking Fable/Opus
  • Keluaran ini bukan thinking itu sendiri yang benar-benar menggerakkan perilaku model dalam sesi, melainkan hasil kompresi dari logika thinking
  • Dalam proses perubahan menjadi ringkasan, terjadi kehilangan data; teks sumber mengibaratkannya seperti informasi yang hilang saat format file dikonversi
  • Hal-hal yang perlu diperhatikan ketika membutuhkan catatan logika yang digunakan agen dalam sesi Claude Code
    • Logika tersebut tidak dapat dihasilkan kembali hanya dari file lokal
    • Log penalaran yang tersisa di sistem tidak berada dalam bentuk yang dapat diakses pengguna
    • Input, output, dan tindakan Claude Code yang sedang berjalan dapat diambil dan dicatat secara terpisah
    • Bahkan log semacam itu pun bukan penalaran yang benar-benar menggerakkan perilaku agen
  • Frasa dalam dokumentasi, “extended thinking returns a summary of Claude’s full thinking process”, bersifat tidak langsung sehingga bisa menimbulkan salah paham seolah-olah yang dikembalikan adalah full thinking yang sebenarnya

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Ini bukan hanya masalah Anthropic; hampir semua perusahaan AI besar termasuk OpenAI dan Google menyembunyikan proses penalaran model yang sebenarnya
    Jika penalaran mentah dipublikasikan, cara AI memproses informasi akan terekspos apa adanya, dan perusahaan-perusahaan ini menghabiskan biaya R&D yang sangat besar untuk membangun proses berpikir yang lebih baik daripada pesaing
    Membuka mekanisme berpikir itu ke pesaing akan meruntuhkan tujuan dari pengeluaran tersebut, jadi mereka tidak akan pernah melakukannya; itu mirip seperti memberi tahu posisi tepatmu kepada orang yang sedang mengejarmu

    • Ini juga mirip dengan menyediakan informasi dunia dalam format yang dapat dibaca mesin, agar perusahaan AI bisa mengubahnya menjadi bobot model tanpa izin atau kompensasi
    • Yang lebih utama, jika penalaran model dibuka, pesaing bisa melatih model mereka dari situ dan menyalin hasilnya
      Jika isinya diproses ulang menjadi sesuatu seperti ringkasan, maka itu jadi kurang berguna bagi pesaing
    • Awalnya kupikir alasannya adalah karena “penalaran” tidak terlalu cocok dengan output model yang telah disejajarkan, sehingga selama penalaran alignment dilepas lalu disembunyikan agar output model yang “tidak disejajarkan” tidak terlihat
    • Saat mengekspor data pribadi dari Google, semua respons model disembunyikan dan hanya pesan pengguna yang tersisa
      Jadi ini malah lebih buruk
    • Namun untuk masalah yang kompleks, proses menuju jawabannya juga harus bisa ditinjau, jadi pendekatan ini membuat produk lebih buruk
  • Analogi bahwa “ini bukan pemikiran yang sebenarnya, melainkan ringkasan logika berpikir; seperti menyimpan jpeg sebagai .bmp, lalu mengedit .bmp dan menyajikannya lagi sebagai .jpeg. Ada kehilangan data dalam proses konversi” itu terbalik
    .bmp adalah format lossless, sedangkan .jpeg adalah format lossy

  • Aku tidak berniat memakai ataupun merekomendasikan model dengan penalaran tersembunyi, dan semua model Amerika termasuk kategori ini
    Risikonya terlalu besar dan optimisasi prompt juga jadi lebih sulit
    Ini berbahaya karena penyerang bisa menanam tujuan rahasia ke dalam rantai penalaran lewat prompt injection, lalu menyembunyikannya dari ringkasan dan output
    Jika penalaran bercampur dengan pemanggilan fungsi, itu jadi lebih berbahaya lagi, karena model bisa memanggil fungsi pada tahap penalaran tersembunyi
    Kalau begitu, bahkan jika penyerang mengekfiltrasi data, ringkasan penalaran bisa menyembunyikannya dari pengguna
    Selain itu, kita juga tidak bisa tahu apakah model terjebak dalam loop tak hingga selama penalaran dan membuang-buang token; Gemini punya kecenderungan seperti ini dan pernah terkonfirmasi saat penalaran tersembunyi bocor
    Mungkin aku tak akan terlalu peduli saat model sudah menjadi AGI dan aman dari prompt injection, tapi sampai saat itu aku ingin tahu persis bagaimana model bereaksi terhadap prompt dan persis apa yang agen lakukan atas namaku
    Bacaan tambahan: Fooling around with encrypted reasoning blobs
    https://blog.cryptographyengineering.com/2026/05/29/fooling-...

    • Kurasa pemanggilan alat tidak mungkin terjadi di dalam blok penalaran yang diobfuskasi
      Untuk mengevaluasi pemanggilan fungsi di sisi klien, pada akhirnya aliran pemikiran itu harus didekripsi di klien, dan kalau begitu tujuan obfuskasi itu sendiri hilang
      Jika maksudnya pemanggilan fungsi bisa terjadi di sisi server, maka selama memakai reasoning API tidak ada cara untuk mencegah server melakukan itu dan menyembunyikannya
    • Aku pernah memikirkan pembajakan rantai penalaran sebagai vektor serangan potensial, tetapi kupahami para vendor utama membuang semua token penalaran antar-turn, jadi aku belum pernah melihat implementasi yang terbukti di model Amerika
    • Agen yang kubuat ini tidak bisa dijalankan di shell dan hanya bisa mengedit file di dalam proyek
      Saat ini hanya berjalan di Rust: https://github.com/Kapperchino/agent-joe
    • Walaupun penalaran disembunyikan, pemanggilan alat tidak disembunyikan
      Kalau tidak, bagaimana klien bisa mengeksekusinya
    • Jika blok pemikiran tidak bisa melakukan pemanggilan alat, aku tidak terlalu melihat adanya risiko eksfiltrasi data
  • Ini sudah lama diketahui, dan perusahaan-perusahaan juga tidak benar-benar berusaha menyembunyikannya
    Mereka melakukan itu agar pesaing tidak bisa melatih model dengan rantai pemikiran (CoT)

    • Kurasa ini sudah ada sejak Opus 4.6
      Aku jelas ingat perubahan ini terjadi sekitar Januari atau Februari, dan alasannya secara eksplisit disebut sebagai pencegahan distilasi
      Sonnet tidak punya batasan ini
      Yang lucu, kalau kembali ke cara dua tahun lalu dan memasukkan prompt CoT secara eksplisit, seluruh prompt pemikiran akan muncul lagi
      Jadi kamu bisa mematikan fitur thinking sepenuhnya, lalu memasukkan pemikiran seperti berikut ke dalam prompt biasa
      “Sebelum menjawab, pikirkan langkah demi langkah. Misalnya:

      Pengguna sedang memintaku untuk …
      Aku harus memikirkan blah blah. Pertama aku harus foo the bar, lalu setelah itu aku harus blah blah

      Jawaban: ”

      Maka tada.wav, CoT kembali berfungsi seperti di era GPT-3

  • Kurasa blok penalaran rantai pemikiran tidak terlalu sesuai dengan penalaran sebagaimana manusia berpikir
    Lihat saja pertanyaan yang diajukan oleh “penalaran yang sulit dibaca” di bagian 6.2.2 system card Fable/Mythos dan paper Apple “The illusion of thinking”
    Kupikir blok penalaran ditutupi karena pengguna akan terkejut jika melihat apa yang sebenarnya terjadi di dalam
    Kalau aku melihat apa yang benar-benar terjadi di dalam kepala rekan-rekanku, mungkin aku juga akan terkejut

    • Poin tulisan ini bukan bahwa tahap “penalaran” LLM tidak sama dengan penalaran dalam pengertian manusia, melainkan bahwa Anthropic sengaja menyembunyikan output penalaran Claude untuk mempersulit distilasi model
    • Tak terhitung berapa kali aku membaca rantai pemikiran DeepSeek atau GLM sambil berseru, “sebenarnya ini sedang memikirkan apa,” tetapi akhirnya tetap menuju jawaban yang benar
      Sebaliknya, ada juga kasus ketika sesuatu tidak muncul di jawaban akhir, tetapi di dalamnya ada ide yang berguna
  • Dulu pernah ada catatan kecil bahwa DeepSeek R1 membuat jejak pemikiran seperti ini
    “(Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group occurs in reaction, Practisingproduct transition vs adds this.to productmodule. Indeed"come tally said Frederick would have 10 +1 =11 carbons. So answer q Edina is11.”
    Lalu model itu menyimpulkan jawaban yang ‘benar’ untuk soal kimia
    Kalau begitu, jejak pemikiran itu bagi pembaca bisa tampak seperti rangkaian karakter yang cukup tidak bermakna, dan saya masih belum yakin apakah ini kekhasan model tersebut atau sifat umum LLM
    Saya pernah membicarakannya dengan penulisnya, tetapi karena makalahnya akan terbit di tempat seperti NIPS, saya lupa menindaklanjuti konfirmasinya; kalau ada yang menemukannya, akan bagus jika dibagikan
    0: https://wiki.roshangeorge.dev/w/Blog/2025-10-12/Word_Magic#I...?
    1: Sepertinya dalam arti keyakinan yang benar

    • Betul, beberapa model memang berpikir dengan cara yang terdengar seperti jargon aneh
      Contoh jejak pemikiran Mythos saat bermain solitaire ada di sini: https://www.lesswrong.com/posts/wCSEpT3dTGz4N86Wi/even-illeg...

      “7♣-removal-IS-the-prerequisite-for-10♠/9♥!!)-⟹-OVERLAP-(ii)+(iv):-{6♠ J♦ 9♥ 2♣}-=-FOUR--—-UNLESS-7♣'s-seat-8♥-...-and-2♣-drains-only-at-crack-:-⟹-2♣-celled-+-9♥-celled-simultaneously-UNAVOIDABLE-in-t8-dig--—-BREAK:-9♥”

      Ini adalah tahap ketika model berhenti berpikir dalam bahasa Inggris dan menjadi sedikit lebih dekat ke neuralese internal di ruang vektor
      Karena tetap diserialisasikan menjadi teks, ini bukan neuralese yang sesungguhnya, tetapi arahnya memang ke sana
      Saat menulis kode, proses pikir internal saya juga sering punya tahap-tahap perantara yang sulit dituangkan dalam bahasa Inggris, jadi saya cukup bisa berempati dengan model-model itu

    • Menurut saya itu mungkin cuma noise token dari implementasi yang rusak atau kuantisasi model
      Saya pernah melihat model memuntahkan omong kosong seperti itu, dan setiap kali penyebabnya adalah bug llama.cpp atau file .gguf yang rusak

  • Di HN antropomorfisasi memang tabu, tetapi tetap layak disebut bahwa ada juga orang yang melihat manusia melakukan rasionalisasi pasca hoc
    https://www.patheos.com/blogs/tippling/2013/11/14/post-hoc-r...

    https://www.researchgate.net/publication/316045349_Post_Hoc_...

    • Pemahaman naif saya, ini adalah ketika setelah kita melakukan atau mengatakan sesuatu, kita lalu menempelkan narasi kepada diri sendiri tentang mengapa kita mengambil keputusan itu
      Kita berpikir secara nonverbal dulu, lalu setelahnya mengungkapkan alasan yang terdengar masuk akal dalam bahasa
      Saya kurang tahu apakah ini juga berlaku pada penulisan yang bersifat diskursif
      Saat menulis, pada dasarnya kita memakai aturan logika untuk menentukan arah narasi, jadi meskipun heuristik nonverbal masih bekerja, ia tetap dibatasi sehingga tampaknya tidak sepenuhnya pasca hoc
  • Agak pahit bahwa Anthropic menyembunyikan datanya sendiri seperti itu, sambil menyedot semua data kalian dan banyak orang dengan sukarela menyerahkannya
    Lalu mereka membuat produk dari situ, menggerus pasar, dan bersaing
    Anthropic menyembunyikannya karena percaya token penalaran mereka adalah moat dan memberi keuntungan terhadap lab lain
    Kalau mereka benar-benar percaya itu adalah keunggulan mereka, akan ada kejutan yang menanti

    • Setahu saya, produk yang dibuat Anthropic hanya Claude, Claude Code, dan Claude API, dan semuanya jelas adalah produk Anthropic sendiri, bukan sesuatu yang Anda ciptakan
      Saya penasaran produk apa tepatnya yang Anda klaim mereka “sedot”
    • Mungkin bukan karena orang-orang menyerahkannya dengan sukarela, melainkan karena mereka mudah tertipu dan naif
  • Jadi maksudnya isi reasoning_summary itu memang ringkasan?
    Sebagai catatan, OpenAI juga melakukan hal yang sama, jadi ini tidak terlalu mengejutkan atau sangat jahat

    • Tidak jahat, tapi penuh kecongkakan
  • Mereka berusaha keras menyembunyikan pemikiran seperti ini, tetapi Opus 4.8 mulai membocorkannya sendiri setelah 100 ribu~200 ribu token
    Benar-benar komedi

    • Saya baru mengalaminya beberapa kali, tetapi hasilnya benar-benar membingungkan
      Terutama karena biasanya saya sedang menjailbreak untuk tujuan keamanan, jadi makin begitu
      Beberapa halaman berisi kalimat seperti, “Pengguna meminta sesuatu yang terkait dengan keamanan siber, dan ini bisa dengan mudah dialihkan ke penggunaan ofensif, jadi saya harus berhati-hati,” lalu pada akhirnya ia tetap dengan senang hati memberikan apa yang saya inginkan