1 poin oleh theoverstructure 5 jam lalu | 3 komentar | Bagikan ke WhatsApp

Saya membuat Agent-Blackbox, yang merekam eksekusi Claude Code / OpenCode secara lokal dan menampilkannya dengan peta sesi serta skor efisiensi konteks.

Ada penelitian yang menunjukkan bahwa ketika AI ditanya, “Menurutmu tugas ini akan menghabiskan berapa banyak token?”, korelasinya dengan biaya aktual hanya sebesar 0,39.

https://arxiv.org/abs/2604.22750

Saat menjalankan Claude Code atau OpenCode dalam waktu lama, ini terasa seperti masalah yang cukup nyata. Ringkasan akhirnya memang terlihat meyakinkan, tetapi kenyataannya sulit untuk menelusuri file apa yang benar-benar dibaca, perintah mana yang gagal, dan di bagian mana token paling banyak terpakai.

Alih-alih mem-parsing ringkasan akhir agen, Agent-Blackbox merekam event yang benar-benar terjadi.

  • pembacaan / modifikasi file
  • eksekusi bash dan kode keluarnya
  • pencarian
  • pembaruan todo
  • permintaan izin
  • delegasi ke sub-agen, penggunaan skill
  • alur penggunaan model / token
  • alur perbaikan / percobaan ulang setelah kegagalan, dll.

Bisa langsung dijalankan dengan npx tanpa instalasi.

Perekaman Claude Code:
npx @taewooopark/agent-blackbox up --host claude-code

Perekaman OpenCode:
npx @taewooopark/agent-blackbox up --host opencode

Merekam keduanya:
npx @taewooopark/agent-blackbox up --host all

Claude Code melakukan tail pada transcript ~/.claude/projects tanpa instalasi tambahan. OpenCode menerima event melalui plugin global. Perekaman dasar dan dashboard berjalan secara lokal, dan tidak memerlukan API key.

Analisis efisiensi konteks juga disertakan. Misalnya, ia dapat menangkap hal-hal seperti berikut.

  • membaca ulang file yang sama berulang kali
  • membaca terlalu banyak file dibanding jumlah modifikasi
  • output command/tool yang besar memakan banyak konteks
  • mengulang perintah yang gagal tanpa memperbaiki penyebabnya
  • token yang dipakai banyak tetapi perubahan aktual sedikit
  • pemanfaatan prompt cache rendah

Karena ditampilkan sampai ke nama file atau unit perintah yang bermasalah, Anda bisa melihat dengan cukup spesifik apa yang sebaiknya dikurangi pada eksekusi berikutnya. Secara opsional, pemborosan yang ditemukan juga bisa dicatat sebagai blok terkelola di AGENTS.md atau CLAUDE.md, sehingga eksekusi berikutnya lebih kecil kemungkinannya mengulangi kesalahan yang sama.

Dalam satu kasus ketika saya menjalankan ulang tugas yang sama dengan model yang sama, penggunaan token turun dari 939k -> 521k, dan skor efisiensi naik dari 80 -> 99. Ini bukan benchmark yang sudah tervalidasi berulang kali; anggap saja sebagai contoh bahwa “cara memasukkan pemborosan yang teramati pada eksekusi nyata ke loop berikutnya” memang memungkinkan.

Ini sangat cocok terutama dengan harness multi-agen seperti oh-my-openagent atau oh-my-claudecode. Semakin panjang eksekusinya, semakin sulit untuk memeriksa secara visual siapa menyentuh file apa dan di mana pengulangan terjadi.

GitHub:
https://github.com/TaewoooPark/Agent-Blackbox

npm:
https://www.npmjs.com/package/@taewooopark/agent-blackbox

Silakan dicoba, dan jika ada event yang ingin lebih ditampilkan di peta sesi, metrik efisiensi, atau alur instalasi yang terasa kurang nyaman, saya akan sangat menghargai masukan Anda. Terima kasih!

3 komentar

 
turtlehwan 1 jam lalu

Wah, ini benar-benar menarik! Sepertinya ide yang bagus.

 
theoverstructure 1 jam lalu

Terima kasih! Kami juga sudah memoles UI-nya dengan cukup keren, jadi sepertinya Anda akan merasa lebih menarik lagi saat mencobanya. Terima kasih banyak atas kata-kata baiknya!!

 
theoverstructure 5 jam lalu

Saya membuat ini karena terutama saat menjalankan Claude Code/OpenCode yang panjang atau pekerjaan multi-agent, saya ingin bisa langsung melihat file mana yang berulang kali dibaca / perintah mana yang gagal / dan di mana token banyak terbuang. Karena ini masih saya kembangkan sendiri, masih banyak kekurangannya. Silakan coba, dan saya akan sangat berterima kasih jika Anda memberi masukan seperti “akan lebih baik kalau event ini juga ditampilkan”, “metrik efisiensi ini agak kurang jelas”, atau “alur instalasi/eksekusinya kurang nyaman”!!