Skill token-router lossless yang menghemat 99% biaya token Codex dan Claude Code dengan model Gemma4 2b sebagai router lokal

(github.com/sleeplesshan)

30 poin oleh sleeplesshan 2026-06-17 | 2 komentar | Bagikan ke WhatsApp

Halo,

Saya ingin membagikan skill yang saya buat untuk Anda yang sering memanfaatkan AI agent seperti Claude Code atau Codex untuk menganalisis log berukuran besar atau memperbaiki kode legacy, dan kerap khawatir dengan biaya token serta latensi yang melonjak dalam sekejap.

Ini adalah token-router, hybrid context router untuk menangani file besar dengan pendekatan "eksplorasi gratis secara lokal, inferensi berperforma tinggi di cloud".

🛑 Masalah apa yang diselesaikan?

Jika log deployment infrastruktur yang panjangnya lebih dari 2.000 baris atau file source code yang sangat besar dimasukkan mentah-mentah ke cloud LLM, token input akan terbuang sangat banyak dan waktu tunggunya juga menjadi panjang.

Untuk menghematnya, kadang orang merangkum kode terlebih dulu dengan model kecil, tetapi cara ini berisiko. Begitu satu baris error atau definisi variabel terlewat, cloud AI kehilangan konteks dan bisa menghasilkan jawaban salah yang melenceng.

Selain itu, pada versi terbaru, target routing juga diperluas ke file instruksi agent statis yang panjang dan terus menempel di setiap turn seperti CLAUDE.md, AGENTS.md, dan .cursorrules. Namun, karena biaya token dari file root panjang yang sudah otomatis disuntikkan tidak bisa dikurangi setelahnya, saya merekomendasikan agar file instruksi root tetap pendek, lalu aturan panjang per tugas dipisahkan ke file referensi terpisah dan dirouting hanya saat diperlukan.

🧠 Bagaimana cara kerjanya? (dari sudut pandang pengguna)

Tool ini tidak merangkum teks, melainkan memotong hanya bagian asli yang diperlukan secara ketat.

Local Triage: Berjalan di komputer saya melalui Ollama dengan model Gemma 4 2B yang ringan. Model lokal ini hanya mencari nomor baris (koordinat) yang tepat sesuai pertanyaan pengguna dengan cepat.
Raw Slicing: Skrip Python memotong potongan teks bersih dari disk berdasarkan nomor baris tersebut, persis seperti aslinya.
Reasoning: Model cloud utama hanya menerima potongan teks asli berdensitas tinggi yang sudah dibersihkan dari noise serta peta struktur file, sehingga bisa fokus penuh pada debugging dan penulisan kode.

Karena yang dikirim adalah teks asli tanpa olahan, kemampuan penalaran model cloud bisa dimanfaatkan 100% sambil menekan biaya secara drastis.

Saat ini mendukung tiga mode: error_log, heavy_code, dan agent_context. agent_context adalah mode untuk mengambil hanya baris asli yang relevan dengan tugas saat ini dari dokumen referensi instruksi agent seperti CLAUDE.md, AGENTS.md, GEMINI.md, .cursorrules, dan agent-context/*.md.

📊 Hasil pengujian di PC saya

Log infrastruktur besar (2.000 baris): konteks input turun dari 41.711 token menjadi 131 token (hemat 99,69%, waktu proses 5,37 detik).
Source code bug legacy (2.155 baris): dari semula 7.520 token menjadi hanya 70 token saat dikirim (hemat 99,06%, waktu proses 4,46 detik).

🛠️ Hal-hal yang terasa nyaman saat dipakai di pekerjaan nyata

Mencegah PC tersendat: Anda mungkin khawatir komputer akan melambat saat memakai AI lokal. Tool ini langsung melepaskan model lokal dari memori VRAM tepat setelah ekstraksi koordinat routing selesai.
Perluasan konteks mundur yang cerdas: Jika potongan kode yang diambil terlalu sempit sehingga dependensi sebelum dan sesudahnya sulit dipahami, cloud AI tidak akan asal menebak, melainkan sudah dibekali prompt safeguard untuk meminta balik ke skrip agar "memotong ulang dengan cakupan yang lebih luas".
Streaming file besar: Walaupun file terlalu besar hingga melampaui kapasitas memori model lokal, logika streaming di backend akan otomatis memindai keyword dan bagian akhir file lebih dulu, sehingga tetap aman.
Dukungan Claude Code: Versi terbaru juga menyertakan bootstrap CLAUDE.md compact untuk Claude Code. Instruksi panjang khusus Claude bisa disimpan sebagai file referensi terpisah lalu digunakan dengan routing melalui agent_context.

Dirilis sepenuhnya gratis di bawah lisensi MIT, dan bisa langsung didaftarkan untuk digunakan sebagai skrip mandiri atau dalam bentuk skill OpenAI Codex. Di Claude Code, Anda juga bisa memanggil skrip router yang sama dengan merujuk pada bootstrap CLAUDE.md. Semoga ini membantu produktivitas pengembangan bagi Anda yang sering menangani debugging log besar atau kode yang berat.

Saya akan sangat berterima kasih atas berbagai masukan dan pendapat tentang arsitektur maupun optimasi prompt!

2 komentar

hshim 2026-06-17

Skill yang bagus, saya sudah mencobanya sebentar.
Saat membuat JSON untuk dilempar dari Python, kadang ada kasus yang memunculkan error karena melanggar sintaks JSON; ketika saya ganti ke 4b atau qwen2.5-coder:7b, tingkat errornya berkurang secara signifikan.

sleeplesshan 2026-06-17

Oh, terima kasih banyak sudah langsung mengujinya begitu saya unggah, dan bahkan meninggalkan umpan balik perbandingan yang spesifik berdasarkan kelas model!
Seperti yang Anda sampaikan, model ultra-kecil kelas 2B tampaknya memang kadang memiliki keterbatasan: di lingkungan yang bercampur log kompleks atau karakter khusus, model itu bisa melanggar batasan system prompt dan menghasilkan JSON yang tidak sesuai sintaks. Jika sumber daya VRAM Anda cukup longgar, tampaknya keluarga Qwen 2.5 Coder 7B atau Gemma 4B memang jauh lebih stabil dalam menghasilkan koordinat routing.
Kalau pengguna lain juga mengalami kesalahan sintaks JSON saat menguji, Anda bisa mencoba menjalankannya dengan mengganti ke model yang lebih besar melalui pengaturan environment variable seperti berikut agar pemanfaatannya lebih membantu.
OLLAMA_MODEL=qwen2.5-coder:7b python3 scripts/router.py ...
Terima kasih telah membagikan masukan benchmark lapangan yang sangat berharga.