cgrep: Alat pencarian intent kode lokal untuk agen coding AI
(github.com/meghendra6)Halo. Saya membuat alat pencarian kode local-first (code-local) bernama cgrep.
Tujuan utamanya adalah mengurangi pemborosan token dan pencarian berulang yang terjadi saat agen coding AI menjelajahi codebase.
cgrep menggabungkan pencarian BM25 (Tantivy) + analisis simbol AST (tree-sitter), dan dirancang agar penelusuran lebih sesuai dengan intent kode dibanding pencarian string sederhana.
Fitur utama:
- Penelusuran kode: definition / references / callers / dependents
- Penelusuran konteks: read / map
- Alur 2 tahap agen:
agent locate -> agent expand(mencari kandidat dengan payload kecil lalu memperluas hanya yang diperlukan) - Dukungan MCP:
cgrep mcp serve+ dukungan instalasi host - Dukungan instalasi agen: claude-code, codex, copilot, cursor, opencode
Benchmark berbasis PyTorch (6 skenario pelacakan implementasi):
- tokens-to-complete berbasis grep: 127,665
- tokens-to-complete cgrep (agent locate/expand): 6,153
- Pengurangan token 95.2% (20.75x lebih kecil)
- Rata-rata latensi pencarian hingga selesai: 1321.3ms -> 22.7ms (sekitar 58.2x)
Semua pemrosesan berjalan secara lokal (tanpa ketergantungan pada indeks cloud).
Mohon masukannya:
- Kekurangan pada codebase besar di dunia nyata
- Peningkatan yang dibutuhkan untuk integrasi MCP/agen
- Ide untuk memperkuat skenario benchmark
Repo: https://github.com/meghendra6/cgrep
Docs: https://meghendra6.github.io/cgrep/
Benchmark: https://meghendra6.github.io/cgrep/benchmarks/…
4 komentar
Sepertinya tujuannya mirip dengan mgrep atau alat ck.
Saat mencoba menjalankan binary rilis di macOS berdasarkan v1.4.1, muncul peringatan dan tidak bisa dijalankan.
Saya juga merasa akan bagus jika ada skills atau instruction yang bisa dirujuk oleh agent, seperti pada contoh agent-browser.
Ada masalah pada tanda tangan biner, jadi sudah saya perbaiki.
Silakan cek, dan terima kasih atas peninjauan serta ulasannya!
Efek pengurangan tokennya memang sangat bagus. Kalau hasil benchmark terkait coding juga disertakan di README, rasanya tingkat kepercayaannya akan makin naik meskipun performa benchmarknya tetap terjaga di level yang mirip.
Sesuai masukan yang diberikan, saya juga telah menambahkan hasil benchmark untuk skenario real coding agent.
Terima kasih atas masukannya!