Plug-in untuk mendelegasikan pembuatan kode berat di Claude Code / Codex CLI ke LLM lokal (tunaLlama)

(github.com/hang-in)

4 poin oleh kurthong 2026-05-16 | Belum ada komentar. | Bagikan ke WhatsApp

Ini adalah alat delegasi yang dibuat untuk orang-orang yang kuota paket tetap Claude Code atau Codex CLI-nya cepat habis saat vibe coding.

https://github.com/hang-in/tunaLlama

Saat coding dengan Claude Code, tahap dengan output panjang (pembuatan kode, review file, refaktor) paling banyak memakan token. Namun tahap ini biasanya deterministik dan perbedaan kualitas modelnya kecil. Sebaliknya, dekomposisi (kebutuhan → daftar tugas) dan verifikasi (apakah hasil yang dikembalikan memenuhi kebutuhan) memiliki input/output yang pendek, tetapi perbedaan kualitas modelnya besar.

tunaLlama adalah backend + plug-in yang mengukuhkan asimetri ini langsung ke alur kode.

PeranModelTanggung jawabArchitectClaude / Codex (paket tetap)Dekomposisi / spesifikasi / verifikasi / integrasiDeveloperLLM lokal (Ollama / Cloud / LM Studio)Pembuatan kode / review mandiri / perbaikan mandiriReviewerSesi yang sama seperti ArchitectPenilaian akhir

Hanya tahap yang berat tokennya yang dialihkan ke lokal, sementara tahap dekomposisi dan verifikasi yang pendek tetap berada di Claude / Codex.

Claude Code dan Codex CLI sama-sama bisa memakai alat eksternal lewat plug-in.
Setelah dipasang sekali, agen akan memanggilnya sendiri saat merasa perlu ketika bekerja.
Pengguna tidak perlu setiap kali berkata, "pakai alat ini". tunaLlama adalah salah satu jenis plug-in tersebut, yang mengekspos 13 alat melalui server MCP (Model Context Protocol).
Satu repo yang sama bekerja untuk Claude Code maupun Codex CLI.
(File claude-plugin/marketplace.json dikenali oleh kedua klien.)

Saat pengguna meminta pekerjaan (bahasa Korea / Inggris)

Architect memecah pekerjaan - jika singkat pakai tuna_dev_review, jika panjang tulis dokumen spec lalu pakai tuna_dev_review_from_spec
Backend mengulangi loop generate → review → fix (bounded delegation - kondisi berhenti adalah review pass atau max iter)
Semua pemanggilan dicatat ke SQLite dan diindeks dengan penganalisis morfologi bahasa Korea (Kiwi)
Architect memverifikasi hasil lalu mengembalikannya ke pengguna

Saat menjalankan LLM lokal mid-size sendirian vs setelah Architect merapikan konteks dan meneruskannya, perbandingannya menunjukkan +0.58 ~ +0.64 (validasi 3 model, Phase 7-2). Artinya, meski LLM lokalnya sama, hasilnya membaik secara bermakna jika konteks dirapikan dengan baik sebelum diteruskan.
Namun pengukuran ini berbasis seed sintetis. Karena diukur pada test set yang dibuat lebih dulu dari skenario pekerjaan yang sering muncul di dunia nyata, belum tentu hasil yang sama akan muncul persis dalam workflow pengguna sebenarnya. Metric organic dogfooding mulai v0.5.7+ secara otomatis memuat 4 jenis (standalone_toy_rate / convention_adherence_rate / ast_excess_score / syntactically_valid) ke ~/.tunallama/metrics.db, dan reproduksibilitas pengguna eksternal hingga baseline kumulatif masih terus dikumpulkan.

Untuk penghematan kuota, karena rumus perhitungan kuota Anthropic / OpenAI tidak dipublikasikan, tidak ada hasil kuantitatif seperti "hemat X%". Intinya, "lebih baik daripada dipakai begitu saja".

Dukungan bahasa Korea

Dengan memasang penganalisis morfologi Kiwi, pengindeksan pencarian bahasa Korea dimungkinkan. Untuk input tanpa spasi seperti "imeil geomjeung", pencarian dengan "imeil" tetap bisa cocok. Ini melengkapi keterbatasan tokenizer unicode61 milik FTS5 yang hanya memotong bahasa Korea menjadi suku kata / jamo. Namun, kata baru / istilah teknis yang tidak bisa diproses Kiwi dapat memengaruhi kualitas pencarian.

Instalasi 5 menit

Cukup kirim satu baris ini di sesi:

"Tolong instal dengan mengikuti INSTALL.md dari https://github.com/hang-in/tunaLlama";

Agen akan memasang dependensi, mengatur .env, mendaftarkan plug-in, dan melakukan verifikasi langkah demi langkah secara otomatis.
Jika ingin instalasi manual, lihat README.

Matriks operasi di kedua lingkungan

Claude Code dan Codex CLI bekerja dengan repo yang sama, tetapi beberapa fungsi baru diverifikasi di salah satu sisi saja (pengukuran aktual v0.5.6, Claude Code 2.1.138 + Codex CLI 0.128.0):

ItemClaude CodeCodex CLIPemanggilan 13 alat MCP✓✓
Berbagi DB (~/.tunallama/memory.db)✓✓
Berbagi state.md✓✓
Pemanggilan eksplisit tuna_load_memory / tuna_recall✓✓
Agents auto-discovery✓
SessionStart hook + state.md auto-prepend✓
(v0.5.5+)✗MCP resource auto-attach✗✗
Di Claude Code, state.md auto-prepend berjalan otomatis,
dan di Codex CLI, pengguna disarankan memanggil tuna_load_memory secara eksplisit pada turn pertama atau mengambil docs secara langsung.
Karena pemanggilan 13 alat MCP bekerja normal di kedua sisi, delegasi itu sendiri dimungkinkan di level alat.

Batasan

Penghematan kuota penggunaan bersifat data yang dirasakan (disebutkan di atas)
Biaya system prompt alat MCP adalah trade-off yang disengaja - description + schema dari 13 alat menambahkan sekitar 1.6k token ke system prompt setiap conversation. Ini bukan accidental context bloat, melainkan biaya affordance yang dirancang agar model Architect bisa memilih alat delegasi yang sesuai

Lingkungan LLM lokal (Ollama dll, Ollama cloud juga berjalan normal) wajib ada - tanpa itu tidak berfungsi
Nilai pengukuran pencarian berbasis seed sintetis (disebutkan di atas)
Sebagian fungsi Codex CLI belum bekerja (lihat matriks di atas)
Kualitas pencarian bisa terpengaruh oleh kata baru / istilah teknis bahasa Korea

Mengapa bukan prompt seed / AGENTS.md

Pendekatannya bukan mencoba mengatasi batas konteks dengan membuat agen membaca lebih banyak dokumen.
Sebaliknya, unit kerja dipotong kecil-kecil lalu diserahkan ke LLM lokal / berbiaya rendah melalui alat MCP, sementara model Architect tingkat atas fokus pada spec singkat, hasil review, dan penilaian diff final.
Aturan operasi berbasis dokumen lama-kelamaan bisa menimbulkan masalah stale state, drift, dan lost-in-the-middle.
tunaLlama menghindarinya dengan mencatat delegation call ke SQLite, lalu menyediakan lapisan eksekusi yang bisa mencari / recall saat dibutuhkan.

Siapa yang kemungkinan terbantu

Pengguna paket tetap Claude Code Pro/Max (motivasi mengelola kuota)
Pengguna Codex CLI (mengelola paket tetap / kuota API OpenAI)
Orang yang sudah punya lingkungan Ollama lokal / Ollama Cloud / LM Studio
Orang yang menangani pekerjaan berbahasa Korea (integrasi Kiwi)

Tes / lisensi

Rilis v0.5.x usable dogfooding. 507 unit/plugin tests + 27 integration/search_quality tests, 90% coverage.
Perintah pengukuran tercantum di README (pytest --no-cov -q -m "not search_quality and not integration").
Lisensinya MIT. README bahasa Inggris (README.en.md) terus dijaga sinkron. Feedback / issue / PR sangat diterima.
Usulan kompatibilitas dengan AI CLI lain juga diterima.