Gemento: harness eksperimen untuk memperkuat tugas panjang pada LLM lokal kecil dengan state eksternal, tool, peran, dan loop

(github.com/hang-in)

3 poin oleh kurthong 2026-05-05 | Belum ada komentar. | Bagikan ke WhatsApp

Halo.

Saya telah membuka sebuah repositori untuk bereksperimen melihat seberapa jauh LLM lokal kecil mampu bertahan pada tugas panjang.

Gemento
https://github.com/hang-in/gemento

Proyek ini bukan arsitektur model baru, bukan paper, dan juga bukan klaim bahwa model 4B bisa menggantikan model frontier.

Sebaliknya, ini lebih dekat ke sebuah harness eksperimen untuk mengukur dalam bentuk yang dapat direproduksi apakah, jika sebagian hal yang selama ini dianggap harus berada di dalam model dipindahkan ke luar workflow, performa model kecil bisa pulih sampai tingkat tertentu.

Titik awalnya adalah masalah yang berulang kali saya hadapi saat membuat seCall dan tunaFlow.

Tugas panjang tidak bisa bertahan melampaui satu sesi
Context menjadi mahal terlalu cepat
Model tidak cukup mampu menemukan kesalahannya sendiri
Model lokal kecil memiliki batasan yang jelas dalam inferensi sekali jalan

Jadi saya memulai dari pertanyaan sederhana.

Alih-alih terus menambah prompt context, bagaimana jika memori, state, verifikasi, komputasi, dan kontrol loop dipindahkan ke luar?

Di Gemento, ini dibagi ke dalam empat sumbu.

Tattoo
Memori kerja / state antara dieksternalisasi sebagai state JSON terstruktur
Tools
Komputasi dieksternalisasi sebagai tool berbasis function call
Role
Verifikasi diri dieksternalisasi melalui pemisahan peran Proposer / Critic / Judge
Orchestrator
Kondisi penghentian dan kontrol iterasi dieksternalisasi sebagai loop Python

Namanya diambil dari metafora tato, polaroid, dan memo dalam film Memento.

Model yang paling banyak digunakan sejauh ini adalah Gemma 4 E4B, model lokal efektif di kelas 4B.

Ukuran sampel masih kecil, dan sebagian hasil belum signifikan secara statistik. Karena itu, di README saya juga membedakan supported / conditionally supported / inconclusive / rejected.

Hasil yang paling menonjol kira-kira sebagai berikut.

Dibanding inferensi sekali jalan, multi-loop jelas lebih baik.
Exp02: 50% → 94.4%
Exp10: 1-loop 41.3% → 8-loop ABC 78.1%
Metode menyuruh model yang sama untuk “meninjau apakah kamu salah” hampir sepenuhnya gagal.
Exp03: 0 dari 15 planted error terdeteksi
Sebaliknya, jika peran dipisahkan, deteksi error meningkat jauh.
Exp035: 12 dari 15 terdeteksi, 80%
Untuk perhitungan matematika, efek eksternalisasi tool terlihat jelas.
Di Exp08 / Exp08b, ketika tool call dan error hint dipaksa, tugas matematika tertentu pulih dari 0% → 100%.
Pada tugas dengan context panjang, chunked ABC+Tattoo jauh lebih kuat daripada dump sederhana.
Pada kondisi Exp09 Large 20K, Solo 0%, RAG 67%, ABC+Tattoo 100%
Namun, saya belum menyimpulkan bahwa ABC+Tattoo secara umum lebih baik daripada RAG. H9b masih inconclusive.
Metode memasukkan model yang lebih kuat sebagai Judge justru gagal.
Di Exp11, hanya Judge yang diganti menjadi Gemini 2.5 Flash, tetapi kondisi mixed hasilnya lebih rendah daripada baseline all-Gemma.
Mekanisme yang diamati lebih mengarah pada: “Judge yang lebih kuat bukan membantu proses penemuan diri model yang lemah, melainkan dapat mengganggu schema state antara dan konvergensi kesimpulan.”
Sebaliknya, menambahkan peran Extractor di tahap depan memberi efek kecil namun positif.
Exp12: Δ +0.050
Terutama, ada pemulihan pada sebagian catastrophic case.
Peran Reducer di tahap belakang justru lebih buruk.
Exp13: Δ -0.053
Dalam proses “merapikan” jawaban akhir, teramati abstraction loss, yaitu struktur dasar bukti terkompresi sehingga skor turun.

Karena itu, interpretasi saya saat ini adalah sebagai berikut.

Daripada selalu memaksa model kecil diadili oleh model yang lebih kuat, penempatan peran mungkin lebih penting, bahkan jika masih memakai model yang sama.

Khususnya, penambahan peran pre-stage relatif aman, sedangkan ringkasan/perapian post-stage berisiko.

Saya juga menuliskan dengan jelas apa yang belum saya klaim dalam proyek ini.

Bukan klaim bahwa model 4B menggantikan model besar
Bukan klaim bahwa ABC+Tattoo selalu lebih baik daripada RAG
Bukan arsitektur baru atau metode training baru
Bukan klaim bahwa uji statistik setingkat paper sudah selesai
Sebagian related work masih belum selesai bibliographic verification

Untuk saat ini, proyek ini lebih dekat ke “catatan eksperimen terbuka”.

Eksperimen yang dibuat sendirian mudah menimbulkan ilusi. Terutama pada eksperimen struktural seperti ini, saya melihat hasil bisa mudah bergeser tergantung taskset, scorer, prompt, dan kondisi loop.

Karena itu, saya membukanya sebelum menjadi polished paper.

Feedback yang saya inginkan kira-kira seperti berikut.

Apakah hasilnya dapat direproduksi pada model lokal lain
Apakah taskset / scorer memiliki bias
Apakah baseline RAG sudah cukup adil
Apakah ABC+Tattoo benar-benar menunjukkan failure mode yang berbeda
Jika Search Tool / Graph Tool / Evidence Tool ditambahkan, apakah pada sumbu Tool akan muncul efek yang lebih jelas

Eksperimen kandidat berikutnya adalah Exp14 Search Tool.

Bagi yang tertarik, silakan lihat README atau bagian docs/reference.

Kontra-contoh, kegagalan reproduksi, dan kritik semuanya sangat diterima.

Gemento: harness eksperimen untuk memperkuat tugas panjang pada LLM lokal kecil dengan state eksternal, tool, peran, dan loop

Bacaan terkait

Belum ada komentar.