Agen multi justru boros token dan sering kehilangan konteks? Karena itu saya membuat LLM Wiki dengan struktur 'redaksi surat kabar'.

alfadur · 2026-07-05T11:54:19+09:00

Belakangan ini banyak sistem multiagen otonom bermunculan, tetapi saat benar-benar dijalankan, sering kali hanya menghabiskan token 5–10 kali lebih banyak dan juga kerap kehilangan konteks. Karena itu saya membangun strukturnya dengan meniru redaksi surat kabar. Ada lima peran agen, tetapi satu-satunya agen yang benar-benar dinilai sendiri oleh LLM hanyalah desk (review). Sisanya adalah pekerjaan menulis, pemeriksaan Python berbasis aturan (lint) alih-alih LLM, dan pengaturan alur kerja (orchestration). Seperti konsep LLM Wiki, sistem ini membaca dokumen asli untuk membuat halaman sumber, lalu dari sana mengekstrak draf tokoh dan konsep, kemudian menumpuknya menjadi ringkasan per topik, daftar kontradiksi, dan halaman sintesis. Penyimpanannya cukup file Markdown dengan git, dan semua alat Python berjalan secara lokal. Cukup clone dan Anda bisa langsung menjalankan graf contoh tanpa API key. Contoh yang ada di GitHub saat ini membahas perdebatan "apa itu open source dalam AI", tetapi framework-nya sendiri tidak membatasi topik. Mengapa saya tidak sekadar melepas banyak agen begitu saja Kesan dari orang-orang yang benar-benar menjalankannya sambil menghabiskan ribuan dolar umumnya sampai pada kesimpulan yang sama: token terpakai terlalu banyak, konteks hilang saat agen saling bertukar, dan pekerjaan yang belum selesai ditandai seolah sudah selesai. Karena itu, alih-alih membiarkan sistem memutuskan semuanya sendiri, saya memberi bobot lebih pada aturan yang ditetapkan dan isolasi konteks. Saya memang memakai metafora ruang redaksi, tetapi satu-satunya LLM yang benar-benar bebas menilai hanyalah desk; yang lain hanya melakukan tugas yang sudah ditentukan. Menjawab lebih dulu keberatan yang mungkin muncul Dokumennya akan terus membengkak dan akhirnya tak bisa dipakai: Menurut saya ini kekhawatiran yang paling realistis. Karena itu, peran penulis dan desk yang menentukan kelulusan saya pisahkan sepenuhnya. Kepada desk, saya hanya memperlihatkan hasil akhir dan kriteria penilaian, tanpa menunjukkan niat penulis saat membuatnya. Selain itu, lint berbasis aturan menyaring secara mekanis dokumen yang membengkak, duplikatif, atau melebar tanpa arah. Meski begitu, saya belum bisa mengatakan bahwa pembengkakan ini sudah "tercegah" sepenuhnya. Kalau pengeditan diulang terus, kesalahan akan menumpuk, dan jika sistem memperbaiki dirinya memakai umpan balik buatannya sendiri, akhirnya ia hanya mengulang pola yang sama: Ini memang kecurigaan yang selalu muncul saat bicara soal perbaikan diri, dan menurut saya itu masuk akal. Karena itu, saat cacat yang berulang kali ditemukan desk dimasukkan kembali ke guideline, saya selalu mengganti contoh kegagalan untuk validasi agar sistem tidak hanya terbiasa dengan soal yang sama (overfit). Jadi pengecekan selalu dilakukan dengan kasus yang belum pernah dilihat sebelumnya. Di sisi halaman sintesis, saya juga menambahkan pemeriksaan untuk membandingkan apakah isi dari sumber berbeda tidak dicampur begitu saja. Bukankah ini pada akhirnya hanya RAG dengan embedding yang diubah secara manual?: Jika tujuannya pencarian, itu memang argumen yang valid. Bedanya, hasil akhirnya bukan indeks vektor, melainkan dokumen yang saling terhubung dan bisa langsung dibaca manusia, serta bagian yang tidak selaras antarsumber tidak ditutupi, melainkan ditampilkan terpisah sebagai halaman kontradiksi. Tujuannya bukan mengumpulkan ulang teks asli setiap kali ada pertanyaan, tetapi menyisakan akumulasi penilaian yang sudah dibangun. Konsep lama: Memex Sistem ini dibuat dengan kesadaran akan alur pemikiran seperti Memex karya Vannevar Bush (mesin informasi terhubung yang digagas pada 1945) dan "Man-Computer Symbiosis" karya Licklider. Karena itu, saya menambahkan trail (jalur asosiasi) yang menghubungkan halaman ke halaman, serta fitur discover untuk menemukan keterkaitan tak terduga. Tujuannya bukan sekadar mengekstrak indeks secara otomatis, melainkan meninggalkan jalur yang bisa diikuti manusia secara langsung. Hal yang perlu dipertimbangkan saat menggunakan Pernyataan "tidak memerlukan API key" hanya setengah benar: Python di dalam tools berjalan secara lokal sehingga tidak membutuhkan key eksternal. Namun agen itu sendiri berjalan dengan Claude Code, jadi untuk itu masing-masing tetap harus memakai key mereka sendiri (BYOK). Repo publik ini hanya berisi ide dan contoh kecil: Di dalamnya ada contoh berbahasa Inggris dengan 15 node, jadi siapa pun bisa mereproduksi graf yang sama hanya dengan clone. Instance nyata yang saya jalankan setiap hari, dengan sekitar 2.300 node, disimpan terpisah secara privat, jadi mohon dibedakan dari repo publik ini. Mode bahasa Korea (WIKI_LANG=ko): Hanya isi utama dan metadata di bagian atas dokumen (frontmatter) yang diubah ke bahasa Korea, sementara penanda struktur dokumen seperti ## Summary, [fact], dan sejenisnya sengaja tetap dibiarkan dalam bahasa Inggris. Artinya ini bukan "bahasa Korea sepenuhnya". Latar pembuatan dan status saat ini Titik awalnya adalah menambahkan sebuah implementasi pada gist LLM Wiki yang dibagikan Karpathy. Konsep ini sendiri juga pernah diperkenalkan di GeekNews sebelumnya: https://id.news.hada.io/topic?id=28208 Apakah memisahkan sisi penulisan dan sisi review benar-benar mengurangi kecenderungan meloloskan hasil secara serampangan, dan apakah loop perbaikan diri benar-benar membantu, saat ini masih berupa hipotesis eksperimental dan belum hasil yang terukur dengan baik.

(github.com/alfadur7)

2 poin oleh alfadur 15 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Belakangan ini banyak sistem multiagen otonom bermunculan, tetapi saat benar-benar dijalankan, sering kali hanya menghabiskan token 5–10 kali lebih banyak dan juga kerap kehilangan konteks. Karena itu saya membangun strukturnya dengan meniru redaksi surat kabar.
Ada lima peran agen, tetapi satu-satunya agen yang benar-benar dinilai sendiri oleh LLM hanyalah desk (review). Sisanya adalah pekerjaan menulis, pemeriksaan Python berbasis aturan (lint) alih-alih LLM, dan pengaturan alur kerja (orchestration).
Seperti konsep LLM Wiki, sistem ini membaca dokumen asli untuk membuat halaman sumber, lalu dari sana mengekstrak draf tokoh dan konsep, kemudian menumpuknya menjadi ringkasan per topik, daftar kontradiksi, dan halaman sintesis. Penyimpanannya cukup file Markdown dengan git, dan semua alat Python berjalan secara lokal. Cukup clone dan Anda bisa langsung menjalankan graf contoh tanpa API key.
Contoh yang ada di GitHub saat ini membahas perdebatan "apa itu open source dalam AI", tetapi framework-nya sendiri tidak membatasi topik.

Mengapa saya tidak sekadar melepas banyak agen begitu saja

Kesan dari orang-orang yang benar-benar menjalankannya sambil menghabiskan ribuan dolar umumnya sampai pada kesimpulan yang sama: token terpakai terlalu banyak, konteks hilang saat agen saling bertukar, dan pekerjaan yang belum selesai ditandai seolah sudah selesai.
Karena itu, alih-alih membiarkan sistem memutuskan semuanya sendiri, saya memberi bobot lebih pada aturan yang ditetapkan dan isolasi konteks. Saya memang memakai metafora ruang redaksi, tetapi satu-satunya LLM yang benar-benar bebas menilai hanyalah desk; yang lain hanya melakukan tugas yang sudah ditentukan.

Menjawab lebih dulu keberatan yang mungkin muncul

Dokumennya akan terus membengkak dan akhirnya tak bisa dipakai: Menurut saya ini kekhawatiran yang paling realistis. Karena itu, peran penulis dan desk yang menentukan kelulusan saya pisahkan sepenuhnya. Kepada desk, saya hanya memperlihatkan hasil akhir dan kriteria penilaian, tanpa menunjukkan niat penulis saat membuatnya. Selain itu, lint berbasis aturan menyaring secara mekanis dokumen yang membengkak, duplikatif, atau melebar tanpa arah. Meski begitu, saya belum bisa mengatakan bahwa pembengkakan ini sudah "tercegah" sepenuhnya.
Kalau pengeditan diulang terus, kesalahan akan menumpuk, dan jika sistem memperbaiki dirinya memakai umpan balik buatannya sendiri, akhirnya ia hanya mengulang pola yang sama: Ini memang kecurigaan yang selalu muncul saat bicara soal perbaikan diri, dan menurut saya itu masuk akal. Karena itu, saat cacat yang berulang kali ditemukan desk dimasukkan kembali ke guideline, saya selalu mengganti contoh kegagalan untuk validasi agar sistem tidak hanya terbiasa dengan soal yang sama (overfit). Jadi pengecekan selalu dilakukan dengan kasus yang belum pernah dilihat sebelumnya. Di sisi halaman sintesis, saya juga menambahkan pemeriksaan untuk membandingkan apakah isi dari sumber berbeda tidak dicampur begitu saja.
Bukankah ini pada akhirnya hanya RAG dengan embedding yang diubah secara manual?: Jika tujuannya pencarian, itu memang argumen yang valid. Bedanya, hasil akhirnya bukan indeks vektor, melainkan dokumen yang saling terhubung dan bisa langsung dibaca manusia, serta bagian yang tidak selaras antarsumber tidak ditutupi, melainkan ditampilkan terpisah sebagai halaman kontradiksi. Tujuannya bukan mengumpulkan ulang teks asli setiap kali ada pertanyaan, tetapi menyisakan akumulasi penilaian yang sudah dibangun.

Konsep lama: Memex

Sistem ini dibuat dengan kesadaran akan alur pemikiran seperti Memex karya Vannevar Bush (mesin informasi terhubung yang digagas pada 1945) dan "Man-Computer Symbiosis" karya Licklider.
Karena itu, saya menambahkan trail (jalur asosiasi) yang menghubungkan halaman ke halaman, serta fitur discover untuk menemukan keterkaitan tak terduga. Tujuannya bukan sekadar mengekstrak indeks secara otomatis, melainkan meninggalkan jalur yang bisa diikuti manusia secara langsung.

Hal yang perlu dipertimbangkan saat menggunakan

Pernyataan "tidak memerlukan API key" hanya setengah benar: Python di dalam tools berjalan secara lokal sehingga tidak membutuhkan key eksternal. Namun agen itu sendiri berjalan dengan Claude Code, jadi untuk itu masing-masing tetap harus memakai key mereka sendiri (BYOK).
Repo publik ini hanya berisi ide dan contoh kecil: Di dalamnya ada contoh berbahasa Inggris dengan 15 node, jadi siapa pun bisa mereproduksi graf yang sama hanya dengan clone. Instance nyata yang saya jalankan setiap hari, dengan sekitar 2.300 node, disimpan terpisah secara privat, jadi mohon dibedakan dari repo publik ini.
Mode bahasa Korea (WIKI_LANG=ko): Hanya isi utama dan metadata di bagian atas dokumen (frontmatter) yang diubah ke bahasa Korea, sementara penanda struktur dokumen seperti ## Summary, [fact], dan sejenisnya sengaja tetap dibiarkan dalam bahasa Inggris. Artinya ini bukan "bahasa Korea sepenuhnya".

Latar pembuatan dan status saat ini

Titik awalnya adalah menambahkan sebuah implementasi pada gist LLM Wiki yang dibagikan Karpathy. Konsep ini sendiri juga pernah diperkenalkan di GeekNews sebelumnya: https://id.news.hada.io/topic?id=28208
Apakah memisahkan sisi penulisan dan sisi review benar-benar mengurangi kecenderungan meloloskan hasil secara serampangan, dan apakah loop perbaikan diri benar-benar membantu, saat ini masih berupa hipotesis eksperimental dan belum hasil yang terukur dengan baik.

Agen multi justru boros token dan sering kehilangan konteks? Karena itu saya membuat LLM Wiki dengan struktur 'redaksi surat kabar'.

Bacaan terkait

Belum ada komentar.