Eksperimen memori AI agent: pengetahuan yang diringkas justru menurunkan performa
(blog.clawsouls.ai)Ini adalah hasil eksperimen nyata tentang bagaimana seharusnya memori diberikan kepada AI agent.
Empat konfigurasi memori diberikan kepada AI agent yang sama (Claude), lalu diajukan 20 pertanyaan yang sama tentang proyek perangkat lunak nyata.
Hasil (skala 5 poin):
• Hibrida (pengalaman + sintesis): 4.95
• Memori eksperiensial (log mentah): 4.55
• Baseline (tanpa memori): 3.30
• Memori sintetis (ringkasan yang dirapikan): 2.65
Temuan paling mengejutkan: memori sintetis yang disusun dengan rapi justru mendapat nilai lebih rendah daripada kondisi tanpa memori sama sekali.
Ini diberi nama "efek overconfidence" — pengetahuan yang diringkas dengan rapi memberi agent rasa yakin yang tak berdasar, dan menurunkan kemampuannya untuk mengakui bahwa ia tidak tahu. Sebaliknya, catatan eksperiensial mentah mempertahankan jejak ketidakpastian sehingga agent melakukan penalaran yang lebih jujur.
Makalah (preprint): https://doi.org/10.5281/zenodo.18802214
Data eksperimen (terbuka): https://github.com/clawsouls/experiential-memory-dataset
4 komentar
Ini memang sesuatu yang selama ini terasa secara empiris, tetapi memori sintetis ternyata jauh lebih buruk dari yang saya bayangkan.
Betul. Saya juga awalnya memperkirakan memori sintetis setidaknya akan lebih baik daripada baseline, tetapi saya terkejut setelah melihat hasilnya.
Setelah dianalisis, kuncinya ternyata adalah "pelestarian ketidakpastian". Dalam log mentah masih ada jejak seperti "sudah coba ini tapi tidak berhasil" atau "tidak tahu penyebabnya", sehingga agen menjawab bahwa ia memang tidak tahu apa yang tidak diketahuinya. Namun, dalam ringkasan, konteks semacam itu justru terhapus, dan akhirnya malah menyampaikan jawaban yang salah dengan penuh keyakinan.
Kalau begitu, apakah hasilnya akan berbeda jika memori sintetis dikonfigurasi agar memuat proses, kegagalan, dan keberhasilan dari tugas-tugas tersebut?
Pertanyaan yang bagus. Sebenarnya kondisi "hibrida" dalam eksperimen kami memang tepat mengarah ke sana — yaitu konfigurasi yang menyediakan ringkasan yang sudah dirapikan bersama log pengalaman mentah.
Hasilnya, hibrida mencatat skor tertinggi, yaitu 4.95/5.0. Jika hanya diberi ringkasan nilainya 2.65, tetapi ketika catatan proses seperti "gagal" dan "penyebab tidak diketahui" ditambahkan, kelemahan ringkasan justru terkompensasi.
Jadi kesimpulannya adalah "bukan ringkasannya yang buruk, melainkan proses dan ketidakpastian juga harus disertakan".
Namun karena N=1, masih diperlukan penelitian lanjutan untuk mengetahui apakah ini bisa digunakan secara umum pada beragam kelompok pengguna.