MemAware – tolok ukur untuk mengukur apakah agen AI tahu "apa yang saya ketahui"

Saat membangun sistem memori agen AI, kami menemukan keterbatasan umum pada benchmark yang sudah ada.

Benchmark memori yang ada seperti LoCoMo, LongMemEval, dan MemoryAgentBench semuanya menguji hal yang sama: "Bisakah menemukan jawaban dari percakapan masa lalu?" Ini adalah pengujian performa mesin pencari, bukan pengujian sistem memori.

Dalam agen multi-sesi yang nyata, hal yang sulit adalah mengingat sendiri konteks masa lalu yang tidak disebutkan oleh pengguna.

Contoh

Easy — ketika kata kunci bertumpang tindih sehingga bisa ditemukan lewat pencarian:

"Kucingku, Luna, terus mencakar sofa baru. Tolong rekomendasikan cara melatihnya."
→ Harus ingat bahwa Luna adalah kucing milik pengguna

Medium — domainnya sama tetapi kata kuncinya berbeda:

"Untuk rapat jam 8:30, sebaiknya aku set alarm jam berapa?"
→ Harus ingat waktu komuter sekali jalan 45 menit yang disebutkan 6 minggu sebelumnya. Jika mencari dengan kata kunci "alarm rapat", percakapan soal komuter tidak akan muncul

Hard — hubungan antar-domain yang benar-benar berbeda:

"Aku meminta transkrip nilai universitas saat lulus pada 2010, tapi mereka bilang tidak ada catatan atas nama yang sekarang."
→ Harus ingat bahwa pengguna mengubah nama belakang dari Johnson. "Transkrip nilai" dan "ganti nama" sama sekali tidak punya tumpang tindih kata kunci

Hasil

Baseline untuk 900 pertanyaan (masing-masing 300 per tingkat kesulitan):

Metode	Easy	Medium	Hard	Total
Tanpa memori	1.0%	0.7%	0.7%	0.8%
Pencarian BM25	4.7%	1.7%	2.0%	2.8%
BM25 + pencarian vektor	6.0%	3.7%	0.7%	3.4%

Temuan utama:

Pencarian BM25 hampir tidak membantu. Peningkatannya kecil dari 0.8% → 2.8%, sementara token yang dikonsumsi 5x lebih banyak
Pencarian vektor juga hanya 0.7% pada Hard — sama seperti tanpa memori. Dengan kemiripan semantik, tidak mungkin menghubungkan "permintaan transkrip nilai" → "ganti nama"
Strategi "selalu lakukan pencarian" hanya membuang biaya. Menghabiskan ~4.7K token per pertanyaan, tetapi sebagian besar hanyalah noise yang tidak relevan

Saat ini, memori berbasis RAG (ChatGPT Memory, Mem0, MemGPT, dll.) semuanya memakai pola "cari setiap saat", dan data ini menunjukkan bahwa pola tersebut punya keterbatasan struktural pada konteks implisit.

Berbasis data sesi LongMemEval (ICLR 2025, lisensi MIT), dan disusun dengan arsitektur plugin untuk menguji sistem memori buatan sendiri.

Saya penasaran dengan pendapat tentang pendekatan yang bisa menyelesaikan tingkat Hard.

MemAware – tolok ukur untuk mengukur apakah agen AI tahu "apa yang saya ketahui"

Contoh

Hasil

Bacaan terkait

Belum ada komentar.