- Makalah tentang metode baru untuk meningkatkan kemampuan memori jangka panjang pada model bahasa besar (LLM) yang digunakan dalam sistem percakapan terbuka
- Masalah penting pada sistem percakapan terbuka yang melupakan informasi penting dalam percakapan jangka panjang
- Solusi yang ada biasanya melatih retriever atau peringkas khusus untuk memperoleh informasi inti dari isi percakapan, tetapi ini memakan banyak waktu dan sangat bergantung pada kualitas data berlabel
- Metode yang diusulkan berupaya meredakan masalah ini dengan menghasilkan ringkasan atau memori secara rekursif menggunakan LLM
- Metode ini mula-mula membuat LLM mengingat konteks percakapan kecil, lalu secara rekursif menghasilkan memori baru menggunakan memori sebelumnya dan konteks berikutnya
- Dengan bantuan memori terbaru, LLM dapat menghasilkan respons yang sangat konsisten
- Metode ini dievaluasi menggunakan ChatGPT dan text-davinci-003, dan hasil eksperimen pada dataset publik yang banyak digunakan menunjukkan bahwa metode ini dapat menghasilkan respons yang lebih konsisten dalam percakapan berkonteks panjang
- Metode ini merupakan solusi potensial yang memungkinkan LLM memodelkan konteks yang sangat panjang
- Kode dan skrip untuk metode ini dijadwalkan akan dirilis di masa mendatang
- Penelitian ini didukung oleh Simons Foundation, institusi anggota, dan semua kontributor
1 komentar
Komentar Hacker News